<aside> 💡 목차

  1. 최종 결과물: IR자료(pdf) 이용한 챗봇 기능 4가지
  2. Architecture
  3. 코드 설명 </aside>

1. 최종 결과물: IR자료(pdf) 이용한 챗봇 기능 4가지

2. Architecture

  1. “IR자료” 를 스타트업에게 받은 후 AWS S3 에 직접 업로드
  2. [Cloud9 환경] pdf 자료 데이터화
    1. s3에 저장된 자료의 presigned url 받기
    2. 전체 자료를 한장씩 ocr 이용하여 텍스트 추출
    3. 추출한 텍스트 전처리 (명사 판별, 빈도수)
  3. 정제된 데이터 → DynamoDB, Elastic 에 저장
  4. 검색엔진과 gpt를 이용하여 Slack에서 서비스 제공

3. 코드 설명 (cloud9이름 = “project_cloud”)

1) ocr_upload.py #ocr

2) IR_slack.py #slack연결 + 기능 4가지

[- config.py #슬랙 토큰 저장파일](https://dog-existence-f9b.notion.site/config-py-085eab486e4d495995775d1401e40d9b)

[- download.py #S3 presigned url 생성 함수](https://dog-existence-f9b.notion.site/download-py-S3-presigned-url-85d92d6a66bb466e9e43f93b70faadcc)

- ocr_connection.py #한장씩 ocr 이용하여 추출한 키워드 리스트

[- summary.py #chatGPT 요약기능 함수 정의](https://dog-existence-f9b.notion.site/summary-py-chatGPT-ddc4d7e9919d4710aff9d8d391d1c0d6)