<aside>
💡 목차
- 최종 결과물: IR자료(pdf) 이용한 챗봇 기능 4가지
- Architecture
- 코드 설명
</aside>
1. 최종 결과물: IR자료(pdf) 이용한 챗봇 기능 4가지
-
- “IR 요약하기” - IR자료 내용 요약하는 기능
-
- “키워드 검색” - 스타트업의 IR자료 주요 키워드 10개 알려주는 기능
-
- “IR 태깅 검색” - 특정 키워드가 포함된 모든 IR 자료 알려주는 기능
-
- “IR자료 다운받기” - 필요한 IR자료 검색 후 바로 다운로드 할 수 있는 기능
2. Architecture
-
Architecture Overview
- “IR자료” 를 스타트업에게 받은 후 AWS S3 에 직접 업로드
- [Cloud9 환경] pdf 자료 데이터화
- s3에 저장된 자료의 presigned url 받기
- 전체 자료를 한장씩 ocr 이용하여 텍스트 추출
- 추출한 텍스트 전처리 (명사 판별, 빈도수)
- 정제된 데이터 → DynamoDB, Elastic 에 저장
- 검색엔진과 gpt를 이용하여 Slack에서 서비스 제공
3. 코드 설명 (cloud9이름 = “project_cloud”)
1) ocr_upload.py #ocr
2) IR_slack.py #slack연결 + 기능 4가지
[- config.py #슬랙 토큰 저장파일](https://dog-existence-f9b.notion.site/config-py-085eab486e4d495995775d1401e40d9b)
[- download.py #S3 presigned url 생성 함수](https://dog-existence-f9b.notion.site/download-py-S3-presigned-url-85d92d6a66bb466e9e43f93b70faadcc)
- ocr_connection.py #한장씩 ocr 이용하여 추출한 키워드 리스트
[- summary.py #chatGPT 요약기능 함수 정의](https://dog-existence-f9b.notion.site/summary-py-chatGPT-ddc4d7e9919d4710aff9d8d391d1c0d6)