RAG

RAG란?

RAG(Retrieval-Augmented Generation)는 AI가 답변을 만들 때, 등록된 문서를 참고하여 정확한 답변을 제공하는 방식입니다.


왜 필요한가요?

  • AI가 알지 못하는 기업 전용 내용을 반영할 수 있습니다.

  • 근거 기반 답변을 통해 신뢰성을 높일 수 있습니다.

➔ RAG 문서는 AI 챗봇이 더 신뢰할 수 있는 답변을 드리기 위해 AI가 참고하는 자료로써 활용됩니다.

젤라또에서는 PDF, TXT 형식의 파일을 지식 센터에 업로드하여 RAG 문서로 활용할 수 있습니다.


RAG로 사용하기 적합한 문서가 있나요?

RAG 문서는 AI 가 참고했을 때 정확하고 유용한 답변을 만들 수 있는 자료여야 합니다. 구조화 되어 있지 않거나, AI가 이해할 수 없는 혼재된 주제, 모호한 표현, 너무 많은 이미지가 포함된 자료는 적합하지 않습니다.

권장되는 RAG 문서의 조건은 다음과 같습니다.

항목
내용

구조화된 문서

  • 제목, 소제목, 강조 문구 등을 구조화 된 문서가 적합합니다.

  • 넘버링, 리스트 목록 등을 활용하여 검색이 쉽고 읽기 편하게 작성된 문서를 권장합니다.

명확한 문서

  • 불필요한 수식어나 장황한 문장은 줄이고, 핵심만 담겨 있는 것이 좋습니다.

  • 수식어가 길어지거나 문장이 모호하면 답변의 품질이 낮아집니다.

  • 자주 묻는 질문(FAQ)이나 강조할 내용은 별도의 문서로 만들어 관리하면 더 빠르고 정확한 답변을 제공할 수 있습니다.

일관성 있는 문서

  • 같은 용어를 다르게 쓰면 AI가 혼동할 수 있습니다. (“회원 규정”과 “회원 정책”을 섞기보다는 하나로 통일하는 것이 좋습니다.)

  • 하나의 문서에 일관되지 않은 여러 주제가 섞여있기 보다 하나의 주제에 대한 내용이 적합합니다.

텍스트 중심 문서

  • AI 모델은 텍스트 중심으로 검색합니다. 텍스트 기반의 내용이 적합합니다.

  • 너무 복잡한 표나 이미지는 AI 모델이 내용을 검색하는데 어려움이 있습니다.

좋은 예 (O) / 안 좋은 예 (X)
좋은 예 (O)
안 좋은 예 (X)
  • 제목(H1), 소제목(H2) 구분

  • "1. 설치 → 2. 로그인 → 3. 주문 내역 확인"

  • 리스트/불릿 활용

  • 모든 내용을 한 문단에 나열

  • 제목 없이 본문만 이어짐

  • "로그인 전 → 설치 → 주문 내역 확인"

  • "포인트는 구매 시 구매 금액의 5%가 적립됩니다."

  • "고객센터 운영 시간은 평일 09:00~18:00입니다."

  • FAQ는 별도 문서로 관리

  • "포인트가 적립될수도 있습니다."

  • "고객센터는 낮에 운영하며, 매장이 오픈된 시간만 사용할 수 있고, 오픈되지 않은 시간에는 사용할 수 없지만 사용을 원할 시 ... "

  • FAQ를 본문 맨 아래에 길게 덧붙임

  • 문서 전체에서 “푸시 알림” 용어로 통일

  • “회원 탈퇴”를 일관되게 사용

  • 한 문서에는 한 기능만 다룸

  • “푸시 알림” / “알림 메시지” 혼용

  • “회원 탈퇴” / “계정 삭제” 혼용

  • 한 문서에 로그인, 결제, 환불까지 모두 포함

  • “결제 수단: 카드, 계좌이체, 간편결제”

  • 간단한 표: 상품명 / 가격 / 혜택

  • 이미지와 함께 텍스트 설명 제공

  • 이미지에만 문구 포함 (“결제 수단은 이미지 참조”)

  • 10열 이상 셀 병합 되어 있는 복잡한 표

  • 스크린샷만 첨부하고 텍스트 설명 없음


권장 및 주의 사항

PDF 문서 구성 권장 사항

내용 구성

유형
반영하면 좋은 내용

텍스트 기반 PDF

텍스트 위주의 문서 구성

명확한 제목 구조

대제목, 중제목, 소제목 수준의 시각적 구분 포함

단락 중심 구성

한 단락은 1~4줄, 과도한 압축/장문의 문장 지양

논리적 흐름

목차 → 본문 → FAQ 순서

페이지별 주제 분리

각 페이지가 독립적인 주제를 가지도록 구성

권장 용량

내용
권장 기준

최대 용량 권장치

30MB 이하

페이지 수

100페이지 권장 (최대 400페이지)

텍스트량

약 80,000~150,000자

주의사항

  • 이미지 기반 PDF 는 검색 인식이 낮을 수 있습니다.

  • 다단 레이아웃 구성 (2~3단)은 텍스트 순서 혼동 및 청크 오류가 발생할 수 있습니다.

  • 폼/표 위주의 복잡성이 높은 레이아웃 문서는 검색 추출 정확도가 낮습니다.

  • 길이가 너무 긴 링크는 AI 챗봇 답변 시 링크가 잘리는 경우가 있을 수 있습니다.

  • 일부 폰트는 챗봇이 RAG 문서를 인식할 때 인코딩 오류가 발생할 수 있으므로 주의가 필요합니다.

한국어 권장 폰트: Noto Sans KR, 맑은 고딕, 나눔 고딕

Last updated

Was this helpful?