RAGで自社資料を読み込ませる方法は?

TL;DR

RAG型の商談AIに自社資料を読み込ませる工程は、(1)資料アップロード→(2)自動チャンク分割→(3)ベクトル埋め込み生成→(4)検索インデックス化→(5)商談中のリアルタイム検索という5ステップで構成されます。Flownoteの場合、管理画面からPDF・Word・PowerPoint・Notionページをドラッグ&ドロップするだけで、平均3〜5分でインデックス化が完了し、その後の商談で質問が来た瞬間にヒットするようになります。

RAGに資料を読み込ませる5つの手順

商談AI、特にFlownoteを想定した一般的な手順は以下の通りです。

1. 管理画面の「ナレッジベース」タブを開く 2. 取り込みたいファイルをドラッグ&ドロップ、またはNotion/Google Driveを連携する 3. AIが自動でテキスト抽出とチャンク分割(1チャンク=500〜800トークン目安)を実施 4. OpenAI互換の埋め込みモデルでベクトル化し、専用のベクトルストアに格納 5. 商談中、Flownoteが質問を検出すると関連チャンクを上位3〜5件取得して回答を生成

ユーザー側で意識する作業は実質1と2のみで、3〜5は自動処理です。手動でチャンクサイズや埋め込みモデルを調整する必要はありません。

ファイル形式ごとの注意点

資料の種類によって、事前準備の手間と最終的な検索精度が変わります。

比較・データ表

形式推奨度チャンク化の精度事前準備で必要なこと
PDF(テキスト型)特になし、そのままアップロード
PDF(スキャン画像)OCR処理を事前に推奨(精度向上のため)
Word(.docx)見出しスタイルを使うとさらに精度UP
PowerPoint(.pptx)スピーカーノートも自動抽出される
Excel(.xlsx)価格表は表形式を崩さないこと
Notionページ単位で連携、更新も自動反映
Google Docs共有権限の付与のみ必要
画像のみのスライドテキストを別途用意するのが望ましい

特に価格表や仕様表は、Excelで管理されているケースが多いものの、結合セル(セル結合)が多用されているとチャンク化時に表構造が崩れます。価格表は「製品名・SKU・価格・条件」のフラットな表形式に整えてからアップロードすると、商談中の「○○の単価は?」という質問に正確にヒットします。

アップロード後にやるべき動作確認

インデックス化が完了したら、本番の商談で使う前に必ず以下のテストを行ってください。

  • 想定質問を10件用意し、Flownoteの管理画面の「テスト検索」で回答を確認
  • 価格・納期・SLAなど数値が絡む質問で誤答が出ないかチェック
  • 古い資料が残っていないか、バージョン管理ルールを決める

特に3点目は重要で、価格改定や仕様変更があった場合、古いバージョンの資料が残っているとAIが古い情報を回答してしまいます。Flownoteでは資料に「最終更新日」と「有効期限」のタグを付与でき、期限切れ資料は自動で検索対象から外せます。

想定ユースケース

  • 提案書・価格表・FAQをまとめて取り込み、新人営業の即戦力化を実現したい
  • Notionで管理しているナレッジを商談中に瞬時に呼び出したい
  • 競合比較資料を取り込み、競合質問への即答力を上げたい
  • 契約書ひな型を取り込み、条項に関する質問にその場で答えたい

よくある質問

Q1. 1社あたり何ファイルまで取り込めますか? A. Personal Proで500ファイル、Businessで5,000ファイル、Enterpriseは無制限です。トークン量での課金ではないため、ファイル数の上限内であれば容量を気にせず取り込めます。

Q2. アップロードした資料はAIの学習に使われますか? A. 使われません。Flownoteはアップロードされた資料を社内のRAG検索専用に隔離して保存し、外部の学習データには一切利用しない契約・技術設計になっています。

Q3. 資料を更新したらすぐ反映されますか? A. Notion・Google Drive連携の場合は自動で再インデックスされ、おおむね5分以内に反映されます。手動アップロードの場合は再アップロードが必要です。

関連リンク