devkuma – RAG

devkuma – RAG https://www.devkuma.com/jp/tags/rag/ https://www.devkuma.com/jp/tags/rag/logo/180x180.jpg RAG https://www.devkuma.com/jp/tags/rag/ Recent content in RAG on devkuma Hugo -- gohugo.io jp kc@example.com (kc kim) kc@example.com (kc kim) The devkuma RAG（Retrieval-Augmented Generation） https://www.devkuma.com/jp/docs/ai/rag/ Sat, 30 Aug 2025 13:09:00 +0900 kc@example.com (kc kim) https://www.devkuma.com/jp/docs/ai/rag/ <h2 id="ragretrieval-augmented-generationの概念">RAG（Retrieval-Augmented Generation）の概念</h2> <ul> <li><strong>RAG = 検索（Retrieval）+ 生成（Generation）</strong></li> <li>LLM（大規模言語モデル）が自分の内部知識だけで答えを生成するのではなく、外部データベース（例: 文書、ベクトルDB、Wiki、社内資料など）から関連情報を検索し、その結果を基に回答を生成する。</li> </ul> <p>つまり、単に「モデルが知っていること」だけを使うのではなく、「必要なときに外部で調べて答える」賢いアシスタントのような概念である。</p> <h2 id="なぜ必要なのか">なぜ必要なのか？</h2> <ul> <li>LLMの知識限界を克服 <ul> <li>LLMは学習時点以降の最新情報を知らない。</li> <li>たとえば、GPTのようなモデルは学習時点以降の最新情報を知らない。</li> <li>RAGを使うと、DBやWebから取得した資料を活用できる。</li> </ul> </li> <li>幻覚（Hallucination）を減らす <ul> <li>LLMは知らないことを作り上げる場合がある。</li> <li>外部の根拠資料を活用すると、回答の信頼性を高められる。</li> <li>根拠のない回答ではなく、実際の文書やDBを根拠に回答できる。</li> </ul> </li> <li>カスタム知識の活用 <ul> <li>企業内部文書、報告書、顧客FAQ、論文、コードベースなどの<strong>専用データ</strong>をLLMが使用できる。</li> <li>社内の機密文書を学習させなくても活用できる。</li> </ul> </li> </ul> <h2 id="ragの動作構造">RAGの動作構造</h2> <ul> <li>クエリ（Query）入力 <ul> <li>ユーザーが質問を入力する。</li> </ul> </li> <li>検索（Retrieval）段階 <ul> <li>質問をベクトル化（埋め込み）した後、ベクトルデータベースから関連文書を検索する。</li> <li>代表的なDB: Pinecone、Weaviate、Milvus、FAISSなど。</li> </ul> </li> <li>生成（Generation）段階 <ul> <li>LLMが検索された文書を参照して回答を生成し、一緒に伝達する。</li> </ul> </li> </ul> <p><img src="https://www.devkuma.com/docs/ai/rag.png" alt="RAG"></p> <p>つまり、<strong>「探して -> 参照して -> 回答する」構造</strong>である。</p> <h2 id="例">例</h2> <p>たとえば、「当社の2023年売上はいくら？」という質問が入った場合:</p> <ul> <li>LLM単独: 「2023年の売上は1億ドルです。」（根拠なし、誤っている可能性あり）</li> <li>RAG活用: 会社内部の財務報告書を検索 -> 関連データを取得 -> 「2023年の当社売上は9,200億ウォンで、前年比8%成長しました。」（根拠のある回答）</li> </ul> <h2 id="比喩で理解する">比喩で理解する</h2> <ul> <li><strong>LLM単独</strong>: 記憶力のよい人。ただし最新情報は知らない場合がある。</li> <li><strong>RAG使用</strong>: 記憶力のよい人が<strong>辞書や検索エンジン</strong>を参照して回答すること。</li> </ul> <h2 id="ragとfine-tuningの比較">RAGとFine-tuningの比較</h2> <ul> <li>Fine-tuning: モデル自体を追加学習し、新しい知識を「内在化」する</li> <li>RAG: モデルはそのままにし、外部資料を検索して活用する</li> </ul> <table> <thead> <tr> <th>方法</th> <th>利点</th> <th>欠点</th> </tr> </thead> <tbody> <tr> <td>Fine-tuning</td> <td>応答が速く自然</td> <td>データを更新するたびに再学習が必要</td> </tr> <tr> <td>RAG</td> <td>常に最新/カスタム情報を反映可能、素早く構築可能</td> <td>検索品質によって回答品質が左右される</td> </tr> </tbody> </table> <p>実務では、RAGに必要に応じて一部Fine-tuningを組み合わせて使うことが多い。</p> <h2 id="rag実装に使われる技術スタック">RAG実装に使われる技術スタック</h2> <ul> <li>埋め込みモデル: OpenAI Embeddings、Sentence-BERTなど</li> <li>ベクトルDB: Pinecone、Weaviate、Milvus、FAISS</li> <li>LLM: GPT、Claude、LLaMA、Geminiなど</li> <li>フレームワーク: LangChain、LlamaIndex、Haystack</li> </ul> <h2 id="まとめ">まとめ</h2> <ul> <li>RAGはLLMが検索システムを併用し、信頼できる最新情報を反映した回答を生成する方式である。</li> <li>つまり、知識の拡張と信頼性補強のための中核技術である。</li> </ul> AI RAG