如何高效提升大模型的RAG效果？多种实用策略一次掌握-369IT编程

admin管理员组
文章数量:1037775

如何高效提升大模型的RAG效果？多种实用策略一次掌握

持续提升RAG（检索增强生成，Retrieval-Augmented Generation）的效果是当前许多企业应用大模型时非常关注的一个关键问题。虽然RAG看起来简单，但真正要做到效果持续提升，还真不是一件容易的事。咱们今天就用更轻松的语言，结合实际案例，聊聊如何通过多种策略持续增强RAG能力，帮助你在实际落地项目中游刃有余。

我是Fanstuck，致力于将复杂的技术知识以易懂的方式传递给读者，热衷于分享最新的行业动向和技术趋势。如果你对大模型的创新应用、AI技术发展以及实际落地实践感兴趣，那么请关注Fanstuck。

引言

在大模型普及的今天，很多人发现，尽管模型变得越来越强大，但有时候它给出的回答仍然可能离奇到让人怀疑人生。比如你问它某个真实人物的信息，它却能一本正经地编出一个虚构的背景故事——我们管这叫“模型幻觉”。

为了解决这一问题，一种叫作RAG（检索增强生成，Retrieval-Augmented Generation）的技术应运而生。简单来说，RAG就像是给大模型装上了一套“外置记忆库”，当模型回答问题时，可以从这个记忆库中查找准确的信息，避免自己“胡编乱造”。

举个简单的例子：

假如你问：“北京大学创立于哪一年？” 传统的生成模型可能会凭经验随口回答：“北京大学创立于1900年左右。”（事实上是错误的）而使用RAG后，模型会先在外部知识库中准确找到：“北京大学创立于1898年”，再给你精准的答案。

在实际应用中，RAG的优势主要表现在两点：

提升回答准确性：模型不再依赖训练时记住的知识，而是实时查找最新、最准确的数据；
减少“幻觉”现象：通过明确的数据源，降低了模型胡乱编造答案的可能性。

那么，如何有效地进一步提升RAG效果呢？本文将从多个方面为你详细介绍几种实操性强的策略，帮你让模型的“外置记忆”更加强大，真正提升企业效率和用户满意度。

一、影响RAG效果的关键因素

想要大模型的RAG效果更好，得先搞清楚影响效果的几个关键因素。毕竟，如果我们连问题都没找到，怎么可能对症下药呢？在实际业务里，很多朋友都会有这样的疑惑：

“为什么同样用的RAG技术，我家的大模型还是没有别人的准？”

别急，接下来我们聊一聊影响RAG效果的几个核心因素，并结合一些好玩的案例，给你点实操灵感。

1. 数据质量（Data Quality）：好数据是成功的一半

俗话说得好：“垃圾进，垃圾出”，用在RAG上尤其贴切。想让大模型说话靠谱，首先就要确保你给它喂的数据足够干净、清晰且准确。

比如说你正在做一个企业内部的知识问答助手，如果给它喂的数据杂乱无章，甚至错漏百出，那模型可就要闹笑话了。之前就有个公司搞RAG的时候，把没清理过的员工手册直接塞进知识库，结果问了句“请假流程是什么”，模型张口就是去年已经废弃的老版本流程，搞得员工一头雾水。

实操小tips：

文档拆分一定要合理，避免过大或过小导致的检索失败。
定期更新数据，保证知识库信息的准确性和实时性。

2.检索策略与算法优化:不选最快的，只选最合适的

数据再好，也得看你怎么“找”。检索策略和算法就像是模型的导航系统，导航不给力，再好的数据模型也用不上。

举个例子，有家公司之前用最简单的暴力搜索（brute force）做检索，刚开始文档少的时候速度还凑合，但文档量一大，问题就来了。问个问题等半天，结果客户服务AI还没给回复，人已经流失了。后来换成近似最近邻搜索算法（ANN），速度一下子提升了几十倍，用户体验明显提升，用户投诉瞬间下降不少。当数据量小，可以用简单粗暴的KNN；数据量一旦上万甚至百万级，推荐用ANN（近似最近邻搜索）算法，效率直接起飞。

3.向量库与Embedding模型的选择：选对了事半功倍

向量库和Embedding模型就像是你给模型准备的“武器”，不同组合效果大不一样。

比如之前一个朋友折腾了好几个向量库，从FAISS换到Milvus再换到Pinecone，发现效果参差不齐。后来深入一查，原来问题不止在向量库上，embedding模型的选择也大有讲究。同样的数据，用不同的embedding模型，召回准确率竟然差了一大截。

他最后选了一个性价比最高的方案：OpenAI的embedding模型搭配Milvus向量库，检索效果直接飙升，用户投诉量明显减少。如果追求高性能和易部署，FAISS、Milvus都是优质之选；embedding模型建议从OpenAI或Sentence Transformers开始，先快速做小范围对比，挑准再大规模用。

4.检索结果的排序与重排技术：先找到再排好，才是真完美

检索到的数据往往是大批量的，如果不排个先后顺序，用户一看估计脑袋就大了。所以检索结果的排序与重排就变得特别重要。

比如，一家做法律咨询的公司，之前RAG系统做完后，用户咨询一个法律问题，结果出来几十条文档，但真正有用的那条偏偏排在后面，用户每次都要往下翻，烦到想卸载app。后来他们加入了基于Cross-Encoder的重排技术，模型自动把最贴合用户问题的答案顶到最前面，客户满意度飙升。初步检索后，使用Cross-Encoder重排，可极大提升用户体验；如果你追求极致性能，也可以尝试多轮重排，当然也要注意时间成本的平衡。

到这里，我们就把影响RAG效果的关键因素聊得差不多了。记住，好数据、好策略、好工具、好排序，四大法宝一样都别落下，才是真正做好RAG的秘籍。接下来，我们就详细拆解一下，每个环节具体如何优化，助力RAG能力不断提升。

二、如何有效提升RAG效果？

提升RAG的效果并非只是单纯依赖算法的强大，而是各个环节的全面优化，只有将这些环节优化到位，模型的表现才能真正令人满意。接下来我会逐一介绍几个关键策略，并结合实际案例和一些代码片段，更轻松地把握实操方法。

策略1：优化数据处理与文档拆分方法

很多时候，我们觉得数据越多越好，其实不然。数据的组织方式直接决定了模型的检索效率和回答准确性。

为什么文档拆分如此重要？

假设你在做企业内部的知识库问答系统，用户问了一个关于“公司请假规定”的问题。你把整篇100多页的员工手册作为一个整体放进知识库里，模型需要每次从头到尾看一遍，效率必然低下。如果你提前把文档按照主题或章节分割成小段，模型直接锁定准确的内容再进行回答，效率肯定大大提升。

文档拆分的优化方法

1. 基于语义的分割

不同于简单的按字符数或句子数机械分割，基于语义的分割能保证每个片段包含完整的语义信息。

2. 重叠分割策略

在片段之间保留适当重叠，避免关键信息被分割在不同片段中丢失。

3. 元数据增强

为每个片段添加元数据（如标题、章节信息），提高检索相关性。

4. 分层分割

对文档进行多级分割，既有细粒度片段也有大段落，满足不同检索需求。

Python实现文档拆分

引用必要的库：

代码语言：javascript代码运行次数：0运行复制

 import re
 import nltk
 from nltk.tokenize import sent_tokenize
 import spacy
 from langchain_text_splitters import (
     RecursiveCharacterTextSplitter,
     MarkdownHeaderTextSplitter,
     SpacyTextSplitter
 )
 
 # 下载必要的NLTK资源(首次运行需要)
 nltk.download('punkt')

基础字符分割

适合结构简单的文档，实现简单但不保证语义完整性：

代码语言：javascript代码运行次数：0运行复制

 # 1. 基础文本分割 - 按字符数
 def basic_chunk_by_chars(text, chunk_size=1000, chunk_overlap=200):
     """
     基础分割：按字符数分割文档
     """
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=chunk_size,
         chunk_overlap=chunk_overlap,
         length_function=len,
         is_separator_regex=False,
     )
     return text_splitter.split_text(text)

Markdown标题分割

适合有明确标题层级的结构化文档，如提到的员工手册

代码语言：javascript代码运行次数：0运行复制

 # 2. 基于Markdown标题的分割
 def chunk_by_headers(markdown_text):
     """
     按Markdown标题分割文档
     适合结构化文档如员工手册
     """
     headers_to_split_on = [
         ("#", "Header 1"),
         ("##", "Header 2"),
         ("###", "Header 3"),
     ]
     
     markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
     return markdown_splitter.split_text(markdown_text)

语义分割

保持语句和段落完整性，适合需要上下文理解的复杂文档

代码语言：javascript代码运行次数：0运行复制

 # 3. 基于语义的分割（使用SpaCy）
 def semantic_chunk(text, chunk_size=1000, chunk_overlap=200):
     """
     基于语义分割文档，保持句子和段落的完整性
     """
     try:
         # 加载中文模型
         nlp = spacy.load("zh_core_web_sm")
     except OSError:
         # 如果模型未安装，尝试下载
         import os
         os.system("python -m spacy download zh_core_web_sm")
         nlp = spacy.load("zh_core_web_sm")
     
     text_splitter = SpacyTextSplitter(
         chunk_size=chunk_size,
         chunk_overlap=chunk_overlap,
         separator=" ",
         pipeline="zh_core_web_sm"
     )
     return text_splitter.split_text(text)

如果是较为复杂的文档，需要考虑到段落、标题和语义边界的关系，则需要加入多种策略：

代码语言：javascript代码运行次数：0运行复制

 # 4. 高级自定义分割 - 考虑段落、标题和语义边界
 def advanced_chunk(text, chunk_size=1000, chunk_overlap=200):
     """
     高级分割策略，考虑多种因素
     """
     # 首先按段落分割
     paragraphs = re.split(r'\n\s*\n', text)
     
     chunks = []
     current_chunk = ""
     current_size = 0
     
     for para in paragraphs:
         # 如果段落本身就超过了chunk_size，需要进一步分割
         if len(para) > chunk_size:
             # 添加已累积的内容为一个块
             if current_size > 0:
                 chunks.append(current_chunk)
                 # 保留部分重叠内容
                 current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
                 current_size = len(current_chunk)
             
             # 分割大段落为句子
             sentences = sent_tokenize(para)
             
             for sent in sentences:
                 if current_size + len(sent) + 1 <= chunk_size:
                     if current_chunk:
                         current_chunk += " " + sent
                     else:
                         current_chunk = sent
                     current_size += len(sent) + 1
                 else:
                     # 当前块已满，添加到chunks
                     chunks.append(current_chunk)
                     # 保留部分重叠内容
                     current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
                     current_chunk += " " + sent
                     current_size = len(current_chunk)
         else:
             # 如果添加当前段落会超过chunk_size，先保存当前块
             if current_size + len(para) + 2 > chunk_size and current_size > 0:
                 chunks.append(current_chunk)
                 # 保留部分重叠内容
                 current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
                 current_size = len(current_chunk)
             
             # 添加段落到当前块
             if current_chunk:
                 current_chunk += "\n\n" + para
                 current_size += len(para) + 2
             else:
                 current_chunk = para
                 current_size = len(para)
     
     # 添加最后一个块
     if current_chunk:
         chunks.append(current_chunk)
     
     return chunks

中文特定分割

针对中文文档的特点优化，识别中文标题和段落

代码语言：javascript代码运行次数：0运行复制

 # 5. 针对中文的分割方法
 def chinese_text_chunk(text, chunk_size=1000, chunk_overlap=200):
     """
     针对中文文本的分割方法
     """
     # 按段落分割
     paragraphs = re.split(r'\n\s*\n', text)
     
     chunks = []
     current_chunk = ""
     current_size = 0
     
     for para in paragraphs:
         # 检查段落是否包含标题特征
         is_heading = bool(re.match(r'^第[一二三四五六七八九十百千]+[章节条款]|^[一二三四五六七八九十]、|^\d+[\.\s]|^[\u4e00-\u9fa5]{2,10}：', para))
         
         # 如果是标题且当前块不为空，先保存当前块
         if is_heading and current_size > 0:
             chunks.append(current_chunk)
             current_chunk = para
             current_size = len(para)
         # 如果添加当前段落会超过chunk_size，先保存当前块
         elif current_size + len(para) + 2 > chunk_size and current_size > 0:
             chunks.append(current_chunk)
             # 保留部分重叠内容
             current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
             current_chunk += "\n\n" + para
             current_size = len(current_chunk)
         else:
             # 添加段落到当前块
             if current_chunk:
                 current_chunk += "\n\n" + para
                 current_size += len(para) + 2
             else:
                 current_chunk = para
                 current_size = len(para)
     
     # 添加最后一个块
     if current_chunk:
         chunks.append(current_chunk)
     
     return chunks

分层分割

创建多粒度索引，支持不同精度的检索需求

代码语言：javascript代码运行次数：0运行复制

 # 6. 分级分块策略 - 集成多种分块方法，创建多层次索引
 def hierarchical_chunking(text, primary_size=2000, secondary_size=500):
     """
     创建分层索引:
     - 大块(primary)用于广泛上下文理解
     - 小块(secondary)用于精确答案检索
     """
     # 一级分块 - 较大块
     primary_chunks = advanced_chunk(text, chunk_size=primary_size, chunk_overlap=primary_size//5)
     
     # 二级分块 - 在每个大块内创建小块
     all_secondary_chunks = []
     for i, chunk in enumerate(primary_chunks):
         secondary_chunks = advanced_chunk(chunk, chunk_size=secondary_size, chunk_overlap=secondary_size//4)
         # 为每个小块添加元数据，包括来源于哪个大块
         for j, small_chunk in enumerate(secondary_chunks):
             all_secondary_chunks.append({
                 "text": small_chunk,
                 "metadata": {
                     "primary_chunk_id": i,
                     "secondary_chunk_id": j,
                     "primary_chunk_preview": chunk[:100] + "..." # 添加大块预览
                 }
             })
     
     return {
         "primary_chunks": primary_chunks, 
         "secondary_chunks": all_secondary_chunks
     }

策略2：选择适合业务场景的Embedding模型

选对Embedding模型，能明显提升RAG的召回准确性。例如，一个金融知识库与普通聊天机器人适合的Embedding模型肯定不一样。

2.1明确应用场景和数据类型

文本数据：对于文本数据，可以参考HuggingFace的MTEB（Massive Text Embedding Benchmark）排行榜来选择适合的模型。MTEB是一套衡量文本嵌入模型的评估指标合集，它涵盖了多种语言和任务类型，可以帮助你找到在特定任务上表现最佳的模型。

图像或视频数据：对于图像或视频数据，可以选择如CLIP等模型，它在图文检索等多模态任务上表现良好。

多模态数据：如果任务涉及多模态数据，如图文结合的内容，可以选择支持多模态的模型，如ViLBERT。

2.2考虑通用与特定领域需求

通用任务：如果任务较为通用，不涉及太多领域的专业知识，可以选择通用的Embedding模型，如text2vec、m3e-base等。

特定领域任务：如果任务涉及特定领域（如法律、医疗、教育、金融等），则需要选择更适合该领域的模型，如法律领域的Law-Embedding，医学领域的BioBERT。

2.3多语言需求

如果系统需要支持多种语言，可以选择多语言Embedding模型，如BAAI/bge-M3、bce_embedding（中英）等。如果知识库中主要包含中文数据，可以选择如iic/nlp_gte_sentence-embedding_chinese-base等模型。

模型规模和资源限制：较大的模型通常能提供更高的性能，但也会增加计算成本和内存需求。需要根据实际硬件资源和性能需求权衡选择。

查看基准测试和排行榜：查看MTEB排行榜等基准测试框架来评估不同模型的性能，这些排行榜覆盖了多种语言和任务类型，可以帮助你找到在特定任务上表现最佳的模型。

策略3：高效搭建与优化向量库

向量库决定了模型的记忆力好不好用，向量库用得好，模型检索就会更加快速和精准。

1. 开源向量数据库

开源向量数据库如FAISS、Annoy和Milvus等，是开发者常用的选择。这些数据库通常具有高性能、灵活性强和社区支持等优点。

FAISS (Facebook AI Similarity Search)：FAISS是由Facebook开发的开源向量搜索库，它支持大规模、高维度向量的高效相似性搜索。FAISS的优势在于其优化的算法和对GPU的支持，可以显著提高搜索速度。
Annoy (Approximate Nearest Neighbors Oh Yeah)：Annoy是由Spotify开发的开源工具，用于高效的近邻搜索。它特别适合内存有限的场景，因为它可以在内存和磁盘之间进行权衡。
Milvus：Milvus是一个专门为向量搜索设计的开源数据库，支持大规模、高维度向量数据的管理和检索。Milvus集成了多种索引算法，并提供了丰富的API接口，适用于各种应用场景。

2. 商业向量数据库

商业向量数据库如Pinecone、Weaviate等，提供了更多的企业级功能和支持。

Pinecone：Pinecone是一个云原生的向量数据库，提供了高性能的向量搜索服务。它支持自动扩展、数据备份和恢复等企业级功能，适合大规模、高可用性的应用场景。
Weaviate：Weaviate是一个基于机器学习的向量数据库，支持多种数据类型和复杂查询。它内置了知识图谱功能，可以进行语义搜索和推荐。

快速搭建Chroma向量库

代码语言：javascript代码运行次数：0运行复制

 import chromadb
 
 client = chromadb.Client()
 collection = client.create_collection(name="company_docs")
 
 # 存入数据
 collection = client.create_collection("company_knowledge")
 collection = client.get_or_create_collection(name="policies", embedding_function=openai_ef)
 collection.add(documents=split_docs)

策略4：检索排序与重排技术

检索到的信息如果未经排序，用户体验就会大打折扣。假设用户问“财务报销流程是什么”，未经排序的检索可能杂乱无章，让人抓不住重点。

比如可以采用基于Cross-Encoder的重排（效果明显提升）

代码语言：javascript代码运行次数：0运行复制

 from sentence_transformers import CrossEncoder
 
 cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
 query = "财务报销流程是什么"
 pairs = [(query, doc) for doc in retrieved_docs]
 scores = cross_encoder.predict(pairs)
 
 sorted_results = [doc for _, doc in sorted(zip(scores, retrieved_docs), reverse=True)]

三、RAG未来的发展趋势

对于希望尽快落地和应用RAG技术的读者，有如下几点建议：

从小规模试点开始：选择业务中具体的应用场景快速验证RAG效果，如客户服务、企业知识问答等。
不断优化数据处理与模型选择：定期评估Embedding模型和向量库的表现，灵活调整，持续优化。
构建科学评估机制：使用Recall、Precision、F1-score等指标进行持续的效果监控，及时发现问题。

有更多感悟以及有关大模型的相关想法可随时联系博主深层讨论，我是Fanstuck，致力于将复杂的技术知识以易懂的方式传递给读者，热衷于分享最新的人工智能行业动向和技术趋势。如果你对大模型的创新应用、AI技术发展以及实际落地实践感兴趣，那么请关注Fanstuck，下期内容我们再见！

如何高效提升大模型的RAG效果？多种实用策略一次掌握

引言

举个简单的例子：

假如你问：“北京大学创立于哪一年？” 传统的生成模型可能会凭经验随口回答：“北京大学创立于1900年左右。”（事实上是错误的）而使用RAG后，模型会先在外部知识库中准确找到：“北京大学创立于1898年”，再给你精准的答案。

在实际应用中，RAG的优势主要表现在两点：

提升回答准确性：模型不再依赖训练时记住的知识，而是实时查找最新、最准确的数据；
减少“幻觉”现象：通过明确的数据源，降低了模型胡乱编造答案的可能性。

一、影响RAG效果的关键因素

“为什么同样用的RAG技术，我家的大模型还是没有别人的准？”

别急，接下来我们聊一聊影响RAG效果的几个核心因素，并结合一些好玩的案例，给你点实操灵感。

1. 数据质量（Data Quality）：好数据是成功的一半

俗话说得好：“垃圾进，垃圾出”，用在RAG上尤其贴切。想让大模型说话靠谱，首先就要确保你给它喂的数据足够干净、清晰且准确。

实操小tips：

文档拆分一定要合理，避免过大或过小导致的检索失败。
定期更新数据，保证知识库信息的准确性和实时性。

2.检索策略与算法优化:不选最快的，只选最合适的

数据再好，也得看你怎么“找”。检索策略和算法就像是模型的导航系统，导航不给力，再好的数据模型也用不上。

3.向量库与Embedding模型的选择：选对了事半功倍

向量库和Embedding模型就像是你给模型准备的“武器”，不同组合效果大不一样。

4.检索结果的排序与重排技术：先找到再排好，才是真完美

检索到的数据往往是大批量的，如果不排个先后顺序，用户一看估计脑袋就大了。所以检索结果的排序与重排就变得特别重要。

二、如何有效提升RAG效果？

策略1：优化数据处理与文档拆分方法

很多时候，我们觉得数据越多越好，其实不然。数据的组织方式直接决定了模型的检索效率和回答准确性。

为什么文档拆分如此重要？

文档拆分的优化方法

1. 基于语义的分割

不同于简单的按字符数或句子数机械分割，基于语义的分割能保证每个片段包含完整的语义信息。

2. 重叠分割策略

在片段之间保留适当重叠，避免关键信息被分割在不同片段中丢失。

3. 元数据增强

为每个片段添加元数据（如标题、章节信息），提高检索相关性。

4. 分层分割

对文档进行多级分割，既有细粒度片段也有大段落，满足不同检索需求。

Python实现文档拆分

引用必要的库：

代码语言：javascript代码运行次数：0运行复制

 import re
 import nltk
 from nltk.tokenize import sent_tokenize
 import spacy
 from langchain_text_splitters import (
     RecursiveCharacterTextSplitter,
     MarkdownHeaderTextSplitter,
     SpacyTextSplitter
 )
 
 # 下载必要的NLTK资源(首次运行需要)
 nltk.download('punkt')

基础字符分割

适合结构简单的文档，实现简单但不保证语义完整性：

代码语言：javascript代码运行次数：0运行复制

 # 1. 基础文本分割 - 按字符数
 def basic_chunk_by_chars(text, chunk_size=1000, chunk_overlap=200):
     """
     基础分割：按字符数分割文档
     """
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=chunk_size,
         chunk_overlap=chunk_overlap,
         length_function=len,
         is_separator_regex=False,
     )
     return text_splitter.split_text(text)

Markdown标题分割

适合有明确标题层级的结构化文档，如提到的员工手册

代码语言：javascript代码运行次数：0运行复制

 # 2. 基于Markdown标题的分割
 def chunk_by_headers(markdown_text):
     """
     按Markdown标题分割文档
     适合结构化文档如员工手册
     """
     headers_to_split_on = [
         ("#", "Header 1"),
         ("##", "Header 2"),
         ("###", "Header 3"),
     ]
     
     markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
     return markdown_splitter.split_text(markdown_text)

语义分割

保持语句和段落完整性，适合需要上下文理解的复杂文档

代码语言：javascript代码运行次数：0运行复制

 # 3. 基于语义的分割（使用SpaCy）
 def semantic_chunk(text, chunk_size=1000, chunk_overlap=200):
     """
     基于语义分割文档，保持句子和段落的完整性
     """
     try:
         # 加载中文模型
         nlp = spacy.load("zh_core_web_sm")
     except OSError:
         # 如果模型未安装，尝试下载
         import os
         os.system("python -m spacy download zh_core_web_sm")
         nlp = spacy.load("zh_core_web_sm")
     
     text_splitter = SpacyTextSplitter(
         chunk_size=chunk_size,
         chunk_overlap=chunk_overlap,
         separator=" ",
         pipeline="zh_core_web_sm"
     )
     return text_splitter.split_text(text)

如果是较为复杂的文档，需要考虑到段落、标题和语义边界的关系，则需要加入多种策略：

代码语言：javascript代码运行次数：0运行复制

 # 4. 高级自定义分割 - 考虑段落、标题和语义边界
 def advanced_chunk(text, chunk_size=1000, chunk_overlap=200):
     """
     高级分割策略，考虑多种因素
     """
     # 首先按段落分割
     paragraphs = re.split(r'\n\s*\n', text)
     
     chunks = []
     current_chunk = ""
     current_size = 0
     
     for para in paragraphs:
         # 如果段落本身就超过了chunk_size，需要进一步分割
         if len(para) > chunk_size:
             # 添加已累积的内容为一个块
             if current_size > 0:
                 chunks.append(current_chunk)
                 # 保留部分重叠内容
                 current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
                 current_size = len(current_chunk)
             
             # 分割大段落为句子
             sentences = sent_tokenize(para)
             
             for sent in sentences:
                 if current_size + len(sent) + 1 <= chunk_size:
                     if current_chunk:
                         current_chunk += " " + sent
                     else:
                         current_chunk = sent
                     current_size += len(sent) + 1
                 else:
                     # 当前块已满，添加到chunks
                     chunks.append(current_chunk)
                     # 保留部分重叠内容
                     current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
                     current_chunk += " " + sent
                     current_size = len(current_chunk)
         else:
             # 如果添加当前段落会超过chunk_size，先保存当前块
             if current_size + len(para) + 2 > chunk_size and current_size > 0:
                 chunks.append(current_chunk)
                 # 保留部分重叠内容
                 current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
                 current_size = len(current_chunk)
             
             # 添加段落到当前块
             if current_chunk:
                 current_chunk += "\n\n" + para
                 current_size += len(para) + 2
             else:
                 current_chunk = para
                 current_size = len(para)
     
     # 添加最后一个块
     if current_chunk:
         chunks.append(current_chunk)
     
     return chunks

中文特定分割

针对中文文档的特点优化，识别中文标题和段落

代码语言：javascript代码运行次数：0运行复制

 # 5. 针对中文的分割方法
 def chinese_text_chunk(text, chunk_size=1000, chunk_overlap=200):
     """
     针对中文文本的分割方法
     """
     # 按段落分割
     paragraphs = re.split(r'\n\s*\n', text)
     
     chunks = []
     current_chunk = ""
     current_size = 0
     
     for para in paragraphs:
         # 检查段落是否包含标题特征
         is_heading = bool(re.match(r'^第[一二三四五六七八九十百千]+[章节条款]|^[一二三四五六七八九十]、|^\d+[\.\s]|^[\u4e00-\u9fa5]{2,10}：', para))
         
         # 如果是标题且当前块不为空，先保存当前块
         if is_heading and current_size > 0:
             chunks.append(current_chunk)
             current_chunk = para
             current_size = len(para)
         # 如果添加当前段落会超过chunk_size，先保存当前块
         elif current_size + len(para) + 2 > chunk_size and current_size > 0:
             chunks.append(current_chunk)
             # 保留部分重叠内容
             current_chunk = current_chunk[-chunk_overlap:] if len(current_chunk) > chunk_overlap else current_chunk
             current_chunk += "\n\n" + para
             current_size = len(current_chunk)
         else:
             # 添加段落到当前块
             if current_chunk:
                 current_chunk += "\n\n" + para
                 current_size += len(para) + 2
             else:
                 current_chunk = para
                 current_size = len(para)
     
     # 添加最后一个块
     if current_chunk:
         chunks.append(current_chunk)
     
     return chunks

分层分割

创建多粒度索引，支持不同精度的检索需求

代码语言：javascript代码运行次数：0运行复制

 # 6. 分级分块策略 - 集成多种分块方法，创建多层次索引
 def hierarchical_chunking(text, primary_size=2000, secondary_size=500):
     """
     创建分层索引:
     - 大块(primary)用于广泛上下文理解
     - 小块(secondary)用于精确答案检索
     """
     # 一级分块 - 较大块
     primary_chunks = advanced_chunk(text, chunk_size=primary_size, chunk_overlap=primary_size//5)
     
     # 二级分块 - 在每个大块内创建小块
     all_secondary_chunks = []
     for i, chunk in enumerate(primary_chunks):
         secondary_chunks = advanced_chunk(chunk, chunk_size=secondary_size, chunk_overlap=secondary_size//4)
         # 为每个小块添加元数据，包括来源于哪个大块
         for j, small_chunk in enumerate(secondary_chunks):
             all_secondary_chunks.append({
                 "text": small_chunk,
                 "metadata": {
                     "primary_chunk_id": i,
                     "secondary_chunk_id": j,
                     "primary_chunk_preview": chunk[:100] + "..." # 添加大块预览
                 }
             })
     
     return {
         "primary_chunks": primary_chunks, 
         "secondary_chunks": all_secondary_chunks
     }

策略2：选择适合业务场景的Embedding模型

选对Embedding模型，能明显提升RAG的召回准确性。例如，一个金融知识库与普通聊天机器人适合的Embedding模型肯定不一样。

2.1明确应用场景和数据类型

图像或视频数据：对于图像或视频数据，可以选择如CLIP等模型，它在图文检索等多模态任务上表现良好。

多模态数据：如果任务涉及多模态数据，如图文结合的内容，可以选择支持多模态的模型，如ViLBERT。

2.2考虑通用与特定领域需求

通用任务：如果任务较为通用，不涉及太多领域的专业知识，可以选择通用的Embedding模型，如text2vec、m3e-base等。

2.3多语言需求

模型规模和资源限制：较大的模型通常能提供更高的性能，但也会增加计算成本和内存需求。需要根据实际硬件资源和性能需求权衡选择。

策略3：高效搭建与优化向量库

向量库决定了模型的记忆力好不好用，向量库用得好，模型检索就会更加快速和精准。

1. 开源向量数据库

开源向量数据库如FAISS、Annoy和Milvus等，是开发者常用的选择。这些数据库通常具有高性能、灵活性强和社区支持等优点。

FAISS (Facebook AI Similarity Search)：FAISS是由Facebook开发的开源向量搜索库，它支持大规模、高维度向量的高效相似性搜索。FAISS的优势在于其优化的算法和对GPU的支持，可以显著提高搜索速度。
Annoy (Approximate Nearest Neighbors Oh Yeah)：Annoy是由Spotify开发的开源工具，用于高效的近邻搜索。它特别适合内存有限的场景，因为它可以在内存和磁盘之间进行权衡。
Milvus：Milvus是一个专门为向量搜索设计的开源数据库，支持大规模、高维度向量数据的管理和检索。Milvus集成了多种索引算法，并提供了丰富的API接口，适用于各种应用场景。

2. 商业向量数据库

商业向量数据库如Pinecone、Weaviate等，提供了更多的企业级功能和支持。

Pinecone：Pinecone是一个云原生的向量数据库，提供了高性能的向量搜索服务。它支持自动扩展、数据备份和恢复等企业级功能，适合大规模、高可用性的应用场景。
Weaviate：Weaviate是一个基于机器学习的向量数据库，支持多种数据类型和复杂查询。它内置了知识图谱功能，可以进行语义搜索和推荐。

快速搭建Chroma向量库

代码语言：javascript代码运行次数：0运行复制

 import chromadb
 
 client = chromadb.Client()
 collection = client.create_collection(name="company_docs")
 
 # 存入数据
 collection = client.create_collection("company_knowledge")
 collection = client.get_or_create_collection(name="policies", embedding_function=openai_ef)
 collection.add(documents=split_docs)

策略4：检索排序与重排技术

检索到的信息如果未经排序，用户体验就会大打折扣。假设用户问“财务报销流程是什么”，未经排序的检索可能杂乱无章，让人抓不住重点。

比如可以采用基于Cross-Encoder的重排（效果明显提升）

代码语言：javascript代码运行次数：0运行复制

 from sentence_transformers import CrossEncoder
 
 cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
 query = "财务报销流程是什么"
 pairs = [(query, doc) for doc in retrieved_docs]
 scores = cross_encoder.predict(pairs)
 
 sorted_results = [doc for _, doc in sorted(zip(scores, retrieved_docs), reverse=True)]

三、RAG未来的发展趋势

对于希望尽快落地和应用RAG技术的读者，有如下几点建议：

从小规模试点开始：选择业务中具体的应用场景快速验证RAG效果，如客户服务、企业知识问答等。
不断优化数据处理与模型选择：定期评估Embedding模型和向量库的表现，灵活调整，持续优化。
构建科学评估机制：使用Recall、Precision、F1-score等指标进行持续的效果监控，及时发现问题。

本文标签：如何高效提升大模型的RAG效果多种实用策略一次掌握

版权声明：本文标题：如何高效提升大模型的RAG效果？多种实用策略一次掌握内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748307425a2283183.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

如何高效提升大模型的RAG效果？多种实用策略一次掌握

如何高效提升大模型的RAG效果？多种实用策略一次掌握

引言

一、影响RAG效果的关键因素

1. 数据质量（Data Quality）：好数据是成功的一半

2.检索策略与算法优化:不选最快的，只选最合适的

3.向量库与Embedding模型的选择：选对了事半功倍

4.检索结果的排序与重排技术：先找到再排好，才是真完美

二、如何有效提升RAG效果？

策略1：优化数据处理与文档拆分方法

为什么文档拆分如此重要？

文档拆分的优化方法

1. 基于语义的分割

2. 重叠分割策略

3. 元数据增强

4. 分层分割

Python实现文档拆分

基础字符分割

Markdown标题分割

语义分割

中文特定分割

分层分割

策略2：选择适合业务场景的Embedding模型

2.1明确应用场景和数据类型

2.2考虑通用与特定领域需求

2.3多语言需求

策略3：高效搭建与优化向量库

1. 开源向量数据库

2. 商业向量数据库

快速搭建Chroma向量库

策略4：检索排序与重排技术

三、RAG未来的发展趋势

如何高效提升大模型的RAG效果？多种实用策略一次掌握

引言

一、影响RAG效果的关键因素

1. 数据质量（Data Quality）：好数据是成功的一半

2.检索策略与算法优化:不选最快的，只选最合适的

3.向量库与Embedding模型的选择：选对了事半功倍

4.检索结果的排序与重排技术：先找到再排好，才是真完美

二、如何有效提升RAG效果？

策略1：优化数据处理与文档拆分方法

为什么文档拆分如此重要？

文档拆分的优化方法

1. 基于语义的分割

2. 重叠分割策略

3. 元数据增强

4. 分层分割

Python实现文档拆分

基础字符分割

Markdown标题分割

语义分割

中文特定分割

分层分割

策略2：选择适合业务场景的Embedding模型

2.1明确应用场景和数据类型

2.2考虑通用与特定领域需求

2.3多语言需求

策略3：高效搭建与优化向量库

1. 开源向量数据库

2. 商业向量数据库

快速搭建Chroma向量库

策略4：检索排序与重排技术

三、RAG未来的发展趋势

更多相关文章

如何高效提升大模型的RAG效果？多种实用策略一次掌握

发表评论

推荐文章

ucloud如何上传文件到对象存储US3—us3cli如何使用

苹果首款大折叠屏手机打样中 ｜ Swift 周报 issue 71

用Chromeister超快速可视化庞大的成对基因组比较

【C#学习笔记04】深入掌握C语言格式化输出

基于Flask的Web应用开发

热门文章

StarRocks 助力首汽约车精细化运营

自主 AI 时代到来：全球首款通用AI Agent上线！中国出品！

最新多端社交圈子系统源码，轻型论坛圈子，搭子圈，圈子公众号源码，圈子APP，圈子搭建平台，社交系统仿小红书圈子小程序源码小程序appH5多端圈子社区论坛系统

系统更新后某些功能失效，如何恢复？

Windows文件共享

MySQL 中的锁机制

苹果首款大折叠屏手机打样中｜ Swift 周报 issue 71

multisite - Hook into 'admin_url' but only on Mysites admin bar menu

For a menu custom link (without a link) a "#" is appended. Can this just be blank, i.e. NO link?

multisite - Hook into 'admin_url' but only on Mysites admin bar menu