语义分块真的有效吗？-369IT编程

admin管理员组
文章数量:1036087

语义分块真的有效吗？

最近看到一篇有意思的论文《Is Semantic Chunking Worth the Computational Cost?[1]》，论文探讨了在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中，语义分块（semantic chunking）与传统固定大小分块（fixed-size chunking）的效率和性能比较。

语义分块旨在通过将文档分割成语义上连贯的段落来提高检索性能。尽管语义分块越来越受欢迎，但其相对于固定大小分块的实际好处仍然不清楚。这项研究系统地评估了语义分块的有效性，使用了三个常见的与检索相关的任务：文档检索、证据检索和基于检索的答案生成。

为了测试对比语义分块是否有效，作者设计了 3 种分块策略，如下图所示。

固定大小分块器（Fixed-size Chunker）：这是基线分块器，它根据预定义或用户指定的每个分块的句子数量将文档顺序分割成固定大小的分块。
基于断点的语义分块器（Breakpoint-based Semantic Chunker）：这种分块器通过检测连续句子之间的语义距离阈值来分割文本，以保持连贯性。
基于聚类的语义分块器（Clustering-based Semantic Chunker）：这种分块器利用聚类算法按语义分组句子，捕捉全局关系，并允许非连续文本分组。

image-20241021112243191

文档检索

文档检索测试结果如下表所示。大部分场景都没有明显的差距，除了 Miracl 和 NQ。而这些标*的表示这些都是基于一些较短的句子缝合到一起的，本身句子之间具有较强的独立性。

Dataset	Fixed-size	Breakpoint	Clustering
Miracl*	69.45	81.89	67.35
NQ*	43.79	63.93	41.01
Scidocs*	16.82	17.60	19.87
Scifact*	35.27	36.27	35.70
BioASQ*	61.86	61.87	62.49
NFCorpus*	21.36	21.07	22.12
HotpotQA	90.59	87.37	84.79
MSMARCO	93.58	92.23	93.18
ConditionalQA	68.11	64.44	65.94
Qasper	90.99	89.27	90.77

证据检索

证据检索结果如下表所示。在这种测试下，三者几乎不存在差异。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	47.11	47.08	46.87
DelucionQA	43.05	43.24	43.36
TechQA	28.98	28.49	27.96
ConditionalQA	18.23	19.83	19.14
Qasper	8.66	8.16	8.50

答案生成

基于检索的答案生成测试如下表所示，可以说没有任何区别。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	0.65	0.65	0.65
DelucionQA	0.76	0.76	0.76
TechQA	0.68	0.68	0.68
ConditionalQA	0.42	0.43	0.43
Qasper	0.49	0.49	0.50

总结

研究结果表明，语义分块的计算成本并没有通过一致的性能提升来证明其合理性。这些发现挑战了之前关于语义分块的假设，并强调了在 RAG 系统中需要更有效的分块策略。总体而言，固定大小分块对于实际的 RAG 应用来说仍然是一个更有效和可靠的选择。 参考资料

[1]

Is Semantic Chunking Worth the Computational Cost?: .13070

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-10-21，如有侵权请联系 cloudcommunity@tencent 删除性能聚类算法测试论文系统

语义分块真的有效吗？

为了测试对比语义分块是否有效，作者设计了 3 种分块策略，如下图所示。

固定大小分块器（Fixed-size Chunker）：这是基线分块器，它根据预定义或用户指定的每个分块的句子数量将文档顺序分割成固定大小的分块。
基于断点的语义分块器（Breakpoint-based Semantic Chunker）：这种分块器通过检测连续句子之间的语义距离阈值来分割文本，以保持连贯性。
基于聚类的语义分块器（Clustering-based Semantic Chunker）：这种分块器利用聚类算法按语义分组句子，捕捉全局关系，并允许非连续文本分组。

image-20241021112243191

文档检索

Dataset	Fixed-size	Breakpoint	Clustering
Miracl*	69.45	81.89	67.35
NQ*	43.79	63.93	41.01
Scidocs*	16.82	17.60	19.87
Scifact*	35.27	36.27	35.70
BioASQ*	61.86	61.87	62.49
NFCorpus*	21.36	21.07	22.12
HotpotQA	90.59	87.37	84.79
MSMARCO	93.58	92.23	93.18
ConditionalQA	68.11	64.44	65.94
Qasper	90.99	89.27	90.77

证据检索

证据检索结果如下表所示。在这种测试下，三者几乎不存在差异。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	47.11	47.08	46.87
DelucionQA	43.05	43.24	43.36
TechQA	28.98	28.49	27.96
ConditionalQA	18.23	19.83	19.14
Qasper	8.66	8.16	8.50

答案生成

基于检索的答案生成测试如下表所示，可以说没有任何区别。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	0.65	0.65	0.65
DelucionQA	0.76	0.76	0.76
TechQA	0.68	0.68	0.68
ConditionalQA	0.42	0.43	0.43
Qasper	0.49	0.49	0.50

总结

[1]

Is Semantic Chunking Worth the Computational Cost?: .13070

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-10-21，如有侵权请联系 cloudcommunity@tencent 删除性能聚类算法测试论文系统

本文标签：语义分块真的有效吗

版权声明：本文标题：语义分块真的有效吗？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748223527a2271710.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

语义分块真的有效吗？

语义分块真的有效吗？

文档检索

证据检索

答案生成

总结

语义分块真的有效吗？

文档检索

证据检索

答案生成

总结

更多相关文章

语义分块真的有效吗？

发表评论

推荐文章

spring注解：@Autowired 和@Resource

如何评估准确率、召回率和F1分数

网络通信错误代码列表HTTP 、FTP

HTTP中的GET方法与POST方法

打开或关闭 Windows 功能

热门文章

Java 中的易失性变量与原子变量

Sliding Window Algorithm滑动窗口算法

Apache Flink 分区算子Rescale剖析

震惊！DeepSeek开源V3新版，代码能力直逼顶尖，国外开发者沸腾了！

【YashanDB知识库】YCM上告警项怎么修改

Agent Toolkit大揭秘：Python实现智能体调用外部API的5种方案

强大的AI网站推荐（第二集）—— V0.dev

HDFS元信息管理的核心技术与实现

【亲测有用】数据中台数据安全管理能力演示

GraphRAG新增文件会重新索引所有文件吗？探究缓存何时生效

最新文章

社交媒体分析：破解无限滚动的技术实践

hn如何查看内存分配和释放的次数？

鸿蒙开发：权限授权封装

AI口语机器人的功能规划

HashMap工作原理的理解，1.7和1.8，数据结构，怎么切换红黑树和链表

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow