GraphRAG失效？快用Prompt Tune适配文档的领域和语言-369IT编程

admin管理员组
文章数量:1036112

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

我最近在arXiv上下载RAG相关的论文，几百篇的论文，肉眼去一一观看实在是太难了。因此打算通过强大的GraphRAG索引这些文章的摘要，我希望GraphRAG能够根据实体提取和社群分区，能够告知我RAG的研究脉络和大概的研究领域。然而效果并不理想，提取出的实体和问答实在难以恭维，是GraphRAG失效了吗？今天让我们通过实验测试默认prompt索引与查询，并使用Prompt Tune对输入文档领域进行适配后的索引与查询，但是否会更好呢，让我们一探究竟。本文分为5小结，如何下载论文摘要、默认prompt索引查询与可视化，使用prompt tune进行领域适配索引查询和可视化，总结全文与不足。

1. 下载论文摘要

构建使用arXiv的高级检索，然后使用arXiv的pip包逐一获取摘要、作者、发表时间和下载链接等信息。

安装arXiv包

代码语言：javascript代码运行次数：0运行复制

pip install arxiv

通过arxiv的高级检索链接，获取按照时间排序的该领域的论文网页。然后通过BeautifulSoap提取出论文id后，我们使用arxiv包分别去获取论文的具体信息并保存为txt。

代码语言：javascript代码运行次数：0运行复制

def fetch_and_save_paper_info(paper_ids, txtfile, save_dir='pdfs'):
    # Create directory if it doesn't exist
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)

    for paper_id in paper_ids:
        # Fetch paper information using arxiv package
        paper = next(arxiv.Search(id_list=[paper_id]).results())
        title = paper.title.replace('/', '_')
        authors = ', '.join([author.name for author in paper.authors])
        abstract = paper.summary
        pdf_link = paper.pdf_url
        published = paper.published.date()

        # paper.download_pdf(save_dir, filename=f"[{published.strftime('%Y-%m')}]-{title}.pdf")
        # Write to TXT
        with open(f'abstracts/{title}.txt', 'w', encoding='utf-8') as txtfile:
            txtfile.write(f"Title: {title}\n")
            txtfile.write(f"Authors: {authors}\n")
            txtfile.write(f"Published: {published}\n")
            txtfile.write(f"Abstract: {abstract}\n")
            txtfile.write(f"PDF Link: {pdf_link}\n")

获取的文件大概如下所示，总共大约获取了261个论文。

代码语言：javascript代码运行次数：0运行复制

Title: A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation
Authors: Hang Yang, Jing Guo, Jianchuan Qi, Jinliang Xie, Si Zhang, Siqi Yang, Nan Li, Ming Xu
Published: 2024-05-07
Abstract: This paper presents a novel method for parsing and vectorizing
semi-structured data to enhance the functionality of Retrieval-Augmented
...
is available at .git.
PDF Link: .03989v2

2. GraphRAG索引和检索

2.1 索引构建

将获取的论文摘要等信息文本放入输入文件夹input，使用默认的Prompt开始索引。

代码语言：javascript代码运行次数：0运行复制

poetry run poe index --root .

经过漫长索引时间后，最终索引完成，由于每个文件都只有300多的Token导致实体提取时间变得异常的久，成本也成倍增加，我的DeepSeeker又被消耗了200万Token（

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

1. 下载论文摘要

构建使用arXiv的高级检索，然后使用arXiv的pip包逐一获取摘要、作者、发表时间和下载链接等信息。

安装arXiv包

代码语言：javascript代码运行次数：0运行复制

pip install arxiv

代码语言：javascript代码运行次数：0运行复制

def fetch_and_save_paper_info(paper_ids, txtfile, save_dir='pdfs'):
    # Create directory if it doesn't exist
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)

    for paper_id in paper_ids:
        # Fetch paper information using arxiv package
        paper = next(arxiv.Search(id_list=[paper_id]).results())
        title = paper.title.replace('/', '_')
        authors = ', '.join([author.name for author in paper.authors])
        abstract = paper.summary
        pdf_link = paper.pdf_url
        published = paper.published.date()

        # paper.download_pdf(save_dir, filename=f"[{published.strftime('%Y-%m')}]-{title}.pdf")
        # Write to TXT
        with open(f'abstracts/{title}.txt', 'w', encoding='utf-8') as txtfile:
            txtfile.write(f"Title: {title}\n")
            txtfile.write(f"Authors: {authors}\n")
            txtfile.write(f"Published: {published}\n")
            txtfile.write(f"Abstract: {abstract}\n")
            txtfile.write(f"PDF Link: {pdf_link}\n")

获取的文件大概如下所示，总共大约获取了261个论文。

代码语言：javascript代码运行次数：0运行复制

Title: A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation
Authors: Hang Yang, Jing Guo, Jianchuan Qi, Jinliang Xie, Si Zhang, Siqi Yang, Nan Li, Ming Xu
Published: 2024-05-07
Abstract: This paper presents a novel method for parsing and vectorizing
semi-structured data to enhance the functionality of Retrieval-Augmented
...
is available at .git.
PDF Link: .03989v2

2. GraphRAG索引和检索

2.1 索引构建

将获取的论文摘要等信息文本放入输入文件夹input，使用默认的Prompt开始索引。

代码语言：javascript代码运行次数：0运行复制

poetry run poe index --root .

本文标签： GraphRAG失效快用Prompt Tune适配文档的领域和语言

版权声明：本文标题：GraphRAG失效？快用Prompt Tune适配文档的领域和语言内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748225467a2271979.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

1. 下载论文摘要

2. GraphRAG索引和检索

2.1 索引构建

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

1. 下载论文摘要

2. GraphRAG索引和检索

2.1 索引构建

更多相关文章

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

发表评论

推荐文章

Sitecore 9 为什么数据驱动的组织选择它

瀑布与敏捷比较

Go语言连接字符串、Go语言通过指定字符连接字符串的方法

VBench

dify v0.15.3外挂ragflow知识库，保姆级教程来了！

热门文章

Linux：软链接和硬链接的理解

数学课可以学到什么

AnnotationFormatError 介绍

【愚公系列】《高效使用DeepSeek》032

一文聊聊接入钉钉H5微应用系统实现免登操作技术思路实现验证

体育赛事即时比分 分析页面的开发技术架构与实现细节

Ollama系列06：C#使用OllamaSharp集成Ollama服务

AI口语陪练APP的接口优化

掌握新编程语言的秘诀：利用 AI 快速上手 Python、Go、Java 和 Rust

蚂蚁 DB

最新文章

MySQL 中的锁机制

受限环境下的Agent优化：Python在低带宽场景中的通信策略

安装系统和优化

MySQL 的隔离级别

MySQL 的 MVCC（多版本并发控制）机制

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

体育赛事即时比分分析页面的开发技术架构与实现细节

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow