A Comprehensive Evaluation on Event Reasoning of Large Language Models-369IT编程

admin管理员组
文章数量:1130349

本文是LLM系列文章，针对《A Comprehensive Evaluation on Event Reasoning of Large Language Models》的翻译。

大型语言模型事件推理的综合评价

摘要
1 引言
2 问题定义
3 基准构建
4 实验
5 结果和发现
6 相关工作
7 结论
局限性

摘要

事件推理是许多应用程序的基础能力。它需要事件模式知识来执行全局推理，并需要处理事件间关系和推理范式的多样性。LLM在各种关系和推理范式上完成事件推理的程度仍然未知。为了缓解这种差异，我们全面评估了LLM的事件推理能力。我们引入了一个新的基准EV2来评估EVent推理。EV2由模式和实例两个层次的评估组成，在关系和推理范式方面是全面的。我们在EV2上进行了广泛的实验。我们发现LLMs具有完成事件推理的能力，但他们的表现远不能令人满意。我们还注意到LLMs中事件推理能力的不平衡。此外，LLM具有事件模式知识，然而，在如何利用这些知识方面，它们与人类并不一致。基于这些发现，我们介绍了两种方法来指导LLM利用事件模式知识。这两种方法都实现了改进。代码和数据集可在https://github/TZWwww/EV2.

1 引言

2 问题定义

3 基准构建

4 实验

5 结果和发现

6 相关工作

7 结论

本文对L

本文是LLM系列文章，针对《A Comprehensive Evaluation on Event Reasoning of Large Language Models》的翻译。

大型语言模型事件推理的综合评价

摘要
1 引言
2 问题定义
3 基准构建
4 实验
5 结果和发现
6 相关工作
7 结论
局限性

摘要

1 引言

2 问题定义

3 基准构建

4 实验

5 结果和发现

6 相关工作

7 结论

本文对L

本文标签： event evaluation Comprehensive Reasoning Models

版权声明：本文标题：A Comprehensive Evaluation on Event Reasoning of Large Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1758729628a2783425.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

369IT编程

A Comprehensive Evaluation on Event Reasoning of Large Language Models

大型语言模型事件推理的综合评价

摘要

1 引言

2 问题定义

3 基准构建

4 实验

5 结果和发现

6 相关工作

7 结论

大型语言模型事件推理的综合评价

摘要

1 引言

2 问题定义

3 基准构建

4 实验

5 结果和发现

6 相关工作

7 结论

更多相关文章

A Comprehensive Evaluation of Quantization Strategies for Large Language Models

【综述】Diffusion Models: A Comprehensive Survey of Methods and Applications

DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection

每日论文：《CENTIME: A Direct Comprehensive Traffic Features Extraction for Encrypted Traffic Classificati

综述论文阅读”A comprehensive survey on graph neural networks“（TNNLS2020）

【论文阅读】A Comprehensive Survey on Deep Clustering: Taxonomy, Challenges, and Future Directions之表示学习

异常检测(二)——MVTec AD -A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection

论文笔记 A Comprehensive Survey on Graph Neural Networks(GNN综述)

WebForms Validation: A Comprehensive Guide

【论文笔记】 图神经网络综述 A Comprehensive Survey on Graph Neural Networks

Comprehensive Privacy Analysis of Deep Learning

LLMs之Benchmark之TableBench：《TableBench: A Comprehensive and Complex Benchmark for Table Question Answ

综述论文“A Comprehensive Survey on Graph Neural Networks”

RAG综述：《A Comprehensive Survey of Retrieval-Augmented Generation (RAG)》

Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

探索 Comprehensive Rust：全方位学习 Rust 语言的资源库

Comprehensive comparison of QCN6274 and QCN9074 chip series

(深度学习社区发现综述)A Comprehensive Survey on Community Detection with Deep Learning

行为识别 - A Comprehensive Study of Deep Video Action Recognition

一、、笔记：A Comprehensive Survey on Cross-modal Retrieval

发表评论

推荐文章

专访搜狗输入法 iOS 版开发负责人李腾杰：第三方输入法开发与优化实践

手机鸿蒙系统OS,华为鸿蒙OS系统正式雄起！官方再确认：华为手机即将搭载鸿蒙系统...

三星s8升级到android9相机,三星S8升级ONE UI体验 三年三星粉终于吃上派

android 平板横版布局,引领构建安卓平板横屏生态 华为MatePad Pro凭什么？

有什么方法可以完成excel翻译中文？这几种翻译方法赶紧学

热门文章

鸿蒙系统有卸载残留吗,如何彻底清除手机APP卸载后的残留文件夹？

Windows下搭建kms激活服务器

C++ 中的虚函数和运行时多态| 第 1 套（介绍）

Ubuntu更改源和搜狗输入法安装卸载

双系统下ubuntu16.04备份和还原、彻底删除和重装(包含迁移) 亲跳多坑！！

Elasticsearch镜像下载站镜像列表

Win10纯净版镜像下载与安装全攻略

Win10可用的Uedit32v12.20b超级精简版：高效轻量级文本编辑器

有的软件能联网，有的软件不能联网怎么办

闪迪 WD Blue SN5100：顺读 7100MBs，随写 1300K IOPS 的 PCIe 4.0 次旗舰

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

【论文笔记】图神经网络综述 A Comprehensive Survey on Graph Neural Networks

三星s8升级到android9相机,三星S8升级ONE UI体验三年三星粉终于吃上派

android 平板横版布局,引领构建安卓平板横屏生态华为MatePad Pro凭什么？

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程