【LLM】大模型SFT技术总结（数据|训练|评估）-369IT编程

admin管理员组
文章数量:1130349

note

文章目录

note
一、背景篇
- 1. Special Token
- 2. 耗时问题
- 3. 与 pretrain 的区别
- 4. 幻觉问题
二、数据篇
- 1. 数据多样性
- 2. 数据生产
- - （1）生产 prompt
  - （2）生产 answer
  - （3）小结
- 3. 数据飞轮
- 4. 专项数据
- - （1）RAG
  - （2）Agent / function_call
  - （3）长文本
  - （4）复杂指令
三、训练篇
- 1. 训练框架
- 2. 炼丹技巧
- 3. 拟合问题
- - 1）欠拟合
  - 2）过拟合
  - 3）小结
- 4. 夹逼准则
- - 1）经验分享
  - 2）实战思路
四、评估篇
- 1. 评估方式
- 2. 评估分析
五、总结篇

一、背景篇

作者: ybq，nlp码农，中国科学院大学信号与信息处理硕士
原文: https://zhuanlan.zhihu/p/809229182

1. Special Token

pretrain 阶段完全没见过的 token，在sft 阶段会被赋予全新的语义。主要用于标注对话的角色：user、assistant、system 这些。

此外，special_token 可以用来“构造知识”，比如"喜欢"这种知识一定是 sft 阶段才会见到的，可以剔除掉 pretrain 先验知识的影响，用来验证 sft 的训练情况，比如会不会过拟合。

我默认大家都知道怎么用 special_token 去拼 prompt，如果不熟悉，看下 tokenizer_config.json 里的"chat_template"这个字段也就懂了。

比如GLM4的tokenizer_config.json文件的相关token如下：

  "added_tokens_decoder": {

note

文章目录

note
一、背景篇
- 1. Special Token
- 2. 耗时问题
- 3. 与 pretrain 的区别
- 4. 幻觉问题
二、数据篇
- 1. 数据多样性
- 2. 数据生产
- - （1）生产 prompt
  - （2）生产 answer
  - （3）小结
- 3. 数据飞轮
- 4. 专项数据
- - （1）RAG
  - （2）Agent / function_call
  - （3）长文本
  - （4）复杂指令
三、训练篇
- 1. 训练框架
- 2. 炼丹技巧
- 3. 拟合问题
- - 1）欠拟合
  - 2）过拟合
  - 3）小结
- 4. 夹逼准则
- - 1）经验分享
  - 2）实战思路
四、评估篇
- 1. 评估方式
- 2. 评估分析
五、总结篇

一、背景篇

作者: ybq，nlp码农，中国科学院大学信号与信息处理硕士
原文: https://zhuanlan.zhihu/p/809229182

1. Special Token

pretrain 阶段完全没见过的 token，在sft 阶段会被赋予全新的语义。主要用于标注对话的角色：user、assistant、system 这些。

我默认大家都知道怎么用 special_token 去拼 prompt，如果不熟悉，看下 tokenizer_config.json 里的"chat_template"这个字段也就懂了。

比如GLM4的tokenizer_config.json文件的相关token如下：

  "added_tokens_decoder": {

本文标签：模型数据技术 LLM SFT

版权声明：本文标题：【LLM】大模型SFT技术总结（数据|训练|评估）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1754858140a2734852.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

LLM--提示词Propmt的概念、作用及如何设计提示词

3月前

文章目录1. 什么是提示词？2. 提示词的作用3. 如何设计提示词？3.1. 提供详细的信息3.2. 指定角色3.3. 使用分隔符和特殊符号3.4. 提供示例3.5. 少量示例的思维链&#

【大模型驯化-Prompt】企业级大模型Prompt调试技巧与batch批量调用方法

3月前

【大模型驯化-Prompt】企业级大模型Prompt调试技巧本次修炼方法请往下查看🌈 欢迎莅临我的博客个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享踩坑集合&#x

【人工智能】通过合理优化System Prompt和User Prompt，并结合调用网络搜索工具和时间信息，可以使大模型更好地理解和回应用户的问题，从而提高其回答的准确性和相关性。

3月前

通过合理优化System Prompt和User Prompt，并结合调用网络搜索工具和时间信息，可以使大模型更好地理解和回应用户的问题，从而提高其回答的准确性和相关性。这种方法不仅适用于一般性的问答场景，也特别适合那些需要最新数据支持的应

chatGPT deBug解决管理员登入，服务器返回401,没有拿到数据

3月前

问题复现：连接钱包后，会调用函数，弹出窗口让用户签名if (signatureMessage) {await signMessageAsync({message: sign

大模型——ChatGPT 变身 App Store，对话即应用的时代到了

3月前

ChatGPT 变身 App Store，对话即应用的时代到了在今天的科技叙事里，很少有一次更新，能像这次一样，让功能迭代听起来像「范式更替」，乃至权力迁移。就在 10 月 6 日，OpenAI 正式宣布，Booking、Canva

Chatgpt AI聊天实现，技术NodeJs+uni-app+eventsource，流式响应，支持上下文聊天

3月前

前端程序员的AI聊天小应用体验分享最近空闲出点时间，作为一名前端程序员，我一直对人工智能（AI）技术充满了好奇和热情。最近，我开

Coze玩转ChatGPT-4，大模型玩家招募中

3月前

本文来自存内社区，由存内计算开发者发布：https:bbs.csdntopics618555908 随着神经网络技术的不断发展，特别是在Transformer架构兴起之后，模型规模呈指数级增长。2023年3月，ChatGPT-4正式

号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码地址）

3月前

号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码

微软掀起生产力革命！GPT-4o 重塑 Windows，奥特曼新模型剧透登场

3月前

今天凌晨，微软带来了一系列重磅产品，一口气发布了 50 多项更新。接棒 OpenAI 和 Google 掀起的 AI 科技月，微软不仅要和苹果等厂商争夺 AI PC 的定

LFM2-1.2B：边缘AI的"小钢炮"，手机也能流畅运行的大模型革命

3月前

LFM2-1.2B：边缘AI的"小钢炮"，手机也能流畅运行的大模型革命【免费下载链接】LFM2-1.2B-GGUF项目地址: https:ai.gitcodeh

华为v30pro计算机在哪里,请问V30PRO的数据怎么转到电脑上

3月前

[分享交流]请问V30PRO的数据怎么转到电脑上26343电梯直达花粉199050253新学乍练发表于 2020-10-2 18:48:36来自：荣耀V30 Pro 5G最新回复 2020-10-2 19:18:00冷

8G显存玩转多模态大模型：MiniCPM-Llama3-V 2.5-int4量化版深度评测

3月前

8G显存玩转多模态大模型：MiniCPM-Llama3-V 2.5-int4量化版深度评测【免费下载链接】MiniCPM-Llama3-V-2_5-int4项目地址: https:ai.gitcodeO

阿里Qwen3-VL轻量化版本震撼发布：4B8B参数模型实现性能跃升

3月前

阿里Qwen3-VL轻量化版本震撼发布：4B8B参数模型实现性能跃升【免费下载链接】Qwen3-VL-8B-Thinking项目地址: https:ai.gitcodehf_mirrorsQwen

python-大数据分析-基于大数据的QQ音乐数据分析系统设计与实现

2月前

设计说明国内外数字音乐市场经过几百年的发展, 收录的音乐作品总数量已经达到了相当可观的程度, 面对数量如此庞大的音乐作品, 如何更加便捷、高效的让用户听到喜欢的音乐作品, 是音乐平台必须要考虑的事情, 也是科研人员非常感兴趣的研究课题。

DeepSeeekManager - DeepSeek本地一键启动包，1分钟使用本地化DeepSeek大模型对话

2月前

DeepSeek本地一键启动包DeepSeeekManager - DeepSeek本地一键启动包，1分钟本地化使用DeepSeek R1 AI大模型对话一键启动包下载地址：https:d

【免费下载】王者荣耀3D模型资源下载介绍

2月前

王者荣耀3D模型资源下载介绍欢迎来到本资源仓库，本次我们提供了一组精选的《王者荣耀》3D模型资源，其中包括了多位热门英雄的动作与绑定模型，具体如下：

windows下用wget下载数据

2月前

先下载wget工具 :亲测1.19.4版32位可稳定使用，下载wget.exe后，移动至C:windowsSystem32，以便cmd中能够直接调用从数据网站上获取待

数据分析领域如何借助AI人工智能升级

2月前

数据分析领域如何借助AI人工智能升级关键词：数据分析、人工智能、机器学习、自动化分析、智能决策、数据预处理、预测分析摘要：本文系统阐述数据分析领域如何通过人工智能实现技术升级。从传统数据分析的瓶颈出发，解析AI驱动的核心技术架构，包括自

百万级QPS，支撑淘宝双11需要哪些技术

2月前

目录前言正文 1、MySQL硬抗 2、分布式缓存（Tair）硬抗 3、客户端分布式缓存 4、缓存预热 5、客户端本地缓存 6、访问DB加锁 7、热点探测 8、限流 9、全

369IT编程

【LLM】大模型SFT技术总结（数据|训练|评估）

note

文章目录

一、背景篇

1. Special Token

note

文章目录

一、背景篇

1. Special Token

更多相关文章

LLM--提示词Propmt的概念、作用及如何设计提示词

【大模型驯化-Prompt】企业级大模型Prompt调试技巧与batch批量调用方法

【人工智能】通过合理优化System Prompt和User Prompt，并结合调用网络搜索工具和时间信息，可以使大模型更好地理解和回应用户的问题，从而提高其回答的准确性和相关性。

chatGPT deBug解决管理员登入，服务器返回401,没有拿到数据

大模型——ChatGPT 变身 App Store，对话即应用的时代到了

Chatgpt AI聊天实现，技术NodeJs+uni-app+eventsource，流式响应，支持上下文聊天

Coze玩转ChatGPT-4，大模型玩家招募中

号称世界上第一个开源实时翻译的 App，微软开源GraphRAG：极大增强大模型问答、摘要、推理，以及开源基于ChatGPT的超级文本代码智能体（附代码地址）

微软掀起生产力革命！GPT-4o 重塑 Windows，奥特曼新模型剧透登场

LFM2-1.2B：边缘AI的&quot;小钢炮&quot;，手机也能流畅运行的大模型革命

华为v30pro计算机在哪里,请问V30PRO的数据怎么转到电脑上

8G显存玩转多模态大模型：MiniCPM-Llama3-V 2.5-int4量化版深度评测

阿里Qwen3-VL轻量化版本震撼发布：4B8B参数模型实现性能跃升

python-大数据分析-基于大数据的QQ音乐数据分析系统设计与实现

最新版本TensorFlow训练模型TinyML部署到ESP32入门实操

DeepSeeekManager - DeepSeek本地一键启动包，1分钟使用本地化DeepSeek大模型对话

【免费下载】 王者荣耀3D模型资源下载介绍

windows下用wget下载数据

数据分析领域如何借助AI人工智能升级

百万级QPS，支撑淘宝双11需要哪些技术

发表评论

推荐文章

800块捡漏板载11代i7-1165G7迷你神机！这个电子破烂绝对是捡漏天花板！这波我愿称它为性价比之王，没有之一

root后屏幕没反应，手机处于未root怎么办

更改华为相册里的照片时间排序

电脑CPU选购的几个指标

windows store 下载软件出现错误代码: 0x80D03805

热门文章

Windows Server 2008 R2终端服务器激活方法

英语长难句之非谓语动词作状语与独立主格-学习笔记

Poe 和 ChatGPT 有何分別？

BeyondCompare3密钥过期解决办法

https:mp.weixin.qq.comsilO6DZwRpWdrruKm4J8CMw

深入解析Niushop开源商城系统V5.4.0的更新与改进

精简版win10系统，添加程序没有iis组件无法添加怎么办

【已解决替代Google英文网页翻译】英文网页翻译成中文（不用额外的插件解决方法）

购买计算机一定要追求独立显卡,购买电脑的常识.pptx

该死！B 站上这些 Java 视频真香！

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

LFM2-1.2B：边缘AI的"小钢炮"，手机也能流畅运行的大模型革命

【免费下载】王者荣耀3D模型资源下载介绍

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程