基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号-369IT编程

admin管理员组
文章数量:1035920

基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号

1. 任务介绍

1.1 什么是NER（命名实体识别）

命名实体识别（Named Entity Recognition, NER）是自然语言处理（NLP）任务之一，用于识别文本中的特定类别的实体，如人名、地名、组织名、日期、编号等。

NER 在许多领域都有重要应用，例如：

金融行业：识别发票号、交易编号等。
电商行业：提取订单号、物流单号。
法律行业：识别案件编号、法规条款。

本教程的目标是：

从文本中提取代表特定含义的编号（如订单号、合同编号、身份证号等）。
解决编号格式多样的问题（如ORD-202301、A-123456、#456-XY 等）。
使用深度学习NER模型进行训练和部署。

2. 数据准备

2.1 数据来源与标注

为了训练NER模型，我们需要准备带标注的文本数据。

数据来源：

企业历史数据：如订单记录、合同文本。
公开数据集：可以参考 CONLL-2003 这样的NER数据集。
人工标注数据：使用工具进行数据标注。

2.2 标注数据格式

NER数据通常使用 BIO（Begin-Inside-Outside）标注方案。

示例文本：

代码语言：javascript代码运行次数：0运行复制

客户的订单号是 ORD-202301，请尽快处理。

BIO格式标注：

代码语言：javascript代码运行次数：0运行复制

客户 O
的 O
订单号 O
是 O
ORD B-NUMBER
- I-NUMBER
202301 I-NUMBER
， O
请 O
尽快 O
处理 O
。 O

2.3 标注工具推荐

Label Studio（开源、支持NER任务）
Prodigy（商业化工具，适用于大规模标注）
spaCy annotation tool（适用于快速标注小型数据集）

3. 选择预训练模型

3.1 适用于NER任务的模型

BERT（适用于一般NER任务）
RoBERTa（增强版BERT，适合更复杂任务）
DeBERTa（更强的上下文理解能力）
GPT（适合少量数据的微调）

3.2 预训练模型的优势

减少训练时间：无需从零开始训练。
适应多种文本格式：可以泛化不同的编号类型。
支持微调：可以在小数据集上继续训练。

4. 训练NER模型

4.1 安装必要的库

代码语言：javascript代码运行次数：0运行复制

pip install transformers datasets seqeval torch

4.2 加载数据集

代码语言：javascript代码运行次数：0运行复制

from datasets import load_dataset

dataset = load_dataset("json", data_files={
    "train": "train.json",
    "test": "test.json"
})

数据格式示例（train.json）：

代码语言：javascript代码运行次数：0运行复制

{
    "tokens": ["客户", "的", "订单号", "是", "ORD", "-", "202301", "，", "请", "处理", "。"],
    "ner_tags": [0, 0, 0, 0, 1, 2, 2, 0, 0, 0, 0]
}

4.3 加载预训练模型并进行微调

代码语言：javascript代码运行次数：0运行复制

from transformers import AutoModelForTokenClassification, AutoTokenizer, TrainingArguments, Trainer

model_name = "bert-base-uncased"
model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=3)
tokenizer = AutoTokenizer.from_pretrained(model_name)

4.4 训练NER模型

代码语言：javascript代码运行次数：0运行复制

training_args = TrainingArguments(
    output_dir="./ner_model",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=5,
    weight_decay=0.01,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"]
)

trainer.train()

5. 评估与优化

5.1 评估指标

使用 seqeval 计算 F1-score。

代码语言：javascript代码运行次数：0运行复制

from seqeval.metrics import classification_report

y_true = [["O", "O", "O", "O", "B-NUMBER", "I-NUMBER", "I-NUMBER", "O"]]
y_pred = [["O", "O", "O", "O", "B-NUMBER", "I-NUMBER", "I-NUMBER", "O"]]
print(classification_report(y_true, y_pred))

5.2 误识别优化

增加训练数据：涵盖更多编号格式。
数据增强：如替换编号前缀（ORD→INV）。
调整超参数：优化学习率、批量大小等。
尝试CRF层：可以提升模型的序列识别能力。

6. 部署模型

6.1 使用 FastAPI 部署 API

代码语言：javascript代码运行次数：0运行复制

pip install fastapi uvicorn

创建 app.py：

代码语言：javascript代码运行次数：0运行复制

from fastapi import FastAPI
from transformers import pipeline

token_classifier = pipeline("ner", model="./ner_model")
app = FastAPI()

@app.post("/predict/")
def predict(text: str):
    return token_classifier(text)

运行：

代码语言：javascript代码运行次数：0运行复制

uvicorn app:app --reload

7. 结论

本教程介绍了如何使用深度学习NER模型 从文本中提取编号，包括 数据标注、模型训练、优化与部署，并提供了详细的代码示例。

如果你对 不同类型的编号 识别有特定需求，如 车牌号、银行账号等，可以微调模型或调整训练数据，进一步提升识别准确率！

基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号

1. 任务介绍

1.1 什么是NER（命名实体识别）

命名实体识别（Named Entity Recognition, NER）是自然语言处理（NLP）任务之一，用于识别文本中的特定类别的实体，如人名、地名、组织名、日期、编号等。

NER 在许多领域都有重要应用，例如：

金融行业：识别发票号、交易编号等。
电商行业：提取订单号、物流单号。
法律行业：识别案件编号、法规条款。

本教程的目标是：

从文本中提取代表特定含义的编号（如订单号、合同编号、身份证号等）。
解决编号格式多样的问题（如ORD-202301、A-123456、#456-XY 等）。
使用深度学习NER模型进行训练和部署。

2. 数据准备

2.1 数据来源与标注

为了训练NER模型，我们需要准备带标注的文本数据。

数据来源：

企业历史数据：如订单记录、合同文本。
公开数据集：可以参考 CONLL-2003 这样的NER数据集。
人工标注数据：使用工具进行数据标注。

2.2 标注数据格式

NER数据通常使用 BIO（Begin-Inside-Outside）标注方案。

示例文本：

代码语言：javascript代码运行次数：0运行复制

客户的订单号是 ORD-202301，请尽快处理。

BIO格式标注：

代码语言：javascript代码运行次数：0运行复制

客户 O
的 O
订单号 O
是 O
ORD B-NUMBER
- I-NUMBER
202301 I-NUMBER
， O
请 O
尽快 O
处理 O
。 O

2.3 标注工具推荐

Label Studio（开源、支持NER任务）
Prodigy（商业化工具，适用于大规模标注）
spaCy annotation tool（适用于快速标注小型数据集）

3. 选择预训练模型

3.1 适用于NER任务的模型

BERT（适用于一般NER任务）
RoBERTa（增强版BERT，适合更复杂任务）
DeBERTa（更强的上下文理解能力）
GPT（适合少量数据的微调）

3.2 预训练模型的优势

减少训练时间：无需从零开始训练。
适应多种文本格式：可以泛化不同的编号类型。
支持微调：可以在小数据集上继续训练。

4. 训练NER模型

4.1 安装必要的库

代码语言：javascript代码运行次数：0运行复制

pip install transformers datasets seqeval torch

4.2 加载数据集

代码语言：javascript代码运行次数：0运行复制

from datasets import load_dataset

dataset = load_dataset("json", data_files={
    "train": "train.json",
    "test": "test.json"
})

数据格式示例（train.json）：

代码语言：javascript代码运行次数：0运行复制

{
    "tokens": ["客户", "的", "订单号", "是", "ORD", "-", "202301", "，", "请", "处理", "。"],
    "ner_tags": [0, 0, 0, 0, 1, 2, 2, 0, 0, 0, 0]
}

4.3 加载预训练模型并进行微调

代码语言：javascript代码运行次数：0运行复制

from transformers import AutoModelForTokenClassification, AutoTokenizer, TrainingArguments, Trainer

model_name = "bert-base-uncased"
model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=3)
tokenizer = AutoTokenizer.from_pretrained(model_name)

4.4 训练NER模型

代码语言：javascript代码运行次数：0运行复制

training_args = TrainingArguments(
    output_dir="./ner_model",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=5,
    weight_decay=0.01,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"]
)

trainer.train()

5. 评估与优化

5.1 评估指标

使用 seqeval 计算 F1-score。

代码语言：javascript代码运行次数：0运行复制

from seqeval.metrics import classification_report

y_true = [["O", "O", "O", "O", "B-NUMBER", "I-NUMBER", "I-NUMBER", "O"]]
y_pred = [["O", "O", "O", "O", "B-NUMBER", "I-NUMBER", "I-NUMBER", "O"]]
print(classification_report(y_true, y_pred))

5.2 误识别优化

增加训练数据：涵盖更多编号格式。
数据增强：如替换编号前缀（ORD→INV）。
调整超参数：优化学习率、批量大小等。
尝试CRF层：可以提升模型的序列识别能力。

6. 部署模型

6.1 使用 FastAPI 部署 API

代码语言：javascript代码运行次数：0运行复制

pip install fastapi uvicorn

创建 app.py：

代码语言：javascript代码运行次数：0运行复制

from fastapi import FastAPI
from transformers import pipeline

token_classifier = pipeline("ner", model="./ner_model")
app = FastAPI()

@app.post("/predict/")
def predict(text: str):
    return token_classifier(text)

运行：

代码语言：javascript代码运行次数：0运行复制

uvicorn app:app --reload

7. 结论

本教程介绍了如何使用深度学习NER模型 从文本中提取编号，包括 数据标注、模型训练、优化与部署，并提供了详细的代码示例。

如果你对 不同类型的编号 识别有特定需求，如 车牌号、银行账号等，可以微调模型或调整训练数据，进一步提升识别准确率！

本文标签：基于深度学习的NER（命名实体识别）教程识别文本中的编号

版权声明：本文标题：基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1748215847a2270599.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号

基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号

1. 任务介绍

1.1 什么是NER（命名实体识别）

2. 数据准备

2.1 数据来源与标注

2.2 标注数据格式

2.3 标注工具推荐

3. 选择预训练模型

3.1 适用于NER任务的模型

3.2 预训练模型的优势

4. 训练NER模型

4.1 安装必要的库

4.2 加载数据集

4.3 加载预训练模型并进行微调

4.4 训练NER模型

5. 评估与优化

5.1 评估指标

5.2 误识别优化

6. 部署模型

6.1 使用 FastAPI 部署 API

7. 结论

基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号

1. 任务介绍

1.1 什么是NER（命名实体识别）

2. 数据准备

2.1 数据来源与标注

2.2 标注数据格式

2.3 标注工具推荐

3. 选择预训练模型

3.1 适用于NER任务的模型

3.2 预训练模型的优势

4. 训练NER模型

4.1 安装必要的库

4.2 加载数据集

4.3 加载预训练模型并进行微调

4.4 训练NER模型

5. 评估与优化

5.1 评估指标

5.2 误识别优化

6. 部署模型

6.1 使用 FastAPI 部署 API

7. 结论

更多相关文章

基于深度学习的NER（命名实体识别）教程 —— 识别文本中的编号

发表评论

推荐文章

Volatile关键字使用指南

实现需求预测流程时通用步骤指南

多项式回归

常用的排序算法之归并排序（Merge Sort）

visio验证过期如何激活的问题解决方案

热门文章

dify v1.2.0 重磅发布！工作流循环节点+多场景增强，效率翻倍，开发者的终极利器！

Flink简介小结

如何在 Java 中运行 shell 命令

application.yml 与 application.properties详解

Apache Flink快速入门

C# WinForm程序禁止同时打开多个客户端

【系统架构设计师】论文：论软件系统架构评估

鲲鹏服务器系统重装,鲲鹏服务器运行windows系统

Android平台毫秒级低延迟HTTP

通俗讲解DeepSeek开源：FlashMLA，究竟是个啥？（第一弹）

最新文章

重学Java基础篇—类的生命周期深度解析

注意力机制：GPT等大模型的基石

提升大语言模型LLM的性能利器Agents work flow

当我们在谈论LLM Agent的时候，我们在说什么？

万字长文深度解析LLM Agent反思工作流框架Reflexion上篇：安装与运行

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow