admin管理员组

文章数量:1030674

第七章 AI数据质量

7.7 基于智能硬件的数据采集及标注方案

7.6章节提到的无论是基于数据增强及AI合成数据还是基于3D渲染生成数据,都存在真实性不足的问题:生成数据可能与真实数据存在差异,从而影响模型的泛化能力。所以真实场景下的数据采集在一些业务场景下仍需要支持。但是人工采集样本存在效率低下的问题,既包括前期的数据采集,又包括后续的样本标注等工作,同时,人工标注过程中还存在人为因素导致的标注错误等问题。

本小节我们以证件样本采集为例介绍一种基于智能硬件的数据采集方案,它将实现数据的自动化采集以及自动化标注。

7.7.1 基于机械臂的数据自动化采集方案

在训练证件文本检测算法模型时,我们需要拍摄大量证件照,包括不同的拍摄角度、高度以及不同的光照下的证件照片。之后需要对文本位置进行标注。但目前无论是采集还是标注都以人工的方式来进行,效率非常低。为解决这些问题,我们搭建了一套基于基于机械臂和智能灯光的样本采集方案。通过控制机械臂和手机可以拍摄多个不同角度和高度的照片,通过智能灯光我们可以覆盖不同颜色、不同亮度下的光照场景。

图7-24 基于机械臂的证件样本采集系统架构图

图7-24是我们的基于机械臂的证件样本采集系统架构图,本系统主要包括如下核心模块。

物理沙箱环境:为保证样本采集环境的可控和可复现性,我们可以搭建一套与外界隔离的物理沙箱环境,该环境可以是一间封闭的实验室,或是一个大的封闭箱子。可编程灯光、可编程机器臂、手机以及拍摄对象均放置在该物理沙箱环境中。

可编程灯光:可编程灯光部署在物理环境沙箱的多处,同时每个灯光的强弱可控。从而可以模拟出各种灯光下的拍摄场景,比如,部署在沙箱的顶部可以模拟灯光直照的场景,部署在四周的灯光可以模拟灯光斜照、有阴影的场景。而通过控制灯光的强弱,可以模拟明亮和灰暗的场景。还可以控制灯光的颜色,来模拟不同颜色下的场景。

该模块内置指令程序用于控制可编程灯光,包括控制灯光的开启/关闭,以及灯光的强度、颜色等。同时,该模块需要与整个系统的控制端通信,接受来自控制端的指令。通信通道可以是无线连接如蓝牙、无线网卡,也可以是有线方式。

可编程机械臂:该硬件抓取住被测手机后,通过控制机械臂的转动角度,进而控制手机的拍摄角度,然后进行拍摄。可以采用目前比较流行的6自由度机械手臂,达到比较灵活的控制手机的各种拍摄角度,即X、Y、Z轴自由旋转进行拍摄。

该模块内置指令程序用于控制机械臂,包括控制机械臂的开启/关闭,以及各个角度旋转等。同时,该模块需要与整个系统的控制端通信,接受来自控制端的指令。通信通道可以是无线连接如蓝牙、无线网卡,也可以是有线方式。

采样手机:该手机用于拍摄被测对象,内置被测应用,接受指令拍摄各种场景下的样本数据。同时该手机包含被测应用控制器,该子模块用于控制被测应用,包括被测应用的开启/关闭、以及拍摄行为等。拍摄的样本将保存在被测手机中。

拍摄对象:被测应用的拍摄对象,如要拍摄的身份证件。可以将拍摄对象放置于机械臂及手机的的下方。

控制端(PC或手机):控制端置于物理沙箱系统外部,主要用于控制整个沙箱的运转,可以是PC或手机。核心模块包括:策略执行器及策略库。其中策略执行器,读取策略库的策略,分别对灯光及机械臂进行控制,如:控制灯光的明暗、机械臂的旋转角度,然后向被测手机的被测应用控制器发送拍摄指令,完成多个场景的自动拍摄。

图7-25是我们实现的一个基于机械臂的证件样本自动化采集实例。

图7-25 基于机械臂的证件样本自动化采集实例

7.7.2基于透视变换的数据自动化标注方案

我们通过机械臂自动采集到数据样本后,接下来就需要对样本进行标注。

下面以港澳通行证为例,我们需要对证件上的关键文本信息进行框选标注,如:证件号、姓名、出生日期、性别、有效期限等基本信息,参见图7-26。人工标注的方式效率非常低,而且容易出现标注不准确、标注错误等问题。

那么我们将如何解决这个问题呢?下面我们介绍一种基于透视变换的样本自动化标注方案。首先我们介绍下什么是透视变换。

图7-26 往来港澳通行证关键信息标注举例

透视变换

透视变换是计算机图形学和计算机视觉领域中的一种常用技术,它可以用于处理二维空间中的图像,以模拟三维空间中的透视效果。在二维空间中,透视变换通常涉及将一个四边形区域映射到另一个四边形区域。这种映射可以通过一系列的线性变换(如平移、旋转、缩放等)和非线性变换(如透视除法)来实现。

透视变换的基本原理是将二维空间中的点通过一个变换矩阵映射到另一个二维空间中的点。这个变换矩阵通常是一个3x3的矩阵,可以表示为如图7-27所示。

(u,v,1)是原图的二维坐标,(x',y')是透视变换后的二维坐标。透视变换的关键是通过原图和变换后图的4个对应点计算出变换矩阵,如图7-28所示。

然后对原图中其他的点通过变化矩阵就算出对应的透视变换点。

图27 透视变换公式

图7-28 透视变换基本原理

了解透视变换的基本原理后,下面我们看看具体的实施方案.

1. 采集工作台设计

在采集证件训练样本过程中,我们需要将证件放入到指定的位置,如图7-29所示虚线框位置。背景可以多样化,但需要包含图中实线矩形框、矩形框左上角的五角形标记用于后期图片处理的位置自动识别。

图7-29 证件照自动化采集工作台

2. 标注基准图

接着我们将证件置于采集工作台,拍摄一张作为基准图,人工对基准图进行标注, 如图7-30所示。

图7-30 证件照的人工标注基准图

3. 自动化标注

此时,前期需要人工介入工作完成。接下来是开始对需要被自动化打标注的图片进行图片识别自动化处理。处理的基础原理是基于四边框的大小,证件位置在现实世界中是始终不变的,采集到的不同的证件图片均可以由基准图片经过透视变换而来。所以经过透视变换的逆运算可以计算出已知的基准图文本位置坐标在目标图中的映射位置。

主要流程是对目标图片进行预处理后获取四边形轮廓的四个角点位置坐标,并获取到左上角的五边形质心坐标,然后根据五边形与四边形的相对位置将图片进行转正,即把图片中证件文字转向到向上的位置,并按左上,右上,右下,左下顺序返回四边框四个角点位置。

然后将基准图中的矩形四点坐标与目标图中的四个角点坐标一一对应,计算推导出透视变换矩阵M,然后使用矩阵运算,计算出基准图中的其他文本位置坐标在目标图中的位置并保存。计算出的坐标即为目标图中的文本位置坐标。整体的采集流程如下图7-31所示。最终的自动化标注效果如图7-32所示。

图7-31:自动化获取目标图文本位置坐标采集流程图

图7-32 证件照的自动化标注:基准图(左) 与 自动标注图(右)

最后我们看下这个方案给我们带来了哪些收益,参见图7-32。

4. 成本收益

(1)采集阶段的收益:采集场景上,我们每次以5度为单位,高度范围为90度,左右转动为90度,俯仰为60度,则最多一轮可采集90/5*90/5*60/5= 3888张。人工采集的方式,我们以平均耗时5秒采集一张计算,共需要5.4小时。通过机械臂的自动化采集方案,大约2秒一张,共约2.16小时。采集时长缩短一半,效率得到的很大的提升。

(2)标注阶段的收益:原来人工平均标注一张需要108秒;以采集到的3888张证件图片计算,人工标注共花费约117小时,自动标注约1秒一张,共1.08个小时。通过自动化标注方式可以极大提高图片标注效率,大大缩短大量训练样本的标注时间,标准的准确率也更高,目前超过97%,未来还可以做进一步的提升。

(3) 人力成本收益:采集和标注两个阶段,均做到了自动化,在人力成本上也有很大的节省。例如:按照上面的采集场景,采集阶段节约人力约1人天,标注阶段节约人力约15人天。

图7-32 基于机械臂的证件样本自动化采集方案的收益

7.9 总结

本章我们首先介绍了数据在AI算法整个生命期中的重要性,接着介绍了AI数据的采集流程和采集量及其质量的评估。人工采集样本存在效率低下的问题,我们可以通过程序合成进行样本数据的扩充,包括如数据增强、基于AI合成数据以及基于3D渲染引擎生成数据等手段。考虑到合成数据存在真实性不足等问题,我们仍然需要在真实场景下进行数据采集。但人工采集和标注数据效率比较低下,我们介绍了一种基于智能硬件的数据自动采集和自动化标注的方案。

下一章节,我们将进入AI模型质量的评估和测试环节。

7.10 参考文献

[1] /

[2]

[3] /

[4] /

[5] /

[6]

[7] .17.1/en/api/pipelines/controlnet

[8]

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-02-09,如有侵权请联系 cloudcommunity@tencent 删除数据数据采集效率自动化手机

第七章 AI数据质量

7.7 基于智能硬件的数据采集及标注方案

7.6章节提到的无论是基于数据增强及AI合成数据还是基于3D渲染生成数据,都存在真实性不足的问题:生成数据可能与真实数据存在差异,从而影响模型的泛化能力。所以真实场景下的数据采集在一些业务场景下仍需要支持。但是人工采集样本存在效率低下的问题,既包括前期的数据采集,又包括后续的样本标注等工作,同时,人工标注过程中还存在人为因素导致的标注错误等问题。

本小节我们以证件样本采集为例介绍一种基于智能硬件的数据采集方案,它将实现数据的自动化采集以及自动化标注。

7.7.1 基于机械臂的数据自动化采集方案

在训练证件文本检测算法模型时,我们需要拍摄大量证件照,包括不同的拍摄角度、高度以及不同的光照下的证件照片。之后需要对文本位置进行标注。但目前无论是采集还是标注都以人工的方式来进行,效率非常低。为解决这些问题,我们搭建了一套基于基于机械臂和智能灯光的样本采集方案。通过控制机械臂和手机可以拍摄多个不同角度和高度的照片,通过智能灯光我们可以覆盖不同颜色、不同亮度下的光照场景。

图7-24 基于机械臂的证件样本采集系统架构图

图7-24是我们的基于机械臂的证件样本采集系统架构图,本系统主要包括如下核心模块。

物理沙箱环境:为保证样本采集环境的可控和可复现性,我们可以搭建一套与外界隔离的物理沙箱环境,该环境可以是一间封闭的实验室,或是一个大的封闭箱子。可编程灯光、可编程机器臂、手机以及拍摄对象均放置在该物理沙箱环境中。

可编程灯光:可编程灯光部署在物理环境沙箱的多处,同时每个灯光的强弱可控。从而可以模拟出各种灯光下的拍摄场景,比如,部署在沙箱的顶部可以模拟灯光直照的场景,部署在四周的灯光可以模拟灯光斜照、有阴影的场景。而通过控制灯光的强弱,可以模拟明亮和灰暗的场景。还可以控制灯光的颜色,来模拟不同颜色下的场景。

该模块内置指令程序用于控制可编程灯光,包括控制灯光的开启/关闭,以及灯光的强度、颜色等。同时,该模块需要与整个系统的控制端通信,接受来自控制端的指令。通信通道可以是无线连接如蓝牙、无线网卡,也可以是有线方式。

可编程机械臂:该硬件抓取住被测手机后,通过控制机械臂的转动角度,进而控制手机的拍摄角度,然后进行拍摄。可以采用目前比较流行的6自由度机械手臂,达到比较灵活的控制手机的各种拍摄角度,即X、Y、Z轴自由旋转进行拍摄。

该模块内置指令程序用于控制机械臂,包括控制机械臂的开启/关闭,以及各个角度旋转等。同时,该模块需要与整个系统的控制端通信,接受来自控制端的指令。通信通道可以是无线连接如蓝牙、无线网卡,也可以是有线方式。

采样手机:该手机用于拍摄被测对象,内置被测应用,接受指令拍摄各种场景下的样本数据。同时该手机包含被测应用控制器,该子模块用于控制被测应用,包括被测应用的开启/关闭、以及拍摄行为等。拍摄的样本将保存在被测手机中。

拍摄对象:被测应用的拍摄对象,如要拍摄的身份证件。可以将拍摄对象放置于机械臂及手机的的下方。

控制端(PC或手机):控制端置于物理沙箱系统外部,主要用于控制整个沙箱的运转,可以是PC或手机。核心模块包括:策略执行器及策略库。其中策略执行器,读取策略库的策略,分别对灯光及机械臂进行控制,如:控制灯光的明暗、机械臂的旋转角度,然后向被测手机的被测应用控制器发送拍摄指令,完成多个场景的自动拍摄。

图7-25是我们实现的一个基于机械臂的证件样本自动化采集实例。

图7-25 基于机械臂的证件样本自动化采集实例

7.7.2基于透视变换的数据自动化标注方案

我们通过机械臂自动采集到数据样本后,接下来就需要对样本进行标注。

下面以港澳通行证为例,我们需要对证件上的关键文本信息进行框选标注,如:证件号、姓名、出生日期、性别、有效期限等基本信息,参见图7-26。人工标注的方式效率非常低,而且容易出现标注不准确、标注错误等问题。

那么我们将如何解决这个问题呢?下面我们介绍一种基于透视变换的样本自动化标注方案。首先我们介绍下什么是透视变换。

图7-26 往来港澳通行证关键信息标注举例

透视变换

透视变换是计算机图形学和计算机视觉领域中的一种常用技术,它可以用于处理二维空间中的图像,以模拟三维空间中的透视效果。在二维空间中,透视变换通常涉及将一个四边形区域映射到另一个四边形区域。这种映射可以通过一系列的线性变换(如平移、旋转、缩放等)和非线性变换(如透视除法)来实现。

透视变换的基本原理是将二维空间中的点通过一个变换矩阵映射到另一个二维空间中的点。这个变换矩阵通常是一个3x3的矩阵,可以表示为如图7-27所示。

(u,v,1)是原图的二维坐标,(x',y')是透视变换后的二维坐标。透视变换的关键是通过原图和变换后图的4个对应点计算出变换矩阵,如图7-28所示。

然后对原图中其他的点通过变化矩阵就算出对应的透视变换点。

图27 透视变换公式

图7-28 透视变换基本原理

了解透视变换的基本原理后,下面我们看看具体的实施方案.

1. 采集工作台设计

在采集证件训练样本过程中,我们需要将证件放入到指定的位置,如图7-29所示虚线框位置。背景可以多样化,但需要包含图中实线矩形框、矩形框左上角的五角形标记用于后期图片处理的位置自动识别。

图7-29 证件照自动化采集工作台

2. 标注基准图

接着我们将证件置于采集工作台,拍摄一张作为基准图,人工对基准图进行标注, 如图7-30所示。

图7-30 证件照的人工标注基准图

3. 自动化标注

此时,前期需要人工介入工作完成。接下来是开始对需要被自动化打标注的图片进行图片识别自动化处理。处理的基础原理是基于四边框的大小,证件位置在现实世界中是始终不变的,采集到的不同的证件图片均可以由基准图片经过透视变换而来。所以经过透视变换的逆运算可以计算出已知的基准图文本位置坐标在目标图中的映射位置。

主要流程是对目标图片进行预处理后获取四边形轮廓的四个角点位置坐标,并获取到左上角的五边形质心坐标,然后根据五边形与四边形的相对位置将图片进行转正,即把图片中证件文字转向到向上的位置,并按左上,右上,右下,左下顺序返回四边框四个角点位置。

然后将基准图中的矩形四点坐标与目标图中的四个角点坐标一一对应,计算推导出透视变换矩阵M,然后使用矩阵运算,计算出基准图中的其他文本位置坐标在目标图中的位置并保存。计算出的坐标即为目标图中的文本位置坐标。整体的采集流程如下图7-31所示。最终的自动化标注效果如图7-32所示。

图7-31:自动化获取目标图文本位置坐标采集流程图

图7-32 证件照的自动化标注:基准图(左) 与 自动标注图(右)

最后我们看下这个方案给我们带来了哪些收益,参见图7-32。

4. 成本收益

(1)采集阶段的收益:采集场景上,我们每次以5度为单位,高度范围为90度,左右转动为90度,俯仰为60度,则最多一轮可采集90/5*90/5*60/5= 3888张。人工采集的方式,我们以平均耗时5秒采集一张计算,共需要5.4小时。通过机械臂的自动化采集方案,大约2秒一张,共约2.16小时。采集时长缩短一半,效率得到的很大的提升。

(2)标注阶段的收益:原来人工平均标注一张需要108秒;以采集到的3888张证件图片计算,人工标注共花费约117小时,自动标注约1秒一张,共1.08个小时。通过自动化标注方式可以极大提高图片标注效率,大大缩短大量训练样本的标注时间,标准的准确率也更高,目前超过97%,未来还可以做进一步的提升。

(3) 人力成本收益:采集和标注两个阶段,均做到了自动化,在人力成本上也有很大的节省。例如:按照上面的采集场景,采集阶段节约人力约1人天,标注阶段节约人力约15人天。

图7-32 基于机械臂的证件样本自动化采集方案的收益

7.9 总结

本章我们首先介绍了数据在AI算法整个生命期中的重要性,接着介绍了AI数据的采集流程和采集量及其质量的评估。人工采集样本存在效率低下的问题,我们可以通过程序合成进行样本数据的扩充,包括如数据增强、基于AI合成数据以及基于3D渲染引擎生成数据等手段。考虑到合成数据存在真实性不足等问题,我们仍然需要在真实场景下进行数据采集。但人工采集和标注数据效率比较低下,我们介绍了一种基于智能硬件的数据自动采集和自动化标注的方案。

下一章节,我们将进入AI模型质量的评估和测试环节。

7.10 参考文献

[1] /

[2]

[3] /

[4] /

[5] /

[6]

[7] .17.1/en/api/pipelines/controlnet

[8]

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-02-09,如有侵权请联系 cloudcommunity@tencent 删除数据数据采集效率自动化手机

本文标签: 第七章 AI数据质量