一种实体识别训练数据BIO自动标注系统及方法

文献发布时间：2023-06-19 09:41:38

技术领域

本发明涉及信息技术领域，特别涉及实体识别训练数据BIO自动标注系统及方法。

背景技术

随着机器学习热潮的兴起，很多领域都开始尝试通过AI来进行行业的创新和应用，AI虽然可以处理很多人类不能够完成的事情，但前题是需要大量的基础数据进行模型的训练工作，进行训练的前提是，需要有大量的数据，并针对于数据内容进行ETL处理，而对于数据格式化标注就是AI的开始，目前很多行业都留存有大量的数据，但如何把这些历史数据快速的标记完成供机器学习进行使用，是遇到的最大的难题。

数据标注有许多类型，如分类、画框、注释、标记等等。要理解数据标注，得先理解AI其实是部分替代人的认知功能。例如我们学习认识苹果，那么就需要有人拿着一个苹果到你面前告诉你，这是一个苹果。然后以后你遇到了苹果，你才知道这玩意儿叫做“苹果”。类比机器学习，我们要教他认识一个苹果，你直接给它一张苹果的图片，它是完全不知道这是个啥玩意的。我们得先有苹果的图片，上面标注着“苹果”两个字，然后机器通过学习了大量的图片中的特征，这时候再给机器任意一张苹果的图片，它就能认出来了。所以如果让机器能够像人一样识别苹果，就需要让给机器学习各种苹果的特征，我们把各种苹果特征的数据集合叫训练集或者是测试集，训练集和测试集都是标注过的数据，还是以苹果为例子，假设我们有1000张标注着“苹果”的图片，那么我们可以拿900涨作为训练集，100张作为测试集。机器从900张苹果的图片中学习得到一个模型，然后我们将剩下的100张机器没有见过的图片去给它识别，然后我们就能够得到这个模型的准确率了。训练集或者测试集是进行AI训练的基础，一个模型的训练依靠数据集，而数据集的数量和准确程度也是整个模型精度的基础，所以数据集质量越高，训练出来的模型也更加精确。而对于数据集来说，需要首先要对于原始数据进行清洗和整理，提取出有效数据，然后对于数据进行分词和标注，如果采用人工方式进行标注，工作量会非常大，并且准确性也无法保证，如果需要保证准确度的同时就需要投入更多的人工进行校对，这样不但提高了成本的同时，也降低了效率。

人工标注有几个问题是无法解决的；一个是人力成本的问题，海量数据的标注势必需要大量的人工，而在今天人力成本变得越来越昂贵，所以成本的支出使很多人望而却步。其次是效率问题，人工标注的效率非常低尤其在处理文本内容时，一个熟练的人其每小时的BIO 标注内容也仅为2000-3000字，一天能够处理的量也就是万字左右；第三就是错误率问题，机器学习的准确与否与训练素材的质量有直接的相关性，而人工标注的内容如果缺少必要的复核校对，其准确度无法进行评测，所以其会对于最终的结果产生影响。

为了解决目前在标注中存在的问题，根据行业的规律提取出行业的字库，然后通过不断的优化字库并通过算法来自动的生成标注信息变得尤其重要。

发明内容

为解决以上所述的技术问题，本发明提供了实体识别训练数据 BIO自动标注系统及方法，解决了标注信息的工作量问题，大大节约了成本和缩短了时间。

本发明的技术方案为：

实体识别训练数据BIO自动标注系统，包括格式化处理模块、信息分析模块及BIO格式转换模块，

所述格式化处理模块用于原始素材的格式化处理；

所述信息分析模块使用多种算法进行信息标注，生成带有实体分析信息的内容文件；

所述BIO格式转换模块将带有实体名称分析信息的文件生成BIO 标注信息的格式文件。

可优选地，所述信息分析模块包括手机号码分析模块、金额分析模块及实体名称分析模块，

所述手机号码分析模块用于分析手机号码信息；

所述金额分析模块用于分析金额分析；

所述实体名称分析模块根据实体库中的数千实体命名信息进行分析，最后生成带有实体分析信息的内容文件。

实体识别训练数据BIO自动标注方法，所述实体识别训练数据 BIO自动标注方法用于实体识别训练数据BIO自动标注系统，其特征在于，包括以下步骤：

S1.对于原始素材的格式化处理，因为原始素材由很多碎小文件组成，需要手工把这些小文件拼成一个大文件，另外还需要对于文件中的特殊字符进行处理，使文件能够正常的被处理；

S2.使用多种算法进行信息的标注，首先对于手机号码信息进行分析，其实还需要对于其中的金额信息进行分析，最重要的是根据实体库中的数千实体命名信息进行分析，最后生成带有实体分析信息的内容文件；

S3.根据带有实体名称分析信息的文件生成BIO标注信息的格式文件。

本发明相对于现有技术，有以下有益效果：

本发明通过建立专业标签库，并通过分词与匹配算法来进行程序自动标准数据，保证了整个数据处理的准确性和及时性，并且大大降低了人工成本，从而满足了对于AI模型训练所依赖的数据集的需求。

本发明通过该自动实体标注程序的使用，标识信息的准确度达到 100％，每1000万条数据的标注时间为30分钟，字数量达1.2亿多，人工标注的效率的指数倍增长，大大节约了成本和缩短了时间，解决了标注信息的工作量问题，本发明也可应用于其它各个专业领域的数据信息的标注工作。

附图说明

图1为本发明的结构框图；

图2为本发明的工作流程图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

如图1所示，本发明提供了一种实体识别训练数据BIO自动标注系统，包括格式化处理模块、信息分析模块及BIO格式转换模块，格式化处理模块用于原始素材的格式化处理。信息分析模块使用多种算法进行信息标注，生成带有实体分析信息的内容文件，信息分析模块包括手机号码分析模块、金额分析模块及实体名称分析模块，手机号码分析模块用于分析手机号码信息，金额分析模块用于分析金额分析，实体名称分析模块根据实体库中的数千实体命名信息进行分析，最后生成带有实体分析信息的内容文件。BIO格式转换模块将带有实体名称分析信息的文件生成BIO标注信息的格式文件。

实体识别训练数据BIO自动标注方法，实体识别训练数据BIO自动标注方法用于实体识别训练数据BIO自动标注系统，包括以下步骤：

S3.根据带有实体名称分析信息的文件生成BIO标注信息的格式文件。

本实施例应用于汽车行业，实体关键字分类为如下几个：品牌、车系、车型、关注点、配件、付款方式、动力等。根据汽车之家等专业网站的展示数据，整理后形成实体关键字库，目前收集的实体关键字库有效记录为3000+个。把实体关键字内容存入Mysql数据库中，处理过程通过全局匹配方式进行查找替换，以完成实体关键内容的标识。

如图2所示，由上所述，S1可分为数据整理和内容分词，数据整理包括文本格式整理，删除超短句(len＜5)，分割超长句(len＞500)；内容分词包括短剧分词。

S2中多种算法为规则匹配算法，包括电话匹配规则算法、性别匹配规则算法及金额匹配算法；可以进行标签识别，包括品牌类标签、车系类标签、车型类标签、内饰类标签、外观类标签、配置类标签、颜色类标签及动力类标签；最后进行格式整理，包括有/无标注信息分离和标注信息字分离。

S3输出BIO标注信息的格式文件，包括BIO标注规则检测和BIO 标注信息生成。根据转换后的带标识信息的文件，处理成BIO格式的标注文档，BIO格式要求每个字为一行，所以需要把每行的内容，按字进行分割，并转成多行内容，通过此转换后生成的内容，即可直接进行机器学习。

本发明通过对于文本的规范化处理，并通过相关模型与行业标准实体库进行行业的BIO训练数据的自动化标注；对于信息提取算法与行业实体库数据的内容进行保护；对于BIO自动标注结果的规范性检测算法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进也应视本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：肖波;
专利申请人：北京阳光云视科技有限公司;

上一篇：一种辅助控制饮食的水凝胶及其制备方法与应用
下一篇：基于模拟电路的Spar平台参数共振预测装置及其方法