关于实体识别探索的一点点思考


什么是实体识别?

请输入要实体识别的文本:
海鸥装饰材料有限公司是做装饰的一家高科技公司
然后识别出组织机构所在的位置和类别
[{‘start’: 0, ‘stop’: 10, ‘word’: ‘海鸥装饰材料有限公司’, ‘type’: ‘ORG’}]

数据难题

非结构化数据(例如文本)的信息抽取是人工智能的重要组成部分。能否进行准确的实体识别,关系抽取,事件抽取,摘要生成是整个人工智能领域大厦的基石。如果非结构话数据信息抽取做不好,后面的推荐,推理将会涉及繁琐的人力劳动,这些烦乱的布局甚至让后续工作无法高效开展。目前已经有OpenNRE,BLSTM-CRF,Bert-信息抽取等开源代码。虽然Bert和OpenNRE这样的模型效果非常好。但是作为大多数企业来说,预训练成本巨大,而且还会出现过拟合。本博客重点讨论简单实用的实体识别小模型。

标题命名实体识别的方案优化方向

BLSTM-CRF目前在实体识别这一研究主题的效果在BERT之前可谓大名鼎鼎,模型小,效率高,是大多数公司的不二之选。BLSTM是双向RNN结构,提取序列特征,CRF在预测的标签之间拥有转移概率矩阵。那么有什么改进方向吗?待优化方案如下:

1.BLSTM-CRF方案:模型上主要是针对lstm这种rnn的结构进行优化
2.Tranformer-CRF方案:因为没有文字没有紧跟的前后信息,单凭全自注意力特征,训练难度较大。根据自己模型跑出的效果,个别文本比BLSTM-CRF的效果好。
3.Transformer-BLSTM-CRF方案:容易出现过拟合,训练集准确率100%,测试集太差。
4.Self-Attention-CRF:针对过拟合优化,有改善。
5.Self-Attention-BLSTM-CRF:效果一般,待优化
6.类比思想,迁移MobileNet在图像检测中手段。也即把图像中检测目标的任务迁移到文本实体的检测中,有待实践。

## 总结

实体识别的任务离真实的实际产品上线还有很长一段距离,但是背后的原理不仅仅将其看做实体位置和实体类别的一种分类,更需要在这个点上做大量的尝试和探索。

原创:https://www.panoramacn.com
源码网提供WordPress源码,帝国CMS源码discuz源码,微信小程序,小说源码,杰奇源码,thinkphp源码,ecshop模板源码,微擎模板源码,dede源码,织梦源码等。

专业搭建小说网站,小说程序,杰奇系列,微信小说系列,app系列小说

关于实体识别探索的一点点思考

免责声明,若由于商用引起版权纠纷,一切责任均由使用者承担。

您必须遵守我们的协议,如果您下载了该资源行为将被视为对《免责声明》全部内容的认可-> 联系客服 投诉资源
www.panoramacn.com资源全部来自互联网收集,仅供用于学习和交流,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。 敬请谅解! 侵权删帖/违法举报/投稿等事物联系邮箱:2640602276@qq.com
未经允许不得转载:书荒源码源码网每日更新网站源码模板! » 关于实体识别探索的一点点思考
关注我们小说电影免费看
关注我们,获取更多的全网素材资源,有趣有料!
120000+人已关注
分享到:
赞(0) 打赏

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

您的打赏就是我分享的动力!

支付宝扫一扫打赏

微信扫一扫打赏