全部
期刊
文献
标题
作者
单位
摘要
关键词
栏目
基金
文献检索
包含全部检索词
包含精确检索词
包含至少一个检索词
作者
出版物
发表时间
-

基于Bi-LSTM的医学文本分词模型

邵党国 黄初升 马磊 贺建峰 易三莉

昆明理工大学信息工程与自动化学院

中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。

相关文献

导出/参考文献
[1]邵党国,黄初升,马磊,贺建峰,易三莉. 基于Bi-LSTM的医学文本分词模型[J]. 通信技术 . 2022(02): 151-159.

PDF在线阅读

《基于Bi-LSTM的医学文本分词模型》

价格:0.00

Copyright © 2021-2024 全科互知 | 赣ICP备2021006197号-4 | 新出网证(赣)字20417号
赣公网安备 36012102000372号 | 赣B2-20210313 | 技术支持:道然科技

sasa 互知学术
sasa 全科互知