1.本发明属于自然语言处理,是一种中文电子病历的命名实体类别标注方法及系统。具体指基于hmapcnn
‑
bilstm
‑
crf对实体进行特征提取和类别标注。
背景技术:
2.电子医疗病历能够电子化存储病人的终生健康状态和病、医疗史,是医疗领域在信息化时代发展的必然趋势。对中文电子病历的文本挖掘工作能够有效利用信息,为临床诊断、治疗提供数据准确访问、警示和辅助决策的功能。基于中文电子病历的命名实体类别标注工作作为其中的重要一环,对实体间关系提取、医疗知识推理等工作有重要意义。
3.目前应用于中文电子病历的命名实体类别标注方法可归类为基于词典和规则、基于机器学习和基于深度学习三种。
4.基于字典和规则的方法是命名实体识别类别标注中最早使用的方法。此类方法极度依赖命名实体库和手工规则的制定,需要领域内的专业人士人工地生成模板。当实体库内容足够覆盖文本中的实体或规则编写能精确反映语言现象时,这些方法的性能要超过绝大多数其他方法,同时需要付出的代价也急剧升高。
5.基于机器学习的方法将命名实体识别作为分类和序列标注问题,利用大规模的语料库训练标注模型。常用的机器学习模型有隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等。此类方法较为依赖特征工程,标注数据和特征定义的质量优劣会直接影响标注的结果。
6.随着深度学习技术的发展,神经网络模型和深度学习方法在nlp领域的任务上展现出优秀的问题解决能力。诸多神经网络模型如nn/cnn
‑
crf、rnn
‑
crf、lstm
‑
crf相继问世,这种不依赖于特征系统建设而是基于数据驱动、端到端一体的框架开始被广泛应用。
7.目前基于深度学习的命名实体类别标注方法是主流,虽然此类方法展现出了优越的性能,但是在中文电子病历命名实体识别领域还面临着诸多难题。电子病历自身带有结构多样化、专业性强等特点,对其所包含实体种类的划分粒度会对从文本中提取到信息的全面性、有效性起到关键作用,而实体类别数量的增加,又势必会造成类别之间的混淆或冗余情况,导致所使用深度学习模型的性能和标注的准确率下降。如何全面地对实体类别进行划分,以及联合多种神经网络模型、充分发挥各自优势对实体进行更准确的识别和标注是目前急需解决的问题。
技术实现要素:
8.本发明针对中文电子病历命名实体类别划分不全面和多类别标注问题下神经网络模型实体标注准确率有限的问题,提供了一种基于hmapcnn
‑
bilstm
‑
crf联合模型的中文电子病历命名实体类别标注方法及系统,一定程度解决了单一模型对于多类别标注问题特征提取和识别准确率有限的问题。
9.第一部分,本发明提供一种中文电子病历命名实体类别标注方法。实体的类别标
签共11种,类别名称和对应标注如图1所示。
10.方法的技术方案步骤如下:
11.s1、通过word2vec工具结合ctb 6.0(chinese treebank 6.0)语料库得到每个中文实体的词向量表示;
12.s2、将词向量输入至hmapcnn模型进行实体的前后缀等构词特征进行提取,在池化层采用半数最值平均池化,选取半数个具有较大特征值的待采样点计算特征值的均值作为池化结果f
hmap
(v),计算公式为:
[0013][0014]
其中c、v
i
分别为待采样点的个数和第i个采样点的特征值,max
i
表示采样点按特征值由大到小排序后,选取到的第i个较大的特征值,共选取数量c一半的采样点特征值求取平均。
[0015]
s3、将卷积层的输出结果输入至双向lstm层计算正向、反向的隐含层向量,将两个向量进行拼接输入到softmax层,最终得到每个实体类别标签的概率分布。在模型中,每条输入数据都会经过从c
t
‑1时刻到c
t
时刻的过程,在c
t
时刻会对上一时刻信息的保留信息进行更新和删除,这个操作依赖于模型中三个“门控制”。在t时刻,输入门控i
t
、遗忘门控f
t
和输出门控o
t
计算公式可表示为:
[0016]
i
t
=σ(w
i
·
[h
t
‑1,x
t
]+b
i
)
[0017]
o
t
=σ(w
o
·
[h
t
‑1,x
t
]+b
o
)
[0018]
f
t
=σ(w
f
·
[h
t
‑1,x
t
]+b
f
)
[0019]
其中w
i
、w
o
、w
f
和b
i
、b
o
、b
f
分别为门控i、t、f通过训练可得出的参数矩阵和偏置参数。
[0020]
在t时刻的输入x=[x1,x2,...,x
t
]与上一时刻隐藏层状态h
t
‑1进行向量拼接,通过与参数矩阵w结合转化为与隐藏层相同的维度,最后通过参数b偏置后经过sigmod函数得到0~1之间的值,即上一时刻信息在此刻的应保留的比例。遗忘门控f
t
用于对上一时记忆特征c
t
‑1中部分信息进行过滤,输入门控i
t
来控制候学习特征结合二者对输入信息进行计算,得出当前节点的记忆特征向量c
t
:
[0021][0022][0023]
其中w
c
和b
c
同样为训练可得出的参数矩阵和偏置参数,最后将c
t
通过非线性函数tanh进行激活,通过输出门控o
t
过滤其中部分信息,得到当前t时刻隐藏层状态h
t
:
[0024]
h
t
=o
t
*tanh(c
t
)
[0025]
s4、将双向lstm模型的输出序列输入至crf层对其建模,观测实体标注序列之间的转移概率得出最终的命名实体标注结果。对于输入序列w和标注序列l,其匹配分数可表示为:
[0026][0027]
其中n为序列长度,t和u为概率参数,分别表示第i步得到的标签是l
i
且第i+1步得到的标签是l
i+1
的转移分数、第i步输入w
i
对应的标签是l
i
的发射分数。为解决标注偏置问题,crf在进行归一化处理后得到输入w对应的标注为l的概率可表示为:
[0028][0029]
在训练过程中需要最大化正确标签序列的对数概率,即最小化概率的负对数似然,设l
w
为所有标签的集合,训练时所使用损失函数可表示为:
[0030][0031]
用维特比算法获得最大概率的输出序列如下:
[0032][0033]
第二部分,本发明开发了一套基于b/s架构的图形化在线交互系统,后台接入方法中设计的模型,通过浏览器可访问和使用命名实体类别标注模型的功能。该系统功能包括:电子病历原始数据输入;将原始数据输入至模型进行命名实体类别标注,处理完成后页面展示模型对命名实体的标注结果;将处理结果写入文本文档并导出下载。
[0034]
本发明的基于hmapcnn
‑
bilstm
‑
crf的中文电子病历命名实体类别标注方法及系统具有以下优点:
[0035]
(一)本发明定义的中文电子病历命名实体类别划分规则能够更全面地描述病历中出现的实体种类,标注出的实体能最大化保留病历语义信息。
[0036]
(二)本发明使用联合的神经网络模型,充分利用不同模型的优势来提高多类别标注问题下命名实体识别的准确率。
[0037]
(三)本发明在传统cnn模型的基础上提出半数最值平均池化方法,在具备最大池化关注较为明显采样点的优点同时考虑更多其他采样点,提升模型对实体特征的识别效果同时有效避免模型训练时易出现的过拟合现象。
附图说明
[0038]
图1为中文电子病历命名实体类别图。
[0039]
图2为中文电子病历命名实体类别标注系统结构图。
[0040]
图3为中文电子病历命名实体类别标注结构图。
具体实施方式
[0041]
本发明的系统能够根据输入的原始病历数据完成命名实体类别标注,并通过浏览器页面展示标注结果,提供处理结果的文本文档格式导出及下载功能。系统采用b/s架构,主要分为视图层和逻辑层,通过html、python和java等技术实现,系统整体结构如图2所示。
[0042]
(一)输入原始病历数据
[0043]
原始病历文本可通过两种方式输入至系统:在文本域内键入和上传本地文件。视图层接收输入的数据并提交给后台。
[0044]
(二)系统调用命名实体类别标注模型对原始数据进行处理
[0045]
逻辑层接收视图层传输的原始病历文本,将其传输至模型完成命名实体类别标注处理,将处理好的结果返回至视图层,并生成处理结果的文本文件供用户下载。
[0046]
以上所述仅为本发明的较佳实施例,并非用以限定本发明的实质技术内容的范围,本发明的实质技术内容广义地定义于权利要求书中,任何他人所完成的技术实体或方法,若是与权利要求书所定义者完全相同,或是为同等效的变更,均将被视为涵盖于本发明专利范围之中。
相关知识
电子病历系统及其标准体系.pdf
电子病历系统的.doc
中软电子病历系统首页
电子病历管理系统的设计与实现
电子病历系统:医疗管理新革命
智慧医院中的电子病历系统.pptx
提升患者体验,基于CRM的电子病历系统设计与实践
医院电子病历实施方案6篇(全文)
东软电子病历系统
TWQ电子病历系统
网址: 一种中文电子病历的命名实体类别标注方法与系统 https://m.trfsz.com/newsview1394226.html