0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

近五年来中文电子病历的命名实体识别研究进展

深度学习自然语言处理 来源:python遇见NLP 2020-08-27 17:56 次阅读

阅读综述性论文是一种能够快速了解某一领域的方法,接下来通过今年的一篇综述性论文来了解一下近五年来中文电子病历的命名实体识别研究进展。

基本的,我们应该先来了解一下两个概念:电子病历和命名实体识别。

电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的数字化信息, 并能实现存储、管理、传输和重现的医疗记录。电子病历中的文本内容是医务人员按照《病历书写基本规范》和《电子病历基本规范(试行)》中相关书写规定,围绕患者医疗需求与服务活动而记录的描述性文本内容。

命名实体识别(Named Entity Recognition,NER)是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。与通用领域的命名实体不同,电子病历中的命名实体通常有疾病、症状、治疗等实体。

有了上述两个概念的了解后,接下来我们就可以来了解中文电子病历命名实体识别的任务,它包括:

①电子病历数据的获取与匿名化处理;

②明确命名实体种类,进行语料标注;

③构建模型进行实体识别;

④结果评价及优化。

以电子病历中现病史章节为例,中文电子病历命名实体识别研究任务流程如图1所示:

从上述四个任务出发,我们继续进行探讨。

1

电子病历数据集的获取

中文电子病历数据的获取途径通常包括:

①与医院建立合作关系,如曲春燕等通过与某医科大学附属医院建立合作关系获取到该院35个大科室、87个小科室的992份电子病历。同时,相关医务人员也全程参与数据标注,为数据集的质量提供了保障。

②开放获取的学术评测语料,如CCKS2020学术评测任务三开放了用于命名实体识别评测任务的已标注匿名化电子病历1500份和未标注的电子病历1000份,在电子病历语料资源匮乏的现状下,全国知识图谱与语义计算大 会无疑为行业发展作出了巨大贡献。 ③网络发布的电子病历资源。 当前,大多数研究采用第1种方式获取电子病历的研究数据,并邀请医务人员参与语料数据的标注工作;而第2、3种获取方式具有很大的不确定性,并且电子病历的数据标注工作过程控制和质量控制均存在不确定性。

2

数据标注的相关工作

曲春燕等参照i2b2 2010的标注规范制定了中文电子病历的标注规范,进而在两名临床医生的全程参与下,对病历文本分为前后共计4轮标注,并进行了一致性检验。杨锦锋等在曲春燕等人的工作基础上,对相同的病历文本资源,进行了命名实体和实体关系的标注语料构建工作。He等在曲春燕、杨锦锋等人的工作基础上,新增了电子病历文本的分词、词性标注、断言、关系抽取等自然语言处理常见任务的语料标注工作,并对标注结果进行了一致性检验。 上述学者的延续性标注工作,对今后研究的语料标注工作具有一定的指导意义。然而,与临床医生长期从事语料建设和维护的难以实现。一方面,临床医生用于语料标注的时间有限;另一方面,邀请临床医生标注语料成本更高。因此,医学数据标注团队建设和专业人员培养的可行性值得探讨。

3

主要的命名实体识别算法模型

中文命名实体识别的主要研究算法为条件随机场(CRF)和双向长短期记忆网络模型条件随机场(Bi-LSTM-CRF)。 Liu等设计不同特征模板和上下文窗口进行条件随机场的学习训练,进行模型实体识别效率的比对分析,以寻找最佳的电子病历特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014语料上实验对比了Bi-LSTM-CRF与传统的CRF实体识别算法的性能,结果表明Bi-LSTM-CRF性能较好。CCKS 2017学术评测任务二:面向电子病历的命名实体识别,共收录了7篇论文,研究内容和测评结果等见表1。总体上看,7篇论文均有对Bi-LSTM-CRF(或Bi-LSTM)算法模型的实现;均采用“字粒度”模型使用word2vec工具将输入文本特征向量化表示。Zhang等利用CCKS 2017开放的电子病历语料,分别采用CRFs和Bi-LSTM-CRF两种统计机器学习算法从电子病历数据集中识别疾病、身体部位和治疗等信息,并对两种方法进行了对比分析,发现后者性能较好。Qiu等为提高循环神经网络模型的训练速度,提出了残差卷积神经网络条件随机场模型(RD-CNN-CRF)在CCKS 2017开放测试语料上获得了较Bi-LSTM-CRF更高的训练速度和F1值。CCKS 2018学术评测任务一:面向中文电子病历的命名实体识别,共收录论文2篇,分别是Yang等将词嵌套、词性、偏旁部首、拼音、词典和规则特征作为条件随机场(CRFs)的学习特征,实验F1值为89.26%;Luo等基于多特征(如标点符号、分词和词典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五种神经网络模型,实验F1值最高达到了88.63%(表1)。

4

结果评价及优化

随着中文电子病历命名实体识别的研究逐步深入以及相关算法框架的逐渐成熟,基于中文电子病历的命名实体识别算法构成了临床电子病历系统、专病科研数据提取、临床辅助决策系统的重要组成部分。 电子病历命名实体识别结果评价指标说明如下图:

袁冬生为解决出院小结文档中普遍存在的信息不准确、无效信息、信息缺失等问题,设计开发了一套基于命名实体识别的出院小结错误检测系统。李山为提高住院病历录入的交互性和可操作性,降低书写的繁杂度,减轻医生负荷,提高工作效率,使用条件随机场算法,进行电子病历命名实体识别,提取病历中重要的诊疗信息,并将其应用在住院病历录入辅助中,以优化和改善病历录入方式。Su等则基于中文电子病历命名实体标注规范构建了一个可用于识别心血管疾病危险因素的语料库。

展望

.....

针对电子病历的语义特征的量化分析与研究,对于提升算法特征工程质量有积极意义;近两年来,针对电子病历语料标注的成本问题,很多研究聚焦于半监督和无监督的算法来实现基于少量标注语料或完全基于非标注原始语料进行实体识别,是一个重要的研究方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电子病历
    +关注

    关注

    1

    文章

    61

    浏览量

    20131
  • 数字化
    +关注

    关注

    8

    文章

    8714

    浏览量

    61731
  • 识别
    +关注

    关注

    3

    文章

    173

    浏览量

    31964

原文标题:【NER综述】近五年中文电子病历命名实体识别研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高能点焊电源威廉希尔官方网站 在现代工业制造中的应用与研究进展

    制造中的最新研究进展。 一、高能点焊电源威廉希尔官方网站 的基本原理及特点 高能点焊电源威廉希尔官方网站 是一种利用高压脉冲电流实现金属材料瞬间熔化并完成焊接的先进工艺。其工作原理主要基于
    的头像 发表于 11-23 08:58 169次阅读
    高能点焊电源威廉希尔官方网站
在现代工业制造中的应用与<b class='flag-5'>研究进展</b>

    上海光机所在多路超短脉冲时空同步测量方面取得研究进展

    图1.超短脉冲时空同步实验的光路图 近日,中科院上海光机所高功率激光物理联合实验室在多路超短脉冲时间同步与空间叠合度测量方面取得研究进展,相关研究成果以“High-precision
    的头像 发表于 11-11 06:25 159次阅读
    上海光机所在多路超短脉冲时空同步测量方面取得<b class='flag-5'>研究进展</b>

    AI大模型的最新研究进展

    AI大模型的最新研究进展体现在多个方面,以下是对其最新进展的介绍: 一、威廉希尔官方网站 创新与突破 生成式AI威廉希尔官方网站 的爆发 : 生成式AI威廉希尔官方网站 正在迅速发展,其强大的生成能力使得AI大模型在多个领域得到广泛应用
    的头像 发表于 10-23 15:19 413次阅读

    导热纸(膜)的研究进展 | 晟鹏威廉希尔官方网站 突破导热芳纶纸

    问题。纸张及薄膜具有良好的柔韧性、优异的加工性和厚度可调整性,是良好的柔性导热材料。本文概述了近年来导热纸(膜)的研究进展,对不同基材的导热纸进行了归纳分类和介绍,重点
    的头像 发表于 07-12 08:10 656次阅读
    导热纸(膜)的<b class='flag-5'>研究进展</b> | 晟鹏威廉希尔官方网站
突破导热芳纶纸

    量子计算+光伏!本源研究成果入选2023度“中国地理科学十大研究进展

    近日中国地理学会公布了2023度“中国地理科学十大研究进展”本源量子参与的“量子地理计算威廉希尔官方网站 、软件及应用”研究成果获选系量子计算领域唯一入选单位来源:中国地理学会此次入选的“量子地理计算威廉希尔官方网站 、软件
    的头像 发表于 05-10 08:22 501次阅读
    量子计算+光伏!本源<b class='flag-5'>研究</b>成果入选2023<b class='flag-5'>年</b>度“中国地理科学十大<b class='flag-5'>研究进展</b>”

    锑化物超晶格红外探测器研究进展与发展趋势综述

    锑化物超晶格红外探测器具有均匀性好、暗电流低和量子效率较高等优点,其探测波长灵活可调,可以覆盖短波至甚长波整个红外谱段,是实现高均匀大面阵、长波、甚长波及双色红外探测器的优选威廉希尔官方网站 ,得到了国内外相关研究机构的关注和重视,近年来取得了突破性的
    的头像 发表于 04-19 09:13 1126次阅读
    锑化物超晶格红外探测器<b class='flag-5'>研究进展</b>与发展趋势综述

    用于先进电生理记录的有源微纳协同生物电子器件研究进展综述

    开发精确灵敏的电生理记录平台对心脏病学和神经科学领域的研究至关重要。近年来,有源微纳生物电子器件取得了重大进展,从而促进了电生理学的研究
    的头像 发表于 04-16 10:55 703次阅读
    用于先进电生理记录的有源微纳协同生物<b class='flag-5'>电子</b>器件<b class='flag-5'>研究进展</b>综述

    综述:高性能锑化物中红外半导体激光器研究进展

    据麦姆斯咨询报道,近期,由中国科学院半导体研究所和中国科学院大学组成的科研团队受邀在《激光威廉希尔官方网站 》期刊上发表了以“高性能锑化物中红外半导体激光器研究进展”为主题的文章。该文章第一作者为曹钧天,通讯作者为杨成奥和牛智川研究员。
    的头像 发表于 04-13 12:08 1964次阅读
    综述:高性能锑化物中红外半导体激光器<b class='flag-5'>研究进展</b>

    先进封装中铜-铜低温键合威廉希尔官方网站 研究进展

    用于先进封装领域的 Cu-Cu 低温键合威廉希尔官方网站 进行了综述,首先从工艺流程、连接机理、性能表征等方面较系统地总结了热压工艺、混合键合工艺实现 Cu-Cu 低温键合的研究进展与存在问题,进一步地阐述了新型纳米材料烧结工艺在实现低温连接、降低工艺要求方面的优
    的头像 发表于 03-25 08:39 741次阅读
    先进封装中铜-铜低温键合威廉希尔官方网站
<b class='flag-5'>研究进展</b>

    电子封装用金属基复合材料加工制造的研究进展

    共读好书 盖晓晨 成都四威高科技产业园有限公司 摘要: 在航空航天领域中,金属封装材料被广泛应用,对其加工制造工艺的研究具有重要的意义。近年来,金属基复合材料逐渐代替传统金属材料应用于新一代
    的头像 发表于 03-16 08:41 596次阅读
    <b class='flag-5'>电子</b>封装用金属基复合材料加工制造的<b class='flag-5'>研究进展</b>

    2023度中国半导体十大研究进展出炉,一项传感器威廉希尔官方网站 入榜(附全名单)

    来源:《半导体学报》   2月5日,《半导体学报》发布2023度“中国半导体十大研究进展”名单,其中,一项传感威廉希尔官方网站 入选。   由中国科学院上海威廉希尔官方网站 物理研究所红外科学与威廉希尔官方网站 重点实验室胡伟达、苗金水
    的头像 发表于 02-20 08:37 784次阅读
    2023<b class='flag-5'>年</b>度中国半导体十大<b class='flag-5'>研究进展</b>出炉,一项传感器威廉希尔官方网站
入榜(附全名单)

    2023LLM大模型研究进展

    作为做LLM应用的副产品,我们提出了RLCD[11],通过同时使用正例和负例prompt,自动生成带标签的生成样本不需人工标注,然后可以接大模型微调,或者用于训练reward models
    发表于 01-19 13:55 480次阅读

    增强光声双光梳光谱的研究进展

    二十年来,光学频率梳(光频梳)光谱已经发展成为精密光谱和计量学、光谱激光雷达、环境监测以及高光谱全息成像等众多领域的强大工具。
    的头像 发表于 01-15 10:12 974次阅读
    增强光声双光梳光谱的<b class='flag-5'>研究进展</b>

    电动汽车功率电子封装用耐高温环氧塑封料的研究进展

    ​摘要:本文综述了近年来国内外关于耐高温环氧塑封料(EMC)的基础研究与应用进展,从先进功率电子器件发展对塑封材料的性能需求、传统EMC的高温降解机理、EMC结构与耐热稳定性的关系以及
    的头像 发表于 01-04 08:09 3529次阅读
    电动汽车功率<b class='flag-5'>电子</b>封装用耐高温环氧塑封料的<b class='flag-5'>研究进展</b>

    大幅加薪40%,七年来首次!

    16000元人民币),均高于 300,000 日元大关。这是东京电子年来首次为新员工加薪。 日本出现了一系列与芯片相关的重
    的头像 发表于 01-03 09:13 892次阅读