阿里健康拿下中文电子病历实体识别全国冠军

全国知识图谱与语义计算大会(CCKS2018)8月14日至17日在天津举行,凭借出色的专业能力,阿里健康团队在中文电子病历命名实体识别评测任务中夺冠。

 

电子病历结构化是让计算机理解病历、应用病历的基础。基于对病历的结构化,可以计算出症状、疾病、药品、检查检验等多个知识点之间的关系及其概率,构建医疗领域的知识图谱,进一步优化医生的工作。

 

例如,基于大医院的优质病历数据训练的辅助诊疗系统,可以在基层医院应用以提升医生的业务能力;根据症状和以往病历记录自动分析医生开出的药品是否合理,预测发生误诊的概率等等。结构化的电子病历对于临床医学科研等工作也具有重大作用,医生可以更加智能地搜索相关病历,或者查看相似病历,也可以对病历进行相关统计分析,有助于医生发现潜在的知识联系,产生高水平的临床研究论文。

 

此次CCKS2018的电子病历命名实体识别的评测任务,是对于给定的一组电子病历纯文本文档,识别并抽取出其中与医学临床相关的实体,并将它们归类到预先定义好的类别中。组委会针对这个评测任务,提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。

 

目前主流的中文实体识别方法主要沿用自英文和其他语言的通用方法,并没有把中文的特色发挥出来。而正如英文中可以根据单词的词根词缀来猜测其意义和性质一样,汉字的笔画及偏旁部首中也蕴含着大量信息。阿里健康团队以两种序列标注算法为基础,首次在医疗文本领域采用了cw2vec的方法构建词向量矩阵,基于全部的非标注文本和标注文本集训练词向量,以解决新字无法识别的问题;同时改进了汉字结构和拼音的特征的一般方案。最终,团队以严格指标0.8913取得了第一名的好成绩。

 

 “ 医疗命名实体识别只是我们团队工作的一小部分,也是我们面向医院和医生提供医疗人工智能服务的基础。”阿里健康人工智能实验室主任范绎说,阿里健康团队长期专注通过实体识别、实体链接、关系提取等手段从电子病历中识别信息,并在此基础上对信息进行融合和整合,以知识图谱的呈现形式,为其他服务提供数据基础。在此之上,基于电子病历数据,阿里健康打造了大数据科研平台、临床辅助决策引擎等针对医院和医生的多款产品,为广大医生和用户提供更加智能的用户体验,帮助其提升专业水平和工作效率。

 

CCKS是由中国中文信息学会语言与知识计算专业委员会(CIPS)定期举办的全国年度学术会议,致力于促进中国语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已经成为国内知识图谱、语义技术、语言理解和知识计算等领域的核心会议。(完)