数据挖掘技术在医疗大数据中的应用研究
来源:小侦探旅游网
信息与电脑2016年第6期China Computer&Communication计算机工程应用技术数据挖掘技术在医疗大数据中的应用研究罗 堃 代 冕(四川大学华西第二医院,四川 成都 610041)摘 要:近年来,我国医疗卫生领域吸纳了国内外先进的信息技术,信息化程度得到很大提高。国家卫计委建立了医院监管系统,委属医院每月都要将各自的医疗卫生数据上传到卫计委资源数据中心,为后续数据挖掘提供了数据支撑环境,13亿人的医疗大数据必将对医疗卫生领域产生重要影响。笔者首先简单介绍数据挖掘的基本概念和算法,然后详细介绍数据挖掘技术在医学科研领域的应用,最后总结并展望医疗数据挖掘的未来。关键词:数据挖掘;医疗;大数据中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2016)06-045-03 2015年,国家卫生和计划生育委员会启动了医院监管系是影像数据或音频数据。描述数据主要有两个方面:记录数统的建设,在委属医院部署数据采集软件,委属医院按照卫和属性数。大数据的“大”,一个是记录数量巨大,一个是计委制定的采集规范将数据上传到各自的智能前置机,然后属性涵盖广阔。属性有时也叫维度、变量、字段、特征。属国家卫生计生委资源数据中心再通过VPN网络接收各个医性是刻画对象的基本特性或性质,它因对象而异,随时间而院的数据,对医疗数据进行统一存储管理,为实现数据挖掘变化。属性类型决定了可以使用的数据分析技术。一种指定和利用提供数据支撑环境。以前各医院的医疗数据都是各自属性类型的简单方法是,确定对应于属性基本性质的数值性独立,如果要查看患者的所有就诊记录,需要到各个医院进质。数值的如下性质常用来描述属性[3]。行查询,非常麻烦,且由于各个医院使用的系统不一样,数相异性=和≠据质量也参差不齐,这进一步增加了收集患者健康信息的难序<、≤、>和≥度。相比于给人们带来巨大便利且日新月异的互联网技术而加法+和–言,和生命健康紧密相关的医疗信息化落后很多,医疗行业乘法*和/迫切需要加快信息化建设步伐,医院监管系统的建设迈出了给定这些数值性质,可以定义以下四种属性类型,每种全民健康保障信息化的第一步。属性类型拥有上方属性类型的所有性质。医院监管系统采集的数据将会是比较完善的全民健康数标称:值仅仅是名字不同,以区分对象(=,≠),如颜色、据,有了这些数据,如何更好地使用,将会是今后长期探索民族、医嘱类型。的问题。本文探讨了如何在医疗大数据中应用数据挖掘技术,序数:值提供足够的信息确定对象的序(<,>),如收挖掘出蕴藏在数据中有价值的信息,从而促进医疗行业的科入水平的高、中、低。研取得较大进展,为卫计委对医院的管理提供决策支持。本区间:值之间的差是有意义的,存在测量单位(+,–),文首先介绍了常用的数据挖掘技术,然后探讨了一些可以应如摄氏或华氏温度。用数据挖掘的方向,最后做了总结和展望。比率:差和比率都是有意义的(*,/),如取药数量、1 数据挖掘及基本算法新生儿体重。标称和序数属性统称为分类属性,或定性属性,区间和数据挖掘是从大量数据中挖掘有趣模式和知识的过程[1]。比率属性统称为数值属性,或定量属性。数据源包括数据库、数据仓库、Web、其他信息存储库和动知道了数据的属性类型,就可以对数据进行描述性统计态流入系统的数据。数据挖掘应用具有三个要素:数据、算法、分析,了解数据的逻辑关系和关系模型。描述性统计分析包知识。它的基础是数据,手段是各种算法,目的是获得数据括以下几个方面。中蕴含的知识[2]。下面先介绍一些数据相关的问题,然后分中心趋势分析:均值、中位数和众数。析数据中可能蕴含的知识,最后介绍用于挖掘知识的相应算离散趋势分析:方差、标准差、极差和四分位数。法。描述性图表:直方图(见图1)、饼图(见图2)、折1.1 数据线图等。数据有各种形式,可以是关系数据、文本数据,也可以作者简介:罗堃(1982-),男,四川成都人,硕士研究生,初级工程师。研究方向:医院信息管理。通讯作者:代冕(1985-),男,四川成都人,硕士研究生,初级工程师。研究方向:人机交互、数据挖掘。— 45 —2016年信息与电脑3下-正文.indd452016/5/915:08:43计算机工程应用技术信息与电脑China Computer&Communication2016年第6期脑可以理解的形式。可以把算法分为六大类。(1)分布探索:探索数据的客观分布,数据挖掘的主要技术是聚类分析。(2)关系探索:探索事物间的伴随关系,以及变量间的影响关系。采用数据挖掘的主要技术是关联规则和特性选择。(3)特征选择:探索由高维变量表达的事物的主题特征,数据挖掘的主要技术是特征抽取。(4)异常探索:探索由高维变量表达的事物的离群个案,数据挖掘的主要技术是异常侦测。(5)推测探索:根据有限变量的已知数据推测目标变量的未知值。图1 直方图示例(6)趋势探索:按照某种次序或序列,通常是时间次序,考察并推测事物发生的变化,数据挖掘的主要技术是时间序列。2 数据挖掘在医学科研领域的应用随着医疗卫生信息化进程不断加快,医疗数据规模正以前所未有的速度迅猛增长,包括患者就医过程中产生的信息、临床医疗研究和实验室数据等[4],这些数据中蕴含了巨大信息急待挖掘,但与此同时相应强大的数据挖掘工具却没有出现。四川大学华西第二医院的产前诊断中心急需专业的数据挖掘工具对基因数据进行分析,但这不是靠个别机构短期内图2 饼图示例就能解决的问题,需要多专业长期合作才能使医疗数据的研1.2 知识究不断进步。医疗大数据挖掘涉及知识面广,本文不作全面数据挖掘功能用于指定数据挖掘任务发现的模式。这些介绍,仅从临床科研的角度介绍一些常用案例,以期给临床模式可分为两类:描述性和预测性。描述性模式刻画数据的科研人员提供一些参考。一般性质,预测性模式在当前数据上进行归纳,以便做出预2.1 基因组信息学测。描述性模式包括频繁模式、聚类、离群点等。预测性模基因组信息学主要是指核酸与蛋白质序列数据、蛋白质式包括用于预测分析的分类与回归等。三维结构数据的计算机处理和分析[5]。一方面,日益增长的数频繁模式是在数据中频繁出现的模式,存在多种类型的据对信息采集和处理提出了空前要求,从各种图谱的分析、大频繁模式,包括频繁项集、频繁序列模式和频繁子结构。频量序列片段的联配、计算机克隆、寻找基因、预测结构和功能,繁项集是指频繁出现在事务数据集中的物品集合,如医生开到数据和研究结果的可视化,都需要高效率的算法和程序;的医嘱中频繁一起出现的药品。频繁序列模式,如医生先开另一方面,如何从已积累的海量数据和知识出发,从DNA序的检验检查项目,然后又根据检验检查结果开的治疗方案和列中识别编码蛋白质的基因,以及调控基因表达的各种信号,药品医嘱。子结构可能涉及不同的结构形式,如图、树或格,预测蛋白质的功能和结构,解读生物学遗传密码,进行药物设可以与项集或子序列结合在一起,如果一个子结构频繁出现,计等,都是计算机工作者和生物学家面临的巨大挑战。则称为频繁结构模式。许多国家和研究组织都建立了生物序列数据库、蛋白质聚类是根据最大化类内相似性、最小化类间相似性的原结构和功能数据库,为人们提供了丰富信息。但是这些数据则把对象进行分组。分散,且存储介质多样,在同一数据库中存在着大量具有重分类是通过对训练数据集的分析,导出描述和区分数据复信息的序列及高度相似的数据,造成数据冗余,因此,对类的模型,以便能够使用模型预测类标号未知的对象的类标这种异构和广泛分布的数据库的语义集成就成为一项重要任号。导出的模型可以用多种形式表示,如分类规则(即IF-务[6]。数据挖掘中的数据清理、数据集成方法有助于解决该THEN规则)、决策树、数学公式或神经网络。问题。回归是建立连续值函数模型,即回归是用来预测缺失的对基因家族的成组序列来说,必须阐明多个序列之间的数值数据值,而不是离散的类标号。关系,才能揭示整个基因家族的特征。利用关联规则、聚类1.3 算法分析有助于发现一组序列之间的差异以及相似度,以便于基算法研究的是如何找到数据中蕴含的规律,并表现为人本了解一个基因家族的特征。另外,在生物学研究上,人们— 46 —2016年信息与电脑3下-正文.indd462016/5/915:08:43信息与电脑2016年第6期China Computer&Communication计算机工程应用技术发现疾病的产生大多数是由多基因决定的,利用关联规则分2.2.4 分类模型分析析帮助确定在目标疾病样本中同时出现的基因种类。当找到了两种极易混淆的疾病X病和Y病的差异性指标2.2 临床科研数据挖掘后,希望进一步通过差异性生化指标将这两种疾病分辨出来,临床科研的基本方法是遵循“三要素”“四原则”。“三这里的差异性生化指标就是用于分类的预测因子,这就用到要素”是指研究人群、处理因素和观察结果。“四原则”是了数据挖掘中的分类模型技术。分类模型的特点是根据若干要求科研设计满足随机、对照、重复和均衡的原则。在科研预测因子,将数据类型为离散变量的目标变量进行分类,分数据上,可以理解为数据分布的要求和数据对比的要求。临类模型是有监督的学习模型。常用的分类模型算法有决策树床科研的很多目标是要揭示潜在医学现象、医学指标间的关算法、朴素贝叶斯算法、支持向量机算法、多元Logistic回系及复杂的医学规律等。临床科研探索的核心就是应用数据归算法等。对于不同的分类算法,可能有不同的预测因子集挖掘技术从海量临床数据中,主动探索、发现蕴含的潜在医合,更能发挥分类模型的效果。学规律,这样就极大提高了科研探索效率,大幅拓宽了科研2.2.5 回归预测分析题材面,并可深度探究和分析复杂的医学问题。下面将介绍在临床科研中,还有很多研究试图发现由多变量指标组在临床科研活动中用到的几种数据挖掘算法。成的多元关系模型,尤其在复杂的慢性病中有很多医学指标2.2.1 聚类分析互动的系统性疾病可能蕴含一个多元关系模型。这就需要用临床科研通常是以医院患者为研究对象,并对患者的诸数据挖掘中的回归预测技术。回归预测是利用一组证明是目多基本变量和临床指标进行分析,其中最基本的患者指标是标变量的相关因子,对连续型目标变量进行拟合预测的方法。年龄和性别。通常不同年龄、不同性别的患者具有不同的医回归预测常用的算法包括多元线性模型、多元非线性模型等。学特征,因此,需要将患者按年龄和性别进行分组,但科研中的区组设计大多采用人工划分,如将年龄按十年分为一组。3 结 语这样不能科学反映研究人群客观的年龄分布规律,针对这个本文首先简单介绍了数据挖掘的概念和三个要素,数据、问题,可以采用数据挖掘分析中的聚类技术,将科研人员选知识和算法,然后详细分析了数据挖掘技术在医疗大数据中定的研究人群的性别和年龄进行科学划分。还需要对患者的的应用,特别是在基因组信息学和临床医学科研中的应用。临床指标进行深入分析,例如不同年龄和性别分组下的某生医疗数据不仅规模大,如一个CT图像大约有150MB数据,化指标的特征,这同样可以采用聚类技术进行分析,但不同一个基因组序列文件大小约为750MB,一个标准的病理图接的是聚类分析的变量由两个变为三个。近5GB,且具有多态性的特征,包括纯数据(如体检、化验2.2.2 关联分析结果)、信号(如脑电信号、心电信号等)、图像(如B超、科研中很多情况要做有关病因学方面的探讨,如某种合X线等)、文字(如主诉、现/往病史、过敏史、检测报告等),并症是否是导致另一种合并症的诱因。这里可采用数据挖掘医疗数据中蕴含了巨大宝藏,对医疗数据的挖掘任重而道远,的关联规则技术进行分析。关联规则挖掘的特点是从大量随这个领域需要更多的人才投入才能更充分挖掘出数据中蕴含机发生的并发事件中,找到强关联的现象,使得在某事件发的知识,从而促进临床医学发展。生的前提下,另一事件的发生具有很高概率,并且是一种具有业务意义的强规则。关联规则的一个优点是它的单向性,更易观察谁导致了谁,谁可能是因,谁可能是果。如果前后参考文献事件互推的置信度都很高,那么它们就是双向的,也就是二[1]J Han,M Kambr.Data Mining Concepts and 者互为因果,或者说是同生共寄。Techniques[M].Beijing:Higher Education Press,2001.2.2.3 权重因子分析[2]洪松林,庄映辉,李堃.数据挖掘技术与工程实践[M].医学研究中的一个普遍需求,就是了解哪些医学变量指北京:机械工业出版社,2014.标和某些疾病具有很强的相关关系,探索哪些变量因子对特[3]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖定的疾病具有较强的影响权重,哪些变量因子对这些疾病具掘导论[M].范明,范建宏,译.北京:人民邮电出版社,2011.有较弱的影响权重,哪些变量因子对这些疾病的影响权重属[4]周光华,辛英,张雅洁,等.医疗卫生领域大数据应于混淆因子,这是一种有监督的学习模型。例如,从诊断上用探讨[J].中国卫生信息管理杂志,2013(4):296-300.有两种极易混淆的疾病X病和Y病,它们在很多症状、临床[5]唐常杰,张天庆,左劼,等.基于基因表达式编指标甚至临床表现中具有相似特征,现有的医学诊断方法较程的知识发现——沿革、成果和发展方向[J].计算机应难分清两者,希望从众多客观的医学指标,如生化指标中发用,2004(10):7-10.现两者差别,这时,就需要采用因子权重算法加以分析。[6]方艳.数据挖掘在生物信息学中的应用[J].微机发展,2004(4):1-3.— 47 —2016年信息与电脑3下-正文.indd472016/5/915:08:44