您的当前位置:首页基于Bayes统计推断的粗糙集数据挖掘方法

基于Bayes统计推断的粗糙集数据挖掘方法

来源:小侦探旅游网
维普资讯 http://www.cqvip.com 第3O卷第2期 河北理工大学学报(自然科学版) Vo1.30 No.2 2008年5月 Journal of Hebei Polytechnic University(Natural Science Edition) May.2008 文章编号:1674一o262(2008)02—0075一O3 基于Bayes统计推断的粗糙集数据挖掘方法 李丽红,李超 (河北理工大学理学院,河北唐山o63oo9) 关键词:数据挖掘;粗糙集;RUBIN算法;Ba),es统计推断规则 摘要:分类发现是数据挖掘的一个重要任务,Bayes统计推断是数据挖掘中数据分类的主 要方法也是其基础之一。建立在粗糙集基础上,利用概率工具以及Expec ̄fion-Maximization 思想(RUBIN算法)和Bayes统计推断规则的结合提出了分类的方法和步骤,并给出实例 分析。重点是RUBIN算法和Bayes统计推断规则相结合在粗糙集上建立的决策方法。 中图分类号:O 212.8 文献标识码:A 0 引言 随着信息学的发展,大量信息的涌入使知识自身的粒度变的粗糙不精确,如何发现知识背后的信息成 为当今研究的主要内容。数据挖掘就是此时孕育的一门新兴学科,所谓数据挖掘(Data Mining)就是从 大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道 的、但又是潜在有用的信息和知识的过程。分类发现作为数据挖掘的一个任务,本身带有模糊性,即对于 一系列的属性所组成的知识系统,并不能准确的对训练集进行分类。于是引入粗糙集的概念,对等待分类 的训练集做两个近似,上近似边界,下近似边界,训练集界于两者之间,其模糊程度我们可以用P表示, 利用Bayes统计推断与RUBIN算法结合,对训练集的类属细化,对决策者起一个参考作用,这个思想也 可以应用到机器学习领域,做决策软件的数学基础。 1 预备知识 1.1粗糙集 粗糙集是一种处理不精确、不确定与不完全数据的新的数学理论。粗糙集理论中的知识表达方式一般 采用信息表或称为信息系统的形式。它可以用四元有序组表示K:(£,, ,V,P)其中: ・£,是对象全体,即论域; -A是属性全体; -V:U 是属性值域 ・P:U× —l,是一个信息函数,.P :A一-W, ∈U,反 映了对象 在 中的完全信息,其中P (a):p( ,a)。 也可以直观表示粗糙集如图 假设X是不可定义集,上近似边界为asupX,下近似界ainfX,那么 关于A的粗糙性测度定义为 一器 其中asupX={ ∈U I [ ]c_x},ainfX=; E U I [ ]nx#6},I^Y I表示基数,0≤ ( )≤l 收稿日期:2007—06-15 基金项目:国家自然科学基金资助』c;!目(70271048);河北省自然科学基金资助项目(E2006000377) 维普资讯 http://www.cqvip.com 76 河北理T大学学报(自然科学版), ;  第30卷 1.2 RUBIN算法 沿用EM对未知状态变量估算的思想,对其改进提出了RUBIN算法。假}殳( ,y)有联合的分布密 度函数f(0,x,Y)( 是未知状态变量,y是已知状态变量) RUBIN算法的核心思想:直接使用状态变量l,的密度函数g(0 ),)替代( ,y)的分布 数,’(0, ,Y)来求0关于g(0,y)的最大似然估计 。 计算结果如下 ( )一 (0)=[Q( l 0)一Q(0 l 0)]+[Ⅳ(0 l 0)一Ⅳ( l 0)]≥Q( l )一Q(0 l 0) 只要Q( l 0)一Q(0 l 0)≥0,就有己( )一 (0)≥0,确定0 使L(0 +I)一£(0 )≥0,也 就是使0 +1满足Q( l 0)一Q(0 l 0)≥0 RUBIN已经证明 在一定条件下收敛,在8次迭代后,结果趋于稳定,此时 可微 估计缝。 2 Bayes统计推断规则及改进 Bayes定理:假设 是类标号知的数据样本,日为某种假设,如数据样本-Y属于某个特定的类。分别 用P(//l )、P( lⅣ)、P( )、P(X)表示 下Ⅳ的后验概率、条 "下 的后验概率、以的先 验概率、 的先验概率。那么就有: e(H I ): 训练样本 ,要判断它的类别归属,关键是应用其条件概率P(A l )(i=l,2,3,…m,/n是类 '别的个数)来判断,做判定函数 di(X)=max[p(A l )],i=1,2,3…/'rt,X E A 这是基本判断原则,但是当知识的粒度变大时,分类的准确性出现偏差。应用上面的粗糙集和RU— BIN算法对Bayes统计推断规则进行改进。 改进的核心思想是:利用训练集与样本集的联系,利用决策属性A,对模糊训练集(边界不明晰)属 性进行分解,分类归属取决于A的决策值与P的取值 首先,属性集A可以分解,即A=CUA,C是原有属性,A是决策属性。训练集 可以应用粗糙集的 信息表形式表示,.即 =(U,C,V,P,A) 再次,假设训练集 与属性集A的联合分布函数是 (0, ,c,P,A),属性集A的分布函数是g(0,c, A),利用RUBIN算法的思想,求出0。 最后,建立决策属性函数A。它的值取决于决策的期望值△与实际的增长叩之间的关系: A= 三 这是特殊情况的0—1决策。 做判定函数 di(X)=max[p(Ai l X)’=A‘木 i] i=。1,2,3,m, E Ai 是修正因子,其本身是关于p,△的模糊函数,如果P=0,可以直接应用Bayes统计推断规则进行分类, 此时不存在模糊问题。 只在p≠0时起作用, = (P,A)是这样的函数,当且仅当P与△同时降低时。 呈现增加趋势。 3 分类步骤 , 上述讨论了分类方法,下面简单概述一一下应用此方法的步骤: (1)建立原有知识系统,即讨论的论域 ,划分属性。 (2)确认训练集 ,建立几何模型,划定分类的区域。 (3)计算上、下近似边界,对粗糙性测度p做限定。 维普资讯 http://www.cqvip.com

第2期 李丽红,等:基:r Bayes统计推断的粗糙集数据挖掘方法 77 (4)利用RUBIN算法的逼近方法,计算出近似分布函数./‘(0, ,C,p,A) (5)建立决策函数 ,取相应的修正冈子 ,建立判定 数。 (6)根据决策需要将训练集 进行(近似)归类。 4 实例分析 ‘ 一 上述是基于Bayes统计推断的数据挖掘方法,.下面对一个实例简单的分析阐述如何建立模型。 、 ・问题:超市上架某种新的商品,对于有购买倾向的用户群体进行分析预测,这种商品是否会帮助超 市带来新的消费群体,达到期望的利润。 ・分析:U是超市购买群体,A的属性可以简单归为三项A=(是,否,决策),洲练集』Y包括两部 分,原有群体和新群体中有购买倾向的用户,前一部分根据以往的销售记录比较容易建立模糊模型,后一 部分可以假设群体的分布满足正态分布进行估计。 ・模型建立:利用RUBIN算法的逼近方法,计算出近似分布函数f(0, ,c,P,A),引入决策期望 值△,假设实际增长叼,建立决策函数如上,修正因子6可以假定决策者对决策期望△是不变的。 ・决策建议:由于问题是建立在粗糙集基础上,不确定因素必须考虑,决策者可以根据最后的结果凋 整其期望△,因为6总体是一个递减函数,应该采取更客观的决策。 5 结束语 Bayes统计推断在数据挖掘的分类中是比较常用也是基础方法之一.Bayes方法是迄今被证明对后验 概率的估计最精确的。但是信息的激增使知识的粒度增大,这种严格意义下的计算对于实际问题的应用准 确程度降低,所以粗糙集的引入对提高分类的准确度起到了致关重要的作用。在实际应用中,模糊的概念 影响着决策,建立在粗糙集基础上的Bayes统计推断为决策提供了一个比例尺度和分类方法,并且引入了 决策函数,决策修正因子,细化训练集的属性空间,在一定意义上推进了分类的准确性。 参考文献: [1] 苏新宁,杨建林,邓三鸿,周军.数据挖掘理论与技术. [2] 龚光鲁.余敏平.应用随机过程教程与在算法和智能计算中的应用. [3] 富秀军,史忠植.中国科学院计算技术研究所智能信息处理开放实验室基于Bayes潜在语义模型的半监督Web挖掘软件学 报Vo1.13,No.8. [4] 张文修,吴伟志.粗糙集理论介绍和研究综述模糊系统与数学2000年12月. [5] 舒宁,马洪超,孙和刚.模式识别的理论方法(The Theories and Methods ofPattern Recognition). [6] Yoshimasa Tsruuoda and Jun’ichi Tsujii.Training a Native Bayes Classiifer via the Em Algoifthin with a Class Distribution Constarint. The Method of Rough Set Data Mining Based on Naive Bayes LI Li—hong.LI Chao (College of Sciences,Hebei Polytechnic University,Tangshan Hebei 063009,China) Key words:data mining;rough set;RUBIN method;naive bayes Abstract: Classiifcation iS an important mission of Data Mining.Naive Bayes is the main method for DMC and one of its foundations.I"tlis text,based on Routh Set.made use of all the statistical tool and the Expectation.Maximization method RUBIN method combination with the Naive Bayes to expound the method and step of the classiifcation,as well as gave an example. rhe point of text is the combination of the RUBIN method and the Native Bayes t6 build up of RS decision method. 

因篇幅问题不能全部显示,请点此查看更多更全内容