第23卷第2期 2006年2月 计算机应用与软件 Computer Applications and Software Vo1.23,No.2 Feb.2006 基于数据挖掘的移动通信客户消费行为分析 刘 蓉 (中I寺J大学商学院陈晓红 湖南长沙410015) 湖m长沙410012) (【乇沙 一I:大学管理学院摘要 从多维立方体数据模型出发,本文提出了跨多个多维立方体的数据挖掘聚类算子模型,并将基于多 ̄Xc:h-体事实物理维 度的分类聚类算法,应用于移动通信客户消费行为分析中,提供了消费行为分析的实例和方法。 关键词 数据挖掘 聚类算子模型 聚类算法 消费行为分析 CONSUMER.ACTIoN ANALYSIS IN MOBILE ENTERPRISES ON DATA MINING Liu Rong ・ Chen Xiaohong (School of Business.Central So“th Universit) ,Changsha Hunan 410012。China) :(Sdtool of Management,Changsha Unlversit) of,%ietu.'e and Technology,Changsha Hanun 410076,Chlwa) Abstract From the multidimensional cube model,the paper lakes forward a model of aggregate operator.By using the aggregate algorithm based on dimensional of fact,we supply some examples of consumer—action analysis in mobile enterprises, Keywords Data mining Aggregate opel’ator model Aggregate algoritlibn Custome ̄。一action analysis 0引 言 由于事务性操作的频繁发生,数据库中的数据以海量的速 度增长,人们所需要的有用的知识和信息被稀释。数据挖掘 (DM) ¨是基于数据仓库(DW) 的一种多维分析技术,它通过 对海量信息的筛选和处理,借用先进管理决策模型,可以大大提 高企业经营决策的准确性、实时性和事实性。 M=(111,.,m ,…,, )是测度集,其中m.是测度的名称,来 自域dora… (.); A=(a.,a:,…,a )是属性值,其中a 是属性的名称,来自 域dora 。】; F:D—A是维集到属性集的一对多映射,也就是说,对应于 每个维有一组属性,约束条件如下: (】)DnM=0,即维集和测度集是没有交集的; Anindya Datta等在文献[3]中提出了一种多维立方体数据 模型以及用以支持在此数据模型上实现DM分析的代数模型, 在研究利用DM进行移动通信客户消费分析的过程中,我们利 用并完善了其聚类算子模型。在移动通信客户消费分析中,一 (2)对于任意的i, , 的属性集是没有交集的。 (d )n (d )=0,即任意两个维 上述关于多维立方体的定义是一个抽象定义,具体针对一 个多维立方体实例,可以用一个六元组<D,M,A,f, ,g>来定 方面,分析系统需要大量和历史的动态集成的数据,所以我们提 出用多维立方体数据模型来存储这些信息;另方面,分析系统还 要依据一定的原则,使用一些有效的数据挖掘算法来对这些多 义。一个多维立方体实例是将一个抽象的多维立方体进行实例 化得到的,其中前4个元索前面已经解释过了。那么, 是一个 值的集合,任意一个元素 都可以用一个 元组< , , …维立方体进行运算,以期获取知识并形成决策信息。下面在 Anindya Datta等提出的多维立方体数据模型基础上,通过扩展 实现DM分析所需要的聚类算子模型及算法,提出了移动通信 客户消费行为分析的实例和方法。 , >来表示,其中 是第个i测度m 的实例化;g代表映射 g:dora (1)×dora l(2)×…×domdim(q)— ,即g映射通过将多维 立方体中的单元与值集 中的元素进行关联,实现这些单元的 实例化。 1 DM分析模型 1.1 多维立方体数据模型 一1.2聚类算子( 模型 文献[3]中介绍的聚类算子 是在某个多维立方体的一个 或者多个维上进行的聚类运算。假定h是定义在某个测度m. 上的聚类函数。s是一个聚类目标属性集{a ,a:,…,a },且有 S A,聚类运算将在A中除了这些属性的其他属性上进行。映 射占:A—D表示一个将上述s中的每个属性a 与其相关的维d. 个多维立方体是一种逻辑上的数据组织方式,是实现 DM的数据对象。多维立方体在这个DM模型中作为下面所提 的多维立方体算子模型的基本输入和输出。一个多维立方体可 以定义为一个四元组<D,M,A,/>,这4个元素从不同角度描 述了多维立方体的特性,它们的定义分别如下: 关联起来的一一映射。聚类算子的代数描述为: D;(d ,d ,…,d )是维集,其中d.是维的名称,来自域 orda “, “); 收稿U J9】:2004—12—29。刘蓉," 生.主研领域:无线自组网络 蹄¨J 议及QoS,数批挖掘技术。 维普资讯 http://www.cqvip.com
第2期 输入刘蓉等:基于数据挖掘的移动通信客户消费行为分析 多维立方体c.=<D,M,A , ,g>和一个用于聚类 部分,它们来自于移动通信营业系统和计费系统等事务运行数 据库中,反映了某类客户对移动通信产品在某一时间范围内的 消费值和特征。对于移动通信企业来说,已经有一整套关于客 户消费行为分析的数据指标体系(可查阅有关移动通信企业经 营分析指标)。限于篇幅,本文仅实现了多维立方体内部的聚 类运算。通过对有关数据实行清理后,构造移动通信客户消费 水平的多维立方体数据模型 Consume—level如下: Consume—level:<D1.MlIAi , l,gl> 的测度m ,以及一个聚类目标属性集S; 输出多维立方体c0:<D0,M0,A0,.to. ,go>,其中 ={d,,d ,…,d },q:』 且对于任意的口。∈S,d =占(口 )。帆 {m。}; 。=U 代数表达d d ) =.厂; 是在1.1的元素上进行聚类运 (C )=Co。 =算后得到的值集;g0:dora f1)×doar (2)×…×dora“ r,.)----+I)0。 我们将此模型扩展为跨多个多维立方体的聚类运算,并称 为多维聚类算子(o)模型。在文献[3]中未提及跨多维立方体 其中Dl=(Use,Charge,Time,Site,NewB,Sensitive),移动通 的聚类运算。多维聚类算子(o)模型指由二个或以上的多维立 方体在某个维上的K个切片运算得到另一-4"新的多维立方体 某维上的多个切片,新多维立方体的其它维可以沿用旧多维立 方体的维来构成。输出的多维立方体为 ,输入的多维立方体 为c C …,c 。对于 ,除了做切片的维(设为第 维,记为 ( ))与C. 不同之外,其余的维与c 相同,主要是用于实例化 值集的多边关联。聚类算子0和聚类算子d有某种相似性,如 聚类算子0针对测度在某个、多个多维立方体c,或在c的内部 某个(或某些)维上进行聚集;而聚类算子d只进行内部聚集。 S是一个聚类目标属性集{。.,。 ,…,。 j,因此有S∈A,因此聚 类算子 的结果满足D0∈D,M0∈M,A0∈A,fo=,, o∈ ;而聚 类算子0是外部聚集,是由多个多维立方体生成另一个新的多 维立方体。下面给出聚类算子0的代数描述: 似定1是定义在某个测度Ill,.上的聚类函数,元渭词,J胁表 示在第, 个多维立方体c 的某个维 上获得切片 的限定条 件逻辑表达式,(其中1t∈(1,2,…,,1),表示共有几个多维立方 体c) 1是在维d ,…,d 等多个维上根据上述限定条件获 得的切片进行聚类运算。元渭词吼表示在输出多维立方体 上的维吐 上获得切片t的限定逻辑表达式。 输入多个多维立方体c…cI1I…,c…其中cI=<D,M,A, /, ,g>;一个用于聚类的测度, ;进行聚类运算的维 , , …,d ;以及元谓词p 和元谓词q 。 输出多维立方体 =<D ,n,U,A。,fo, ,g。>的切片t, 即0 ( ),其_中D。是将D 中d, 替换为乩,而得到,也是将与 d..相关的维属性替换为与 相关的维属性得到的, 是在 的 元素上进行聚类运算后得到的值集,g。:如m ㈩x…x dom (J—1)X domal, ( )x dom. (J+1)X…×dom ) ; 代数表达式 O1mi.,4( f (CII,C …,Ct,.),O'pj2(C .……C.)…O"t (clI】Cm…,ch)= (cu))。 2数据挖掘的数据清理分类聚类模式 为了提高分类的准确性、有效性和可伸缩性,要先对数据库 中的数据进行如下预处理: (1)数据清理消除或减少数据噪声,并进行空缺值的数 据预处理: (2)相关性分析删除学习过程中不相关或冗余的属性; (3)数据交换将低层数据概化到高层概念。 3移动通信客户消费行为分析的数据挖掘实现 3.1 多维立方体数据模型的建立 移动通信客户消费分析数据…是移动通信基础数据的一 信客户消费水平通常是从客户使用量、客户话费、使用时间、使 用地点、新业务接受度、对资费的敏感度等6维进行: M.=(Actua1.Forecast),人们关心的消费水平数据通常有 两类,一类是实际值,一类是预测值,可以看出D,nM.=0; Al=(RFreg,NFreg,LFreg,IPFreg.Ratio,Dur,Charge,Day, Month,Year。Zone,Local,hm-a,Inter,NewB.Sensitive); (Use)=iRFreg,NFreg.LFreg。IPF,-eg,Ratio,Dur},客户使 用量维(维1)。可以用漫游呼叫频次、国内长途呼叫频次、本地 呼叫频次、lp呼叫频次、主被叫比率、每次呼叫时长等属性米描 述; (Charge)=l Charge},客户话费维(维2),可以用客户话 费这一个属性来描述; (Time)=l Day,Month,Year},客户使用时问维(维3),可 以用日、月、年等3个属性来描述; (Site)={Zone,Local,Intra,Inter{,客户使用地点维(维 4),可以用区域内、本地、省内和省际等4个属性来描述; (NewB)=iNewB},客户对新业务的接受度(维5)可以根 据客户对新业务的接受及敏感度来衡量; . (Sensitive)=i Sensitive},客户对资费的敏感度(维6),可 以由客户对资费敏感程度不同这个属性来描述。 对于任意的i, (i≠ ) (d )n (d ):0 是一个二元组的值集, 对上述4个元素确定的多维立 方体进行实例比,每一个元素是(Actual,Forecast)的一个实例; gl表示映射gl:dora (m. )x domffl ( )X dora (“…一f『, ,) 3.2分析功能的提出 为了辅助决策层进行客户消费行为的管理决策,针对客户 消费行为提出分析要求如下: (1)求客户消费特征相互之间的联系,如客户使用量与所 其消费话费之间的相关程度; (2)由客户消费行为特征定义客户所属的等级; (3)分析和预测各类客户的消费行为,并作出正确的决策。 3.3聚类算子模型 要实现3.2中所提出的分析功能,就要对客户消费行为的 多维立方体模型Consume—level进行聚类运算。假定^是定义 在测度Actual上的埭类函数。S是聚类目标属性集{RFreg NFreg,LFreg,IPFreg},且有S E A,聚类运算将在 4中除了这些 属性的其他属性上进行。映射r,: —D表示一个将上述S中的 每个属性与其相关的维d 关联起来的一一映射。该聚类运算 的代数描述为: 输入多维立方体C。=<D,M,A , ,g>和一个用于聚类 的测度Actual,以及聚集目标属性集S; 输出多维立方体C0=<D0,M0,A0,fo. 0,g0>,其中Do 维普资讯 http://www.cqvip.com
62 计算机应用与软件 Drawingcurve(A[j]); 2006丘 ={d ,d ,…,d },q=I SI,S中的任意属性与其相关联的维di 形成了…映射。,0=,; 是在 的元素上进行聚集运算后得 1. 。)=Co。 1)rawingcurve(△Pmin(xjk。A[j])); Dl1awingcurye(△Pmax(Xjk,A[j])); 到的值集; :dOmdlm(1)xdora (2)X…Xdomdl ( ) 0。 代数表达 Drawingcurve(△P(Xjk。A[j])); l l l Main() Procedure: 3.4聚类算法的实现 基于3.3所提出的移动通信客户消费行为分析的聚类算子 模型,我们用基于事实的物理维度 的分类聚类算法来实现算 子0。把移动通信企业的客户使用量特征定义为漫游呼叫频 次、国内长途呼叫频次、本地呼叫频次、IP呼叫频次等4个层 次,依据一定的聚类算子0,对多维立方体Consume—level的各维 进行分类聚类运算。该聚类运算的示意算法如下: Algorithm: Initial: Start n1卜—4: function(m); End of PrCmedure l 本算法的思想是根据事实的物理维度进行分类聚类,将 Function(m Consume.1evel的各维聚类为4个关于客户呼叫的层次子类,并 计算各维中各个子类的样本均值、最近距离和均值距离,输出相 应的变化曲线,再根据专家知识对每条曲线给予合理解释。我 们发现某段时间内按月均时间维度计算的具有“业务繁忙”行 ;A一】; {For i in 1 to 6 { dim+I_Jinl[i]; n+J_Ⅲw of dim;T 为客户的呼叫特征为: (1)具有本行为特征的客户占客户总数的2.9%,每月人 均话费为868元: For J in 1 to in { For k in l to n (2)该种客户的显著特征体现在漫游和国内长途呼叫较 多。月均漫游呼入和呼出次数2113次,全体客户平均月均漫游 呼入和呼出次数仅23.7次,该客户的漫游呼叫是平均水平的近 9倍;另外,该类客户国内长途月均呼叫次数1964次,全体客户 平均国内长途呼叫27次,该客户是平均水平的7倍多。可见, 该类客户有相当多的异地呼叫需求,可能为差旅人士。 (下转第130页) posbtn.name:=s;posbtn.parent:;self: posbtn.1eft:=image1.1eft posx posbln.width div 2: { T=T+Xjk l A[J]=T/n; APmin(Xjk。A[J]) ̄---min 8(Xjk,A[j]); △Pma ̄(Xjk。A[j])一m“8(Xjk。A[j]); AP(Xjk.A[j])一6(Xjk,A[j]); (上接第59页) ~旦接收到警报,整个界面显示如图2。 ∥图像lf】棚对位髓 posbtn.top:=image1.Top posy—posbtn.height div 2: posbtn.width:=65;posbtn.height:=33; posbtn.fimt.Color:=clred;posbtn.Font.size:=10: posbtn.Caption:=typenamc.Caption; 5结束语 网2触警 面 利用无线寻呼构建社区报警系统是一种新型的无线报警技 术,它实现资源共享、多种技术互补,投资少、回报高。在实际编 程中,关键技术包括对寻呼编码和格式的处理、串口通信、图像 的存取、动画演示、动态控件生成、成批报警点设置以及时间采 样等。本系统经调试成功后已在某些住宅区投入使用,能准确 4.2住户和报警管理界面 事先设置好住户资料、房型图(用JPG和BMP格式存放于 数据库)和报警类型,成批生成用户户型图、报警点的设防、社 区平面图及保安点的位置。在房型图和社区平面图中通过右键 动态生成控件作为报警点,以便报警时能正确显示。下面列举 地接收无线报警信号,及时反映异常状况,操作界面友好直观, 系统运行稳定。得到用户的好评。 动态生成控件的代码: s:=’alarmpos +inttostr(alm'm—type); //报警点圆形控件名称 tcolnp:=FindComponent(8): 参考出版社,2001.8. 文献 ∥房型 的报特点是否存在,没有则动态创建 ifassigned(tcomp)then begin [1]黄 、熊蝴夺、刘燕等,I)ELPHI B口迎信编 [M]。北京:人比邮电 [2]范逸、陈立元,DELPHI与RS232半行通信控制[M],北京:清华大 学出版社。2oo2,6. //若存在.则先释放再创建。然后显示新 ∥创建的控件并显示.同l坩保存报辩点位世 posbtn.=THem hercButt0n(FindComponent(S)); posbtn.fi'ee; end; [3]虏增华、徐远超,Delphi5.0数据库编程寅战与精通[M],清华大学 出版社,2O00.7. [4] 航,SQL Server 2o()0彻底研究[M]。北京:中国铁道出版社。2001. 01. posbtn:=’I'HemisphereButton.Create(self); 维普资讯 http://www.cqvip.com
130 计算机应用与软件 2006生 /・令S为所创(3 x2)双丰iIi度实矩阵的指害1 ・/ S=mxCreateDoubleManix(3,2,mxB.EAL); mxSetClassName(S. S ); /・array缓冲区内锌复制到S所指结构体的U标缓冲区・1,・/ memepy((char・)mxGetPr(S),(char・)array. 6・sizeof(double)): engPutVariable(ep,”S”,S); engOutputBuffer(ep.buffer.BUFS1ZE); engEvalString(ep.”R=rra,k(S)”); result=engGetVariable(ep,”R ): if(resuh!=NUI L) {printf(“l{ank ofthe mTay is:“); printf(“%S”,buffer); else pfintf(”Cant’t get Ra,tk of the array. ); /・关闭MA…1LAIj引擎,释放动态内存・/ ensClose(cp); mxDestmyArray(S): mxDestmyArray(Resuh); engEvalStrlng(eng,%1o8e”); reture(0): I (5)运行engexam.exe得到结果,验证可行性 在DOS状态下运行此文件得到如下结果: E:\work\engexam\Debug>engexam.exe Rank ofthe army is:2 出于篇幅考虑,上述源程序中省略了一些不影响正常运行 的操作判断语句。 3结论 MATLAB与VC++混合编程的方法对开发大数据量的分 析处理系统提供了一种有效的途径,这种方式既可以广泛地运 用于要求具有友好的操作图形界面和丰富的程序接口中.叉可 以运用于需要进行复杂运算求解和图形显示的复杂软件的开发 编制中。 参考文献 [I]Application Program Interface Guide[M].The MathWorks.1ne.1999. [2]Michael J.Yong.邱仲潘等徉.Visual C++6从入门到柚通[M],北 京:中国电子工业出版社.1999. [3]张志涌.精通MATLAB 6.5版[M].北京:北京航空航天大学出版 社。2003. [4]飞思科技产品研发中心。MATLAB 6.5应用接口编程[M],jt京:电 子工业出版社。2003. [5]刘志俭。MATLAB应川接Isl用户指南[M],jB京:科学出版杜,2000. (上接第62页) (3)该类客户的本地呼叫也较繁忙。本地月均呼叫次数为 374.2次,远高于全体客户均值225.6次。该类客户大多为商 务人士。 (4)值得关注的是,该类客户长途呼叫频繁,但IP呼叫并 不多,IP繁忙时段月均呼叫只有3.9次,而IP每次呼叫时间却 较长,IP繁忙时段人均每次呼叫时间近3分钟。该类客户多为 商务繁忙人士,虽然对资费敏感度不高,但在遇到异地通话时间 较长的情况下,较偏好使用IP呼叫。 市场营销建议:可推广GRPS业务等。 客户服务建议:“方便”是此类客户的最大需求,赠送国内 新闻等。 4结束语 本文在文献[3]的基础上,提出了一种基于多个多维立方 体数据模型的聚类算子模型0。通过建立移动通信客户消费行 为分析的多维立方体数据仓库.利用本文提出的多维立方体数 据模型和基于事实物理维度的聚类算法.深入分析客户消费特 性,能从海垃的通信数据中获取知识。同样,还可以运用数据挖 掘的其他方法,如相关分析、限定分析、分割分析和回溯分析等 方法实现移动企业有关领域” 的决策支持。 参考文献 [1]ttan Jiawel,Kamber M.Data Mining Concepts and Techniques[M]. USA.Boston:Morgan Kaufmann Publishmz,2001. [2】Eft'era G.Mallach.决 支持与数据仓库系统[M】。北京:电子工业出 版社.2001. [3]Datta A.Thomas H. rhe Cube Data Model:n Conceptual M,xle1 and AI. gebra for On—line Analytical h。ocessing in Data Warehouses[J],Deci— sion Support Systems,1999.27(3):289—301. [4]刘蓉.“利用数据仓库技术完善综合电信管理决策系统[J]”,湖南 省通信学会年会优秀获奖论文,1999.11(11):142—148. [5]l,ln T_Y.Cerune N,Rough Sets and Data Mining Analysis[M].USA. Boston:Kluwer Academic Pubishers.1 997. (上接第79页) IW.tltr ̄r U 复 坐 口 鼍 盘 1膏采 口 兰 控 mI.】 I ■ ■ 一 由 窟 _●一 ___一 心 闭4扩脞后的UDDI架构 4 总结 针对电子公文交换系统,本文提出了对UDDI的扩展方案, 但其中也存在一些缺点。比如传输大批量数据时效率不足,特 别是进行加密和数字签名后体现得更加明显;底层的签名算法 只有一种,不能让用户自由选择等,这些都有待改进。而且随着 UDDI规范的不断更新,UDDI API也应该不断完善。 参考文献 [I]Heather Kreger.Web Services Conceptual Architecture(WSCA 1.0). ht【l1://www-3.ibm.conr/software/solutions/webservice ̄pdf/WSCA. pdf,2001. [2]UDDI Executive White Papm__http://uddi.org/pubs/uddi.exee.wp. pdf,2004. [3]UI)I)I l'eehnieal White Paper.http://llddi.org/pubs/uddi—tech.wp. pdf.2004. [4]UDDI Version 2.03 Data Structu Reference.http:ff uddi.ozg/pubs/ DataStrueture-V2.03・Published-20020719.pdf,2002. [5]U I)I)I4J Introduction.htttJ:∥www一1 24.ibm.c0m/developerworks/o8s/ uddi4j/,2003.
因篇幅问题不能全部显示,请点此查看更多更全内容