数据挖掘的常用方法、功能和一个聚类分析应用案例【皇冠官网】

官网

皇冠官网-前言  在前面两篇的博文自学笔记中,笔者分别共享了关于BI的基础概念和几种数据挖掘的流程。在今天的博文中,笔者整理了数据挖掘的常用方法和数据挖掘的最重要功能(出自于MBA智库百科)。当然,横看成岭外侧成峰,这些常用方法和最重要功能或许并不完全正确或原始。

除此以外,笔者尝试自学了SMARTBI公司中的SmartMining软件,并追随其获取的示例教程展开了自学。为便利读者,将其示例教程融合自己的体会作为文章的第三部分。  一、数据挖掘的常用方法  利用数据挖掘展开数据分析常用的方法主要有分类、重返分析、聚类、关联规则、特征、变化和偏差分析、Web页挖出等,它们分别从有所不同的角度对数据展开挖出。

  分类。分类是找到数据库中一组数据对象的联合特点并按照分类模式将其区分为有所不同的类,其目的是通过分类模型,将数据库中的数据项同构到某个等价的类别。它可以应用于到客户的分类、客户的属性和特征分析、客户满意度分析、客户的出售趋势预测等,如一个汽车零售商将客户按照对汽车的爱好区分成有所不同的类,这样营销人员就可以将新型汽车的广告手册必要寄送到有这种爱好的客户手中,从而大大增加了商业机会。  重返分析。

重返分析方法体现的是事务数据库中属性值在时间上的特征,产生一个将数据项同构到一个实值预测变量的函数,找到变量或属性间的倚赖关系,其主要研究问题还包括数据序列的趋势特征、数据序列的预测以及数据间的涉及关系等。它可以应用于到市场营销的各个方面,如客户谋求、维持和防治客户萎缩活动、产品生命周期分析、销售趋势预测及有针对性的广告宣传活动等。  聚类。聚类分析是把一组数据按照相似性和差异性分成几个类别,其目的是使得归属于同一类别的数据间的相似性尽量大,有所不同类别中的数据间的相似性尽量小。

它可以应用于到客户群体的分类、客户背景分析、客户出售趋势预测、市场的细分等。  关联规则。关联规则是叙述数据库中数据项之间所不存在的关系的规则,即根据一个事务中某些项的经常出现可给定另一些项在同一事务中也经常出现,即隐蔽在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据展开挖出,可以从大量的记录中找到有意思的关联关系,找到影响市场营销效果的关键因素,为产品定位、定价与自定义客户群,客户谋求、细分与维持,市场营销与促销,营销风险评估和诈骗预测等决策反对获取参照依据。

  特征。特征分析就是指数据库中的一组数据中萃取出有关于这些数据的特征式,这些特征式传达了该数据集的总体特征。

如营销人员通过对客户萎缩因素的特征提取,可以获得造成客户萎缩的一系列原因和主要特征,利用这些特征可以有效地防治客户的萎缩。  变化和偏差分析。偏差还包括相当大一类潜在有意思的科学知识,如分类中的异常实例,模式的值得注意,仔细观察结果对希望的偏差等,其目的是找寻仔细观察结果与参考量之间有意义的差异。

在企业危机管理及其预警中,管理者更加感兴趣的是那些车祸规则。车祸规则的挖出可以应用于到各种出现异常信息的找到、分析、辨识、评价和预警等方面。  Web页挖出。随着Internet的很快发展及Web的全球普及,使得Web上的信息量无比非常丰富,通过对Web的挖出,可以利用Web的海量数据展开分析,搜集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处置那些对企业有根本性或潜在根本性影响的外部环境信息和内部经营信息,并根据分析结果找到企业管理过程中经常出现的各种问题和有可能引发危机的先兆,对这些信息展开分析和处置,以便辨识、分析、评价和管理危机。

  二、数据挖掘的功能  数据挖掘通过预测未来趋势及不道德,作出前摄的、基于科学知识的决策。数据挖掘的目标就是指数据库中找到说明了的、有意义的科学知识,主要有以下五类功能。  自动预测趋势和不道德:数据挖掘自动在大型数据库中找寻预测性信息,以往必须展开大量手工分析的问题如今可以很快必要由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘用于过去有关广告宣传的数据来找寻未来投资中报酬仅次于的用户,其它可预测的问题还包括预报倒闭以及确认对登录事件最有可能作出反应的群体。

  关联分析:数据关联是数据库中不存在的一类最重要的可被找到的科学知识。若两个或多个变量的给定之间不存在某种规律性,就称作关联。关联可分成非常简单关联、时序关联、因果关联。

关联分析的目的是找到数据库中隐蔽的关联网。有时并不知道数据库中数据的关联函数,即使告诉也是不确认的,因此关联分析分解的规则具有可信度。  聚类:数据库中的记录可被化分成一系列有意义的子集,即聚类。聚类强化了人们对客观现实的了解,是概念叙述和偏差分析的先决条件。

聚类技术主要还包括传统的模式识别方法和数学分类学。80年代初,Michalski明确提出了概念聚类技术,其要点是,在区分对象时不仅考虑到对象之间的距离,还拒绝区分出有的类具备某种内涵叙述,从而防止了传统技术的某些片面性。  概念叙述:概念叙述就是对某类对象的内涵展开叙述,并总结这类对象的有关特征。概念叙述分成特征性叙述和区别性叙述,前者叙述某类对象的联合特征,后者叙述有所不同类对象之间的区别。

分解一个类的特征性叙述只牵涉到该类对象中所有对象的共性。分解区别性叙述的方法很多,如决策树方法、遗传算法等。

  偏差检测:数据库中的数据常有一些出现异常记录,从数据库中检测这些偏差很有意义。偏差还包括很多潜在的科学知识,如分类中的异常实例、不符合规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,找寻观测结果与参考值之间有意义的差异。。

本文来源:皇冠官网-www.movemymailtomac.com

相关文章