数据挖掘模型和挖掘步骤-技术方案-@大数据资讯

随着中国电信的改革重组，中国通信业取得了跨越式的发展，成为国民经济中发展速度最快的行业之一，中国通信业总规模现已在世界排名第一。与此同时，中国通信市场竞争也日趋激烈。通信运营商的经营观念逐渐从"技术质量第一"向"服务客户第一"转化。以前的营销模式已经无法满足客户的多样化、层次化、个性化的需求。长期以来，通信单位大量详尽的业务数据也只是被简单地应用在各种业务系统中，没有被更有效地开发利用。如何利用这些数据进一步拓宽通信业务，促进通信业务发展，从而为通信业提供决策支持服务，已经成为各个通信单位的当务之急。

近几年迅速崛起的数据挖掘技术成为实现这些目标的有效手段。它可以深入分析客户信息、客户价值和行为，从而使营销具有洞察力、精确化，并通过从数据中挖掘价值来减少营销成本、提高营销效益。

客户细分模型和挖掘算法选择

构建客户分类模型需要用到第2章所介绍的一些技术。其中聚类技术就是其中之一。在前面的章节中我们曾了解到聚类和分类有着很大的区别：分类时，我们事先选择一些属性作为分类标准，通信企业总是会将重要的、有影响力的属性作为分类的依据；而在实际应用当中，通信企业事先根本不知道哪些属性会起到作用。而找到那些起关键作用的属性是聚类技术的任务之一。在通信客户分析中，聚类分析能够帮助我们发现特征迥异的不同客户群和对客户分类起关键作用的指标变量，并辅助运营商对各客户类别的特征进行深刻观察。通信客户从营销属性方面分为三类：普通客户、价值客户和黄金客户，其中普通客户消费行为有较大的随机性，分布较广，规律难寻，比较适于聚类分析。

本数据挖掘实例采用通话行为、数据业务使用情况等作为客户分类变量，把通信行为相似的人群聚为一组。数据挖掘方法论选用CRISP- DM（Cross-Industry Process for Data Mining）过程模型。即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度来划分挖掘任务，将数据挖掘技术和实际应用紧密结合。CRISP-DM 过程模型的主要步骤有商业理解、数据理解、数据准备、建立模型、数据挖掘、评价和实施以及结果发布，如图3-9所示。该过程的各个环节按顺序进行，但需要不断地循环往复进行数据探索和模型的调优。这里为了简化说明问题，先不考虑循环往复的探索和调优过程，直接顺序考察各个环节。

数据挖掘模型和挖掘步骤

在各种硬件条件和软件条件都具备的情况下，就可以开始进行挖掘的工作了。

1．数据准备

数据准备过程如下：

（1）确定项目目标，制定挖掘计划。

（2）分析变量的获取。

（3）数据收集和获取。
（4）数据集成。

依据CRISP-DM流程，第一要确定项目目标，之后制定挖掘计划。首先必须明确项目的商业目标，这个目标应该是适于用选取的聚类分析方法来达到的。所定义的客户细分的商业目标是"对某地方数十万普通客户，从客户行为的角度进行客户分类，以了解不同客户群的消费行为特征，为发展新业务、原有客户挽留、对其他通信公司用户争夺的针对性策略的制订提供依据，并实现企业稳定现有客户量、提高客户增长量的战略目标"。

之后就应该对分析变量进行全面获取，在保证数据的一致性、完整性、有效性和层次性的基础上，数据指标具有较高的完备性，应该覆盖全部经营分析与数据挖掘的需求。我们选择的数据来源主要有客户档案记录、客户营销记录、销售单主表、销售退货主表、销售付款表、客户联系记录、客户投诉记录和客户关怀记录等。变量准备的结构如图3-10所示。

（点击查看大图）图3-10　变量准备的结构

客户的消费行为和需求通过调查问卷以及访谈的方式来实现。

客户的通信行为以及需求特征类别见表3-1。

表3-1 客户行为特征信息表

客户的通信行为	客户的需求特征类别
短消息使用次数移动梦网使用次数 WAP上网时间 GPRS数据流量	方便性及信息实时性的需求
IP长途使用次数优惠时段通话次数套餐定制和使用次数拨打10086次数	对资费的敏感程度
本地、长途、漫游呼叫时长本地、长途、漫游呼叫次数呼叫时间、次数（繁忙/非繁忙时段、工作/休息时段、优惠/非优惠时段）呼叫类型（主叫、被叫、呼叫转移）	对通话的多层次需求
服务种类	对个性化服务的需求程度

数据是数据挖掘的根基，在确定了分析目标和执行方案后，需要对各个数据源的数据进行清洗、整理并集成，以确定这次分析需要哪些方面的数据，然后将它们汇总起来，形成这次分析任务的数据库（数据仓库）。在此实例中，数据来源于移动公司自己的CRM系统、客户计费系统，客户服务系统、营销系统以及业务结算系统等。

基于客户需求和上述行为特征信息表，定义了几组细分变量，d_代表时常，t_代表频率，见表3-2。在这里只列出通话形式和通话比例表。

表3-2 细分变量表（简表）

通话形式	市话	d_local
	市话	t_local
	省内长途	d_toll_InProvince
	省内长途	t_toll_InProvince
	跨省长途	d_toll_BetweenProvince
	跨省长途	t_toll_BetweenProvince
	国际长途	d_toll_htm
	国际长途	t_toll_htm
通话比例	网内通话	d_mob_Ttl t_ mob_Ttl
	联通通话	d_uni_Ttl t_uni_Ttl
	小灵通通话	d_phs_Ttl t_phs_Ttl
	固定电话通话	d_fix_Ttl t_fix_Ttl

2．数据准备

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动，是数据挖掘过程中最耗时的环节，甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图3-11所示。

（点击查看大图）图3-11 数据准备工作的流程

数据准备的过程和数据挖掘的过程请参考第1章相关内容，这里不再赘述。

3．建立模型

在生成最终的数据集后，就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术，同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。

在建模过程中，我们采用多种技术手段，并将建模效果进行对比。需要挑选合适的变量参与建模。参与建模的变量太多会削弱主要业务属性的影响，并给理解分群结果带来困难；变量太少则不能全面覆盖需要考察的各方面属性，可能会遗漏一些重要的属性关系。输入变量的选择对建立满意的模型至关重要。应结合此次分析任务的目标，选择有重要业务意义并与数据挖掘目标密切相关的变量；被选择的变量应具备较好的数据质量，并且被选变量之间相关性不宜太强。

不同的技术方案产生的模型结果有很大不同，而且模型结果的可理解性也存在较大差异。另外，对结果的分析和描述也很关键，不恰当的描述会造成误导。需要指出的是，不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略，而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定，以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升，不断优化的过程，在每一次聚类结束后，需要判断聚类结果在业务上是否有意义，其各群特征是否明显。如果结果不理想，则需要调整聚类模型，对模型进行优化，称之为聚类优化。聚类优化可通过调整聚类个数及调整聚类变量输入来实现，也可以通过多次运行，选择满意的结果。通常可以依据以下原则判断聚类结果是否理想：类间特征差异是否明显；群内特征是否相似；聚类结果是否易于管理及是否具有业务指导意义。

4．模型评估

通过上面的处理，就会得到一系列的分析结果和模式，它们是对目标问题多侧面的描述，这时需要对它们进行验证和评价，以得到合理的，完备的决策信息。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证，通过对几种模型的综合比较，产生最后的优化模型。

模型评估阶段需要对数据挖掘过程进行一次全面的回顾，从而决定是否存在重要的因素或任务由于某些原因而被忽视，此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分的考虑。验证模型是处理过程中的关键步骤，可以确定是否成功地进行了前面的步骤。模型的验证需要利用未参与建模的数据进行，这样才能得到比较准确的结果。可以采用的方法有直接使用原来建立模型的样本数据进行检验，或另找一批数据对其进行检验，也可以在实际运行中取出新的数据进行检验。检验的方法是对已知客户状态的数据利用模型进行挖掘，并将挖掘结果与实际情况进行比较。在此步骤中若发现模型不够优化，还需要回到前面的步骤进行调整。

原文链接：http://book.51cto.com/art/200907/135009.htm