http://www.paper.edu.cn
基于分析型CRM数据挖掘的移动客户
流失预测模型分析与设计
李易桥
北京邮电大学计算机科学技术系,北京(100876)
E-mail:liyiqiao@gmail.com
摘 要:本文通过研究人脑对视觉信息的处理过程,提出了一种新的自然图像压缩方法,该方法。本文在对目前我国电信企业新的竞争格局分析的基础上,指出电信企业CRM现状及客户流失管理存在的问题,对CRM的理论框架、分析型CRM的核心——数据挖掘技术在客户流失分析中的重要性进行阐述。从客户流失理论、客户价值、客户细分及客户关系生命周期理论角度分析客户流失,对影响客户流失的常见因素分析及引入客户流失指数来得出重要的流失因素。在这基础上利用数据挖掘技术进行客户流失预测模型,最后针对预测模型得出的潜在流失客户在挽留价值评估的基础上进行客户挽留流程。 关键词:客户流失;客户关系管理系统;数据挖掘 中图分类号:TP
1 引言
随着我国电信业改革和重组,我国电信市场环境和竞争格局发生了巨大的变化,形成中国电信、中国移动、中国联通三足鼎立的市场格局。根据WTO协议,中国将逐渐放开增值服务、移动电话和国内国外基础电信服务。这样国内电信企业不仅要持续加大硬件基础设施的投入,更要注重企业的软性竞争力的培养;不仅要赶超世界技术的先锋,更要研究市场,研究客户,真正围绕“以客户为中心”。
电信行业是大量数据密集的行业,如何从海量业务数据中提取有效信息,建立综合的信息资源平台,传统的数据库管理技术已不能胜任,数据仓库和数据挖掘技术提供了有效的技术支持。随着电信行业的竞争日趋激烈,国内的几大电信运营商相继开发了基于数据仓库和数据挖掘技术的经营分析系统并投入使用[1],主要功能是根据流失客户和没有流失的客户性质和消费行为,进行挖掘分析,建立客户流失预测模型,分析哪些客户的流失概率最大,流失客户的消费行为如何,客户流失的其他相关因素,为市场经营与决策人员制订相应的策略、留住相应的客户提供决策依据,并预测在该策略下客户流失情况。
另一方面,CRM在国外提出已有十来年,但进入中国却只有短短几年,那么这个完全出自西方的管理理念和管理技术能不能适应中国的水土,还需要长时间的不断实践,CRM最大的优势就是整合信息资源,而要发挥这种优势作用,就必须有强大的数据资源做基础,而电信早已建立的业务支撑系统(BOSS/B-BOSS)积累了大量的原始业务数据。这些数据涉及到客户发展、市场营销、业务收入、销售渠道、网络优化、网络规划等各种方面,利用CRM能够快速地从中提取(检索、查询)信息,深层次发掘隐藏在客户数据和业务数据中的内在规律,及时把握业务发展的趋势,对业务发展进行前瞻性分析预测以制定相应的市场策略,对市场机会做出及时、灵活的反应,成为了移动企业在信息时代的市场竞争中立于不败之地的关键所在。
从这两方面来看,移动企业要实现对客户流失的管理需要运用CRM,只有利用分析型CRM的分析功能才能在海量的信息资源中获取有价值的知识加以利用。而CRM也正是需要运用电信企业的数据优势来体现它的真正价值,有了这个试验基地才能不断的实践以达到
-1-
中国科技论文在线
CRM在电信企业运用的炙热。
http://www.paper.edu.cn
成熟,因此,正是因为两者有着密不可分的利益关系,实现了经济学上的双赢模式,才使得
2 客户关系管理理论
2.1 CRM概述
CRM思想起源20世纪80年代初在美国提出的“接触管理”(Contact Management),用来专门收集整理企业与客户之间发生的所有信息。90年代前后经历了销售自动化(SFA)而后又演变成包括客户服务系统(CSS)和支持资料分析的客户关怀(Customer Care),1996年后一些公司开始把SFA和CSS两个系统合并起来,再加上营销策划(Marketing)、现场服务(Field Service),在此基础上再集成计算机电话集成技术(CTI)形成集销售(Sales)和服务(Service)于一体的呼叫中心(Call Center)。特别是Gartner Group在1997年正式提出了CRM概念,加速了CRM的产生和发展,最终形成了一套管理理论体系。
客户关系管理既是一种现代经营管理理念,亦是一种以客户为中心的业务战略,还是一套应用的软件和技术。它首先是一种管理理念,其核心思想是将企业的客户(包括最终客户、分销商和合作伙伴)作为最重要的资源,通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终身价值;其次作为业务战略,它可以帮助企业有效地采集和管理客户联系点的信息,利用这些信息找到更多的客户开发机会,从而更长时间地维系客户、提高销售量、同时节约营销费用;再次,作为应用的软件与技术,它利用了信息网络平台、数据库及数据挖掘技术,提取出对企业有用的客户信息,并通过模型进行合理的决策及营销分析。
2.2 CRM的三个层次:运营、协作和分析型
一般情况下,按照CRM系统的功能,把CRM系统分为三类,即:运营型、协作型和分析型三类。
运营型CRM可以帮助企业实现营销、销售、服务等业务的环节流程自动化,利用IT技术来提高运营商的运作效率,达到降低企业运作成本的目的。通过实施运营型CRM,企业最终将建立起一套以客户为中心的运作流程及管理制度,同时有助于培养员工的服务意识,从而使销售、服务、营销部门的业绩得到明显提升。
协作型CRM又称渠道型CRM。目前企业与客户的接触渠道日益多样,除了自营和加盟合作的营业网点服务、面对面的客户经理现场服务外,电子邮件、传真、呼叫中心、互联网及社会调查等其它沟通渠道同样成为企业与客户之间交互的重要途径。如此之多的沟通渠道一方面给移动企业带来了很多宝贵的信息资源,同时也导致了信息的混乱,各渠道获得的客户信息相互,不统一。如何将客户与企业各种接触渠道进行整合,通过统一的标准化接口与后台的支撑系统、业务网中的业务平台和业务管理平台以及其它的外部系统实现互联,客户的同一个服务请求可以在各个相关系统平台上得到统一的展示,构建统一客户接触门户是协作型CRM所要完成的任务。
分析型CRM在以上两种系统的功能基础上,提供商业智能的能力,最终使得企业将宝贵的各种数据转变为有用的、可靠的信息,再将信息转化为知识,为整个企业提供商业决策,为客户服务和新产品的研发提供准确依据,使公司能把有限的资源集中服务于企业所选择的有效益的客户群,展现“以客户为中心”的管理理念,使企业实现利润的最大化。从某种意义
-2-
中国科技论文在线
http://www.paper.edu.cn
上说,CRM系统将企业原有的客户信息管理系统提升到客户知识管理系统的高度。通过建立数据仓库、运用数据挖掘、商业智能等技术手段,对大量的客户信息进行分析,可以让企业更好地了解客户的消费行为模式,并对客户进行不同方式的细分,挖出企业高价值的黄金客户,从而能针对客户的实际需求,制订相应的营销战略,开发出相应的产品或服务来更好地满足客户需求。分析型CRM应用前景更好,也是企业能否长期获利的关键。
2.3分析型CRM的核心:数据挖掘
2.3.1数据挖掘技术
数据挖掘是一个多学科交叉领域,是数据库研究、开发和应用最活跃的分支之一,它融合了数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等最新技术的研究成果。经过几十年的研究,数据挖掘已经形成了清晰的概念和方法,并且正在向着更深入的方向发展。数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
全世界每天新存入数据库的数据量超过万兆字节,新数据好比滔滔江水涌流不断,而数据仓库犹如大海广无边际。大量的数据被描述为“数据丰富,但信息贫乏”。数据和信息之间的鸿沟要求系统的数据挖掘工具,将数据转换成有用的知识。采用数据挖掘工具进行数据分析,可以发现重要的数据模式,进行商务智能化决策。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则的过程。
数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。数据挖掘的基础[2]是来自于数据库或数据仓库中的数据,它不仅仅局限于对数据进行分析的阶段,它是在没有明确的假设前提条件下,去发现数据中隐含的某些有用的信息,要获得这些信息仅靠一般的统计分析还不够,它还需要通过一些特别的手段和方法。数据挖掘融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(machinelearning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术。数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分两类:解释型的(descriptive)和预测型的(predictive)。
解释型数据挖掘方法包括聚类和关联及序列模式挖掘算法。聚类算法是基于数据的相似度,把彼此之间非常类似的样本归入同类,而把彼此完全不同的样本归入不同类中。聚类用来建立客户群体的细分模型,适用算法有K均值或最近邻居算法、自组织映射神经网络算法。预测型数据挖掘方法主要指分类、回归和时间序列。分类方法用已知的数据建立好分类方法来预测未知数据属于哪一种类型,回归方法是通过具有已知值的变量来预测其他变量的值。实现技术有:决策树、神经网络和朴素贝叶斯等。
数据挖掘技术具有以下特点:1、处理的数据规模TB量级,甚至更大。2、查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。3、在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。4、数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有
-3-
中国科技论文在线
http://www.paper.edu.cn
效。因此,利用数据挖掘技术可能会发现大量的规则。5、数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。
2.3.2数据挖掘在客户流失管理的一些主要方法
数据挖掘的功能主要有分类、预测、聚类、关联规则、序列模式和异类分析等。对应于不同的功能,数据挖掘有决策树、遗传算法、神经网络、粗糙集算法、统计分析等多种算法。在客户流失管理中,所涉及到的任务主要包括“预测”和“解释”两种。“预测”帮助企业在客户流失之前对细分客户的消费数据进行动态[3]分析来预测出流失客户并采取相应的行动;“解释”则可以帮助企业更好的知道已流失客户的基本特征和消费特征,找出导致客户流失的关键因素,据此制定相应的营销策略。
3 移动客户流失及相关理论分析
3.1客户流失相关概念
3.1.1客户满意
对于单个人来说,“满意”是一个不确定的概念,因为满意的标准因人而异。同样的产品和服务可能有人满意,也可能有人不满意,也就是说从个体的角度出发,是否满意呈现出随意性,没有规律可言。客户满意度的定义是Oliver(1997)提出的,他说客户满意是客户需要得到满足后的一种心理反映,是顾客对产品和服务的特征或产品和服务本身满足自己需要程度的一种判断。[4]可以说,顾客满意是一种期望(或者说预期)与可感知效果比较的结果,它是一种顾客心理反应,而不是一种行为。客户满意度可以看作是可感知效果与期望值之间的变异函数,当可感知效果低于期望值,客户就会不满意;如果可感知果与期望值相匹配的话,客户就满意;如果可感知效果超过期望值,客户就会高度满意。用一个简单的函数式来描述客户满意状况的评价指标就是:C=b/a。式中C——客户满意度、b——客户的感知值、c——客户的期望值。
日本教授Kano基于双因素研究理论做出的研究,将影响顾客满意度的因素划分为3个层次,即不满意因素、满意因素和惊喜因素。(1)不满意因素不满意因素是指某一与顾客希望相反的消极条件或事件,即顾客的期望没有得到满足。对移动行业而言,主要指:通话声音是否清晰、有无杂音,是否经常发生断线、掉话现象,网络覆盖范围是否达到每个角落,所发生话费是否计费准确,服务人员是否态度良好等等。如果存在不满意因素,顾客的满意程度将会下降。如果不存在不满意因素,顾客的满意程度不会提高,也不会下降。(2)满意因素满意因素是指某一与顾客满意程度存在线性关系的条件或事件,顾客得到了期望的预期效果。即:良好的通话质量,准确的账单计费、广阔的覆盖范围和准确及时的客户服务等各方面能够达到顾客要求,尤其对客户的个性化要求的满足。满意因素越多,顾客的满意度也越高。但是,值得注意的是,满意因素并不能弥补不满意因素。(3)惊喜因素惊喜因素是指经历后对顾客产生积极影响、但事先没有预料到或没有规定的某一体验,即为顾客提供了超越期望的产品特性或服务。比如在顾客生日时给顾客赠送鲜花或者话费,比如由于用户使用某项业务,赠送用户其他业务或者免费体验其他业务,还包括用户回馈措施如积分换礼品,换手机等等。如果能为顾客提供优质的产品和潜在产品,可以大大提高顾客满意度。惊喜因素不仅对提高客户满意度有好处,享受过惊喜服务的用户大部分都会转化为忠诚客户,
-4-
中国科技论文在线
http://www.paper.edu.cn
为企业创造大量的价值。对于企业来说,降低客户的不满意因素,提高客户的满意因素和惊喜因素,对于提高企业的满意度是很有帮助的。客户流失管理跟客户满意度有着密切的联系,客户发生流失往往是客户对移动商提供的服务产生了不满意,而这种不满意没有及时的消除,于是这种不满不断积累最终导致了客户流失,因此,注重客户满意度的研究不断增加客户的满意能够大大降低客户流失率。 3.1.2客户忠诚
对大多数公司来说,如果能够维持5%的客户忠诚度增长率,其利润将在5年内增长100%;忠诚客户在前三年的保留程度较其他类型客户的平均高25%。客户忠诚指的是对某一特定的产品或服务、品牌、商家、制造商、服务供应商或其他方面有较好的好感,并形成了偏好,进而重复购买的一种情感与态度趋向。高忠诚客户会长期大量购买企业的产品和服务,能给企业带来最大的利润,他们对价格不敏感,愿意为企业的优质产品和服务支付较高的价格,愿意为企业做有利的口头宣传。如果他们喜欢企业的产品或者服务,也可能选择企业的其他产品和服务。真正忠诚的客户一般不会改选其他企业的产品和服务,不易受到竞争对手的影响,较少花费时间和精力搜集其他企业的信息,不会因其他企业的促销措施而改购其他企业的产品和服务,他们的购买两大于一般企业的购买量。
与吸引新顾客相比,留住老顾客的成本较低。客户忠诚有不同的类型,按其形成过程可分为垄断性忠诚、高转移成本的忠诚、刺激性忠诚、习惯性忠诚和情感性忠诚。对于目前移动市场来说,垄断性忠诚的因素还是存在的,但随着移动服务行业对内和对外的开放,这种因素将逐渐消失;而高转换成本忠诚在目前移动行业显然不复存在,呈现的反而是较低的转换成本;如今移动服务的同质化和各供应商争相完善服务使得刺激性和习惯性忠诚很难带来真正长久的忠诚,因此,移动企业首要关注的是客户情感性忠诚,情感是客户对企业价值观的认同,情感忠诚来源于一种情感,是一种牢固的忠诚。
3.2移动客户流失原因
[5]
根据移动客户流失的原因分类可分为非自愿流失客户与自愿流失客户。客户非自愿流
失表现为电信运营商由于客户欺诈、恶意欠费或使用不足而止客户使用网络和业务。这是由于电信运营商在客户开发的过程中忽视了客户量造成的。这就要求电信运营商在开发客户的过程中注意保证客户质量,加强险防范和控制。这种类型的客户正是移动企业应该从客户列表中取消的客户。这种原因流失的客户不作本文主要研究的对象。
而客户自愿流失又有两个主要类型,无意客户流失和蓄意客户流失。无意客户流失不是因为客户有目的有计划的终止,而是因为他们生活发生一些事情,终止服务也是这些事情的一个负面结果。比如因客户失业、破产、笔钱款用尽或其他原因带来的财务危机,在这种财务状况变化下,客户将被迫弃服务;城市的高速发展带来了比较大的人口流动率,当原有的客户因为工作家庭的变迁离开了原有的服务范围,客户随即流失;此外客户的通讯设备被盗未及时采取措施甚至客户的死亡也是导致客户流失的因素。这些对于移动服务来说是不可控的因素,但这种自然流失在任何一个行业都是存在的,流失率占比例也是比较低的。因此,在流失分析中不作主要研究的对象。在大多数情况下,流失的客户大多是由于蓄意的原因,这些原因正是移动业要集中关注的,也是本文所作研究的重要对象。根据经验移动通信行业客户失的影响因素主要包括价格、技术、质量、社会心理和便捷等方面。
-5-
中国科技论文在线
4 数据挖掘技术
4.1数据挖掘算法
所有的数据挖掘算法都包括以下特性[6]:
http://www.paper.edu.cn
模型结构:定义模型的结构(例如,树、神经网络、邻近关系)。模型是可知的,因为在决策树和以规则为基础的系统中,模型的实例可能是SQL查询;在统计回归中,可能是数学等式。搜索:当有更多的数据时,算法如何逐渐修改模型?例如,神经网络通过反向传播算法来对连接权值空间进行搜索,遗传算法通过随机交叉和遗传重组来进行搜索。
验证:什么时候算法能够得到正确的模型并停止计算?例如,以RT树用交叉验证来决定树生长的优化程度。神经网络没有特定的验证技术来决定是否停止计算,但在神经网络之外经常使用交叉验证技术。
数据挖掘模型是通过一些算法来创建的。当算法应用于一个数据结构时,该结构的填充数据从某种意义上来讲反映了存在原始数据集内部的关联和模式。所以适当算法的选择对于数据挖掘来说是至关重要的。总体上来说数据挖掘的算法
主要分为以下几类: (1)统计分析
统计分析是应用最早、也是目前最成熟和行之有效的一种数据挖掘方法。方法的关键是构造合适的统计模型和数学模型来解释被分析的数据模式。这种方法要求使用者具有较为丰富的领域知识。
(2)关联分析和顺序分析
关联分析的作用是在数据仓库的条目或对象间挖掘出满足一定条件的依赖性关系,它展示出数据间未知的依赖关系,并有可能描述成关注数据项间的因果关系。因此,关联分析常被用来分析顾客的购买模式、产品生产模式等。
(3)决策树
计算机科学中广泛应用树形结构来组织和描述数据,同样,可以应用树形结构来描述决策过程。决策树分析就是利用树形结构来建立决策规则,进而进行决策的方法。决策树分析首先利用决策树算法建立决策树,可称之为“学习”或“训练”阶段。算法寻找历史数据库中具有最大信息量的属性,构造出树根,再根据属性取值大于(等于)或小于树根的属性值建立树的分支,如此下去,直到所有的属性(或用户指定的所有属性)都被用于树形结构中为止。再根据历史经验将决策树转化为规则,即对每一个树叶结点得出决策规则。然后,利用决策规则对新事例进行分类,即根据新事例各属性的取值将其归入最接近的树叶结点,并利用决策规则做出相应决策,同时调整决策树和决策规则。
(4)聚类
聚类分析主要是根据事物的特征对其进行聚类或分类,分析基于“物以类聚”的朴素思想,以期从中发现规律和典型模式。当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,利用聚类分析可以自动将数据按某些特征划分成几类。聚类分析问题的实质是一个全局最优问题,常用于市场细分、目标顾客定位、业绩评估等多方面。
(5)遗传算法
遗传算法是所有的知识发现方法中人们理解最少的一种方法。它以模仿生物进化过程为基础,就如同进化是产生较优的生物种类一样,遗传分析应用搜索技术,先找出两个合适的
-6-
中国科技论文在线
叉”、“变异”操作直到子样本收敛为止,
http://www.paper.edu.cn
父样本,通过“交叉”、“变异”等带有生物遗传特点的操作产生下一代样本,对子样本反复“交
再找另外两个合适的父样本重复上述过稼这样,就能得到下一代的样本集,由此得到当前样本集较可能的发展方向一子样本集。遗传分析常被用来做预测。
(6)神经网络算法
神经网络被设计成复制自然界中的神经网络,它由许多神经元所组成,通过学习大容量数据中的模式来组织神经元,即用带有一定权重的“导线”连接神经以形成网络模型。通常,神经网络由输入、中间层和输出三个层次构成。每一神经元在接受了各种输入后,再计算总输入值,由过滤机制(例如阀值)比较总入,然后确定它自己的输出值。神经网络通过分层组织和互联每层中的神经元模型化复杂行为。当修改连接层与层之间、神经元与神经元之间的连接权重时,经网络就进行了学习或“训练”。经过“训练”的神经网络可用于预测现有事可能带来的结果,也可应用于诸如分析客户关系等领域。
由于各种方法都有自身的功能特点以及应用领域,数据挖掘技的选择将影响最后结果的质量和效果,通常是将多种技术结合使用,形成优势补。
4.2数据挖掘过程模型
CRISP-DM全称Cross Industry Proeess for Data Mining,即交叉行业数据挖掘过程标准,由SPSS、NCR、Daimler-Benz在1996年开始制定。CRISP-DM是一种数据挖掘方,从数据挖掘技术应用的角度划分数据挖掘任务,将数据挖掘技术与应用紧密结合,更注重数据挖掘的模型的质量和如何与业务问题相结合、如何应用挖掘出的模型等实际应用中用户最关心的问题。目前数据挖掘系统的研制北京邮电大学工程硕士论文墓于数据挖捆的客户流失预侧棋型的建立和开发大都遵循CRISP-DM标准,将模型的挖掘和模型的部署紧密结合。
将数据挖掘项目的生命周期分成了六个阶段。这六个阶段的顺序是不固定的,可以根据需要前后调整这些阶段。在这个过程中得到的知识可以触发新的、经常是更聚焦的商业问题。后续的过程可以从前一个过程得到益处。这个模型为数据挖掘项目的生命周期提供了一个综合的描绘。它包括了一个数据挖掘项目所要经历的各个阶段,各阶段的任务以及这些任务之间的相互关系。从描绘的层面来看,是不可能鉴别出所有这些任务之间的关系的。但本质上看,这些任务之间是否存在关系,取决于使用者的目的,背景及其利益所在,与此同时,更重要的还在于数据。下面简要介绍一下各个阶段所做的一些工作。
(l)商业理解(Business Undertanding)
数据挖掘项目的目标是为给定的商业问题提供解决方案,从商业角度考虑,理解客户需求,进而把这些理解转化为一个数据挖掘的定义和为了达到目标的初步方案。
(2)数据理解(Data Understanding)
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
(3)数据准备(Data Prenaration)
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有的能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为建模而进行转换和清洗数据。
(4)建立模型(Modeling)
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一些建
-7-
中国科技论文在线
(5)评估(Evaluation)
http://www.paper.edu.cn
模方法对数据的形式有具体的要求,因此,在这一阶段,需要经常跳回到数据准备阶段。
到项目的这个阶段,己经从数据分析的角度建立了一个高质量显示的模型。
在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没
有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。 (6)部署(Deployment)
通常,模型的创建不是项目的结束。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考,由他通过察看和分析这个模型之后提出行动方案建议。
另一种是把此模型应用到不同的数据集上。模型可以用来标示一个事例的类别,给一项申请打分等。还可以用模型在数据库中选择符合特定要求的记录,以用OLAP工具做进一步的分析。
在应用了模型之后,还要不断监控他的效果。即使在开始使用这个模型之后觉得它非常成功,也不能放弃监控,因为事物在不断发展变化,很可能过一段时间之后,模型就不再起作用。因此随着使用时间的增加,要不断的对模型做重新测试,有时甚者需要重新建立模型。
5 建模算法研究
5.1决策树算法
决策树算法是一种常用的数据挖掘算法,它是从机器学习领域中逐渐发展起来的一种分类函数逼近方法。决策树学习的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。目前,利用决策树进行数据分类的方法己经被深入地研究,并且形成了许多决策树算法网。决策树的基本原理是递归地将数据拆分成子集,以便每一个子集包含目标变量类似的状态,这些目标变量是可预测属性。每一次对树进行拆分,都要评价所有的输入属性对可预测属性的影响。当这个递归的过程结束时,决策树也就创建完了。决策树算法与其他的数据挖掘算法相比有一些优势:
第一,与神经网络和贝叶斯分类器相比,决策树提供非常直观的描述,这种描述易于被吸收,转化为标准的数据库查询。
第二,训练神经网络模型时要花费大量的时间,要进行大量的重复操作,与之相比,决策树效率要高的多,适合于大的训练集。
第三,决策树生成算法除了训练集中包含的信息外,不需要附加的信息(即领域知识或类标签以前的分布情况).
第四,决策树有着可比的或更高的准确率。决策树以树结构的形式表示,类似流程图。一般讲,一个决策树由一个根节点,一组内部节点和一些叶节点组成。每个内部节点表示在一个属性上的测试,每个分支表示一个测试输出,每个叶节点表示一个类,有时不同的叶节点上可以表示相同的类。
5.2 Mirosoft决策树算法
Microsoft决策树算法是一种混合的决策树算法,该算法是由Microsoft研究出来的,,用于对离散和连续属性进行预测性建模,这个算法支持分类和回归两种任务。
Microsoft决策树算法唯一的特性是它还适用于关联分析。这个决策树算法命名为
-8-
中国科技论文在线
http://www.paper.edu.cn
Microsoft Decision Trees而不是命名为Microsoft Decision Tree有许多原因。首先,如果对参数设置不同的值,则生成的决策树的节点拆分条件和树的形状将会不一样,而实际上这些是不同的决策树算法。其次,一个决策树模型可以包含多棵树,有时候甚至有数百棵树。这些树可以通过使用依赖关系网络查看,并且可以使用依赖关系网络这种可视化工具进行更深入的分析[7]。
5.3算法改进
测试属性策略选取上的改进:
从上面的算法分析中,可看出本算法最关键之处在于如何在每个结点确定合适的测试属性。只要这个测试属性选择合理,就可以递归执行建树算法,从而最后得到比较理想的决策树。对于同一训练集,可以有很多决策树能符合这个训练集。一般情况下,树越小树的预测能力越强。
测试属性的选择依赖于各种对样本子集的不纯度,特别是对于多值属性。这里采用了不同于其它算法根据信息增益选取测试属性的方法,而是通过计算属性的信息增益比率来确定哪个属性是最佳测试属性。这是因为,虽然使用信息增益选取测试属性的方案可以得到相当好的速度和划分结果,但是它也有个缺陷,即它倾向于选择取值较多的属性。选择多值属性,一次可把当前结点成较多的子树,整个树的平均深度显然就有较短的趋势。但是对多值属性的这种偏好性,有可能导致得到的决策树预测效果降低。对未知属性的处理构造决策树的一个基本假设是所使用的数据中不存在有缺值的数据。但实际却无法保证成千上万条数据都是合理的,因此必须考虑对缺值数据和坏数据的处理策略。本算法中对于缺值属性的处理是基于概率分布的想法,即在某一步时,如果发现了某一条记录的某个属性是非法属性,则认为它分别属于各个类别。属于每个不同类别的隶属度就按照其他合法记录的分布来计算。如果选择以该属性作为测试依据,同样把这个记录到每个类别中。
增加剪枝处理:
在实际应用中,真实世界的数据一般不可能是完美的。可能存在属性噪声。决策树无法区分正确数据与异常数据,而正确数据本身的规律性可能会被噪声所淹没,这就使生成的决策树的分类错误率增加。基本的决策树构造算法没有考虑噪声,生成的决策树完全拟合于训练集。因此在实际算法中有必要考虑对噪声的处理。我们可以在数据清洗期间利用一些方法来消除噪声。另外也可以使用剪枝技术,剪枝正是针对噪声现象提出来的技术。剪枝就是删去决策树中底层的分支或整个子树,以提高分类识别的速度和能力。
Microsoft决策树算法没有提供剪枝步骤。我们可以采用两种方式控制树的增一长:一种是通过使用贝叶斯定理的分数进行控制,当没有足够的数据来证明进行一次拆分是正确时,利用贝叶斯定理的分数就可以避免拆分。第二种方式是使用complexity Penalty参数,该参数的范围是从0到1。如果这个参数设置的值比较高,则在树的增长期间,将会给树增加更多的,这样将导致生成的树比较小。
6 移动客户流失模型的建立过程
6.1概述
模型构建是数据挖掘的核心,但是不如数据转换那样时间密集和资源密集。理解了数据挖掘的任务后,选择合适的算法就会相对容易。客户诚失模型是预测模型,对于预测类问题
-9-
中国科技论文在线
http://www.paper.edu.cn
可以采用多种数据挖掘技术,比如决策树、逻辑回归、神经网络等。建立模型是数据挖掘过程中的一个步骤,这个步骤申数据挖掘软件自动实现。所以这一步花费的时间相对较少。客户流失建模有两种基本方法:一种是把流失看作二元结局,预测哪些客户将离网,哪些会留下来;另一种方法是评估客户的剩余生存期[8]。
1)预测哪些客户将离网
把流失作为二元结局建模,即建立分类模型。需要选取一定的时间范围,通常要一个相对较短的时间范围,比如三个月,不能太短,否则将没有时间按照模型预测来采取行动。包括逻辑回归、决策树和神经网络在内的任何常见的分类工具都能够用来建立二元结局流失模型。可以把描述一位客户的历史数据与显示这位客户在随后一段时间是否仍然活跃的标志结合起来。建模的任务是把即将离网和在网的客户区分开来。二元流失模型的结果是可以给出一个按流失可能性对客户分级的分值。分值是客户在该模型时间范围内将要离开的可能性。超出某一自发流失分值阐值的那些客户可以划到挽留计划中,而超出某一强制流失分值闻值的那些客户可以被放置到观察列表中。
2)预测客户将要停留多久
这种方法并不常用。其目标是计算出客户可能会保持多长时间,对客户剩余生存期的估计是客户忠实度分值的基础,该分值把忠实客户定义为在未来将长期保留的人,而不是到现在为止己经保留了很长时间的人。在本文的客户流失分析中,主要以找出有流失倾向的客户为挖掘目标,因此建立的模型为二元流失模型。如图4一4所示,这种模型的建立是通过分析训练样本数据来完成的,依据样本数据中每个元组已知的类别归属总结出一般性的分类规则。
6.2选择合适的算法建立客户流失模型
建立模型是一个反复的过程,对每一个数据挖掘任务都有一些合适的算法。在大多数据情况下,在构建模型之前不知道哪一种算法是最适合的。算法的精确度依赖于数据的性质,比如可预测属性的状态个数、每个属性的值分布、这些属性之间的关系等。如果所有的输入属性与可预测属性之间的关系是线性的,则决策树算法应该是最好的选择。如果属性之间的关系比较复杂,则应该考虑神经网络算法。这就需要我们在不同的模型中选择解决问题最有用的模型。
选择合适的数据挖掘技术是能否成功建立模型的关键之一。有各种数据挖掘技术可用于客户流失预测建模。目前有许多成熟、公开的数据挖掘算法,也有一些公司采用自己研发的未公开的算法。大部分算法都不是专为解决某个问题而设计的,算法之间没有互斥性。不能认为一个问题非要采用某种算法,也不存在所谓最好的算法,一般通过试验、对数据进行分析并利用各种数据挖掘技术和方法在多个可供选择的模型中找出最佳模型。在确定算法之前,先比较一些常用数据挖掘技术算法的性能。
6.3流失模型评估标准
模型的评估测试应该选择未参与建模的数据进行,这样才能得到正确的测试结果。在对模型进行评估时,评价的标准有多种,用不同的评价标准对算法进行评价,结果差距很大,并且在对算法进行选择及模型评估时,还要结合决策人员的实际需求。一般从以下五个方面来对分类模型进行评估:
(1)预测准确性
-10-
中国科技论文在线
http://www.paper.edu.cn
预测准确性是决策人员最关心的问题,对于他们来说,之所以采用分类发现模型的原因在于:分类发现模型可以在巨量数据中,按照用户的使用要求处理数据,对数据进行分类,从中找寻有用信息。经分类发现模型处理后,从数据中得到的信息的准确程度,在很大程度上将会影响决策人员的决策制定的准确性。
(2)描述简洁性
这是针对分类发现模型对问题的描述方式以及该描述方式的可理解水平提出的。分类发现模型的最终目的是方便决策人员的使用,对于决策人员来说,模型描述越简洁,也就越易于理解,同时也就越受欢迎。例如,采用规则表示的分类器构造法所提供的分类模型的描述方式就比较简洁、易于理解;而神经网络方法产生的描述结果相对来说就难以理解,从而使其更进一步的广泛应用受到。
(3)计算复杂度
计算复杂度依赖于具体的实现细节和硬件环境。在数据挖掘中,由于操作对象是巨量数据库,因此空间和时间的复杂度问题将是非常重要的一个环节,将直接影响生成与使用模型的计算成本。
(4)模型强健性
强健性是对模型预测准确性的一个补充,是在存有噪声数据及丢失数据的情况下,准确对未知其类的数据进行分类的能力.正如前面所提到的,数据挖掘处理的对象是大量的数据,而这些数据又常常存在数据缺损、噪声数据以及冗余数据等问题。在这种情况下,就要求所建立的模型对这些情况有充分的适应能力。
(5)处理规模性
规模性是指在巨量数据的情况下构造模型的能力。数据挖掘所处理的对象是巨大的,这就要求所构建的挖掘模型可以适用于各种不同规模的数据情况。
在电信行业客户流失的分析中,流失预测模型的准确性可以用预测命中率和预测覆盖率来评估。例如:A表示预测结果不流失,实际也不流失的数量;B表示预测结果不流失,实际流失的数量;C表示预测结果流失,实际不流失的数量;D表示预测结果流失,实际也流失的数量。
预测命中率:是描述模型精确度的指标,是预测流失中实际流失的比例。公式为:预测命中率二D/(C+D)。
预测覆盖率:是描述模型普适性的指标,是实际流失中预测正确的比例,公式为:预测覆盖率二在D/(B+D)。
对电信行业而言,这两项指标实际上决定了决策者是否采取必要措施来降低流失率以及对哪些客户进行挽留措施。如果覆盖率过低,例如,覆盖率仅达到40%,也就是说预测流失的客户数远远少于实际流失的客户数,则使很多有流失倾向的客户没有被预测出来,造成真正的流失。预测命中率同样也是一个非常重要的指标,它反应了预测模型的准确性。当预测覆盖率达到要求时,需要对客户采用挽留措施。但如果预测命中率过低,则会造成对目标客户的误分类,其结果可能是对一些没有流失倾向的客户采取了挽留措施而对一些流失倾向较大的客户则由于其被错误的划分为非流失客户没有进行挽留造成客户流失,造成商业投入的浪费。根据电信公司商业成本核算的结构,要求预测覆盖率是达到75%以上,预测命中率在65%以上”。
6.4评估
-11-
中国科技论文在线
http://www.paper.edu.cn
该阶段的评估和建模过程中的评估模型是有所区别的。建模过程中测试集评估只是考察模型的准确性和一般性,是从技术角度进行评价。本阶段是从商业角度进行评价,评价模型对商业目标价值的大小,并给出理由解释模型对于商业目标的不足之处。这一步将决定模型是否起作用。关于模型的评价要考虑以下问题:
.模型的准确程度如何?
.模型对被观测数据的描述精确程度如何? .在模型预测中,可以设置多大的置信度? .模型是否易于理解? 该阶段主要包括三项工作:
(l)评估结果。即按照商业目标的标准评估结果,包括该项目是否达到了商业目标。 (2)评价过程。如果结果模型己经比较满意同时也符合商业目标了,此时应该全面的评价数据挖掘过程,以发现是否有重要的因素或工作遗漏。这个过程同时也应该关注质量问题,例如明确模型是否被正确建立,属性是否可用等。
(3)确定下一步工作.这项工作决定项目是应该进入发布阶段还是进入下一轮迭代过程,同时也明确剩下的可用资源和预算。在上章已提到,用于建立分类模型的算法有决策树、神经网络、回归、遗传算法、粗糙集、贝叶斯分类等,不同的评价标准会得到不同的结果,因此并没有一种算法显著的优于别的算法,而只有可能的是在某一个问题上,某一种方法优于别的方法。
7 总结
本文针对电信行业的客户流失问题,重点研究了数据挖掘技术在客户流失中的应用。描述了数据挖掘的过程,进一步给出了数据挖掘技术在客户流失中的应用实例。论文探讨了CRISP一DM标准数据挖掘流程,结合电信业务数据的特点,重点研究电信行业内客户流失分析的数据挖掘方,有针对性的提出商业理解、数据理解、数据准备、建模、评估、发布等阶段涉及到的主要问题的特定、有效的解决方案。
随着数据挖掘技术的不断发展,电信运营商将会越来越多地发现大量有价值的客户信息和消费模式,从而能够更有效地指导其经营决策工作。由于时间有限,还有许多完善的工作以及后续研究工作,未来的研究内容包括:研究不同细分群体客户的流失情况,分析对不同价值的客户群挽留所产生的对企业收益的增值情况;对不同种类的流失(如竞争流失、恶意流失)进行进一步的细致研究,使分析工作更有针对性;现有的数据挖掘都是建立在己有数据的基础上,获得的商业模式和规则往往比较狭隘和短期,未来应更多的从商业角度、从分析用户的消费心理入手;数据挖掘的很大一部分工作是在数据准备阶段上,如何快速建立数据挖掘用的数据集,把分析人员从工作中出来也是下一步很重要的研究内容。
参考文献
[1] [2] [3] [4] [5] [6] [7] [8]
朱明.《数据挖掘》[M]. 北京:中国科技出版社,2002。
叶松云.我国电信行业客户流失管理的建模分析及应用研究[D].济南:济南大学硕士论文,2004。 赵雪清.数据挖掘技术在电信客户流失中的研究与应用[D].大连:大连海事大学硕士论文,2005。 赵莽.基于实证分析移动客户保持影响因素和策略研究[D].北京:北京邮电大学硕士论文,2006 (美)罗布·马蒂森.《电信业客户流失管理》[M].北京:人民邮电出版社,2005。 梁循.《数据挖掘算法与应用》 [M] .北京:北京大学出版社,2006.4。 数据挖掘工具及其选择[EB/OL].http://dwway.com,2004.8.
潘嘉林.数据挖掘在电信客户流失预测中的应用[D].广州:中山大学硕士论文,2005.1。
-12-
中国科技论文在线
http://www.paper.edu.cn
Analysis and Design of Telecom Customer Churn Model
Based on Data Mining in Analytical CRM
Li Yiqiao
Department of Computer Science and Technology, Beijing University of Posts and
Telecommunications, Beijing (100876)
Abstract
Along with the open of telecom market,the contests for customers are getting more and more drastic.As the saturation of the telecom market,the cost of getting anew customer is much higher than maintaining an old customer.So,how to keep the customers,especially the valuable customers,came to one of the most important works for the telecom companies.As one of the important parts of the Analyzer Support System of China mobile,building the model of the churn users will allow the company to analyze the consume characters of those churned user,to find out those customers who are going to churn,so to take actions in time.So the study of this topic has very importance significance for reducing the cost of running the company and to improve the outstanding achievement of the company. According to the inquisition,Majority of mobile enterprises has established systemof CRM,Operation CRM and Outlet CRM made use of more extensively,and also more maturely,Analyze CRM still be placed in the beginning stage.Making use of analyze CRM to manage the customer churn will show the trend. This thesis point out the problem of telecommunication enterprise CRM and customers churn management on the foundation of analysis competition structure of telecommunication enterprise of our country.Analyze the theories frame of CRM and the core of the Analyze CRM,Point out the importance of Data Mining to analysis the customer churn.make up of the theories of customer churn,customer value,customer classification and the customer life cycle theories to analysis the customer churn,show the familiar factor that affect customer churn and make use of the customer churn index to acquire the important churn factor.At the same time,adopt the Data Mining technique to predict the customer churn.Finally,according to customer of Possible churn that acquired in the model of predict process to reserve customer.
Keywords: Customer Churn; Analytical CRM; Data Mining
作者简介:
李易桥,男,1984年生,硕士研究生,主要研究方向是计算机软件与理论、数据仓库与数据挖掘、通信软件、电信业务支撑系统。
-13-
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- cepb.cn 版权所有 湘ICP备2022005869号-7
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务