数据挖掘在工程机械业CRM系统中的应用

来源:e-works   作者:崔新升
2010/4/21 0:00:00
本文关键字:

    随着资源国经济的复苏,工程机械行业的出口环境也正在进一步改善。固定资产投资将依然旺盛,对工程机械的需求将继续改善。房地产投资加速将使工程机械需求超出预期。在固定资产投资中,能够直接带动工程机械设备需求的主要分布在房地产、采矿业和基建三大领域。而整个工程机械行业正在由“以产品为中心”向“以客户为中心”逐步转变,客户已经成为至关重要的成功因素和潜在的利润来源。但随着客户信息的日趋复杂,客户数据的大量积累,对客户信息的有效管理成为亟待解决的问题。

    研究背景

    工程机械行业的发展正经历着重大的转变。过去,生产规模是决定企业竞争力的决定性因素。随着社会的发展和科技的进步,特别是信息技术的发展,企业产品间的差异逐步减小,高质量的客户服务成为企业竞争的优势。国外许多工程机械营销企业已经引入了客户关系管理(CRM)系统来协助管理客户信息。CRM系统的实施,可以帮助企业更好地了解客户的需求,改善企业与客户的关系,提高客户满意度,从而提升企业的竞争力。据了解,2009年上半年,金融危机对我国工程机械行业带来了较大的冲击和影响,装载机、推土机、挖掘机以及各类混凝土机械设备市场出现了不同程度的下滑和衰退。在整体大环境的影响下,国内工程机械企业纷纷加大了对信息化建设的投入和重视,而信息化也逐渐帮助企业构筑起一道抵御金融危机和挑战的“防火墙”。而我国工程机械营销企业对CRM系统还比较陌生,而数据挖掘技术在CRM系统中的应用才处于起步阶段。

    所谓“以客户为中心”的管理模式,是将客户资源作为企业最重要的核心资源。客户关系管理的核心是客户价值管理,它将客户价值分为既成价值、潜在价值及模型价值。通过满足客户个性化需求,提高客户忠诚度和保有率,实现缩短销售周期,降低销售成本,增加收入,扩展市场,全面提升企业的赢利能力和竞争力等方面起到积极的作用。

    CRM及数据挖掘的概述

    CRM是Customer Relationship Management的简称,意为“客户关系管理”,它是上个世纪90年代初在国外逐渐兴起的一种管理理念和管理方法。CRM的出现体现了两个重要的管理趋势的转变,首先,CRM是一种以客户为中心的经营策略,这是有着深刻的时代背景的。其次,CRM的出现还表明了企业管理的视角从"内视型"向"外视型"的转换。它以信息技术为手段对业务功能进行重新设计,并对工作流程进行重组,通过富有意义的交流沟通,理解并影响客户行为,最终达到客户获得、客户保留、客户忠诚及客户创利的目的。

    一个相对完整的CRM系统至少要包括三大部分:触发中心、挖掘中心、CRM与ERP的集成。触发中心是畅通有效的客户交流渠道,包括电话、Web、传真、E-mail、营销活动等触发手段。挖掘中心是对所获信息的有效分析,即数据挖掘技术。就目前业内人士对CRM内涵的理解:(1)CRM首先是一种管理理念,强调客户导向的管理理念,对企业与客户发生的各种关系进行全方位管理,并实现客户导向的业务运作模式,强调过程的可控制性和可追溯性,而不仅仅是对结果的控制。(2)CRM是一套IT技术解决方案,它将管理思想与业务流程通过软件系统固化下来,并通过IT技术实现,从而提高工作效率和质量。

    根据功能,CRM系统分为操作型和分析型。如果说操作型CRM是企业的肩膀,那么分析型CRM就是企业的大脑,它能够建立全面的客户信息系统并通过一切可能的渠道与客户进行持续性的沟通,从而为企业赢得更大的竞争优势。分析型CRM以数据仓库为基础,通过统计分析、OLAP(联机分析处理)、数据挖掘等分析方法,对客户的行为、期望、需求等进行准确深入的分析,为提高客户忠诚度、客户价值等方面的决策提供支持。

    数据挖掘是一个利用各种分析工具在大量数据中发现模型和数据间关系的过程。数据挖掘技术从一开始就是面向应用的,是利用已有数据对未来预测的一种技术。数据挖掘要做的工作是:如何确定在潜在客户群体中建立响应模型;如何通过交叉销售策略销售更多的产品;如何发现并防止客户的流失;如何将最好的服务提供给最有价值的客户。

    数据挖掘的方法可分为:决策树、神经网络、遗传算法、关联规则、序列模式分析、联机分析处理、数据可视化等。

    CRM在工程机械营销领域中的应用研究

    经过40多年的发展,我国工程机械行业已形成了具有相当规模和较强生产能力的完整体系。近几年来,随着国民经济的高速发展,工程机械发展迅猛,产销量屡创新高。但是工程机械行业目前在客户管理方面还存在如下一些问题:

    (1)缺乏先进的科学技术手段对客户信息进行有效的管理和分析,数据比较粗糙;

    (2)企业内部没有对客户资源共享化,企业对潜在客户缺乏跟踪;

    (3)由于客户信息比较分散,不够统一,形成了一些相互隔离的客户信息孤岛;信息传递周期长、环节多,信息到决策层已失真;

    (4)营销企业客户资源个人化,他们一旦离职,公司将造成销售费用的大量增加。

    从以上的种种弊端我们可以看出,目前工程机械行业对客户管理处于一种粗放、肤浅的状况,而CRM的管理方法正可以弥补这些客户管理方面的不足。CRM功能可以归纳为三个方面:对销售、营销和客户服务三部分业务流程的信息化;与客户进行沟通所需手段的继承和自动化处理;对上面两方面功能产生的信息进行加工处理,使客户资源智能化,为企业的战略决策提供支持。

    在工程机械营销领域实施CRM有以下意义:提升销售业绩;提升营销管理水平;提升客户服务水平;提升产品竞争力;提升企业渠道管理水平;提升企业风险防范能力;提升企业形象等。

    数据挖掘在CRM中的应用

    如何在茫茫人海中发掘潜在客户,并抓住客户,同时以前的客户又怎样才能保留呢?即要发现哪些客户更倾向于购买哪些类型的车辆,然而,由于缺乏有效的工具和分析技术,这些隐藏在大量数据中的潜在信息和知识未能得到充分的挖掘和利用,从而抑制了企业CRM的运行效率。数据挖掘技术的兴起为解决这一问题带来了希望。基于数据挖掘技术的CRM系统,能够有效地运用数据挖掘工具,帮助企业从海量的数据中发现潜在的知识,支持企业制定高效的CRM策略,从而大幅提升CRM的运行效率。就国内工程机械行业来看,数据挖掘还处于空白或刚起步阶段。

    无论先前的营销活动是否与要建模的产品或服务匹配,从中得到的数据都是定位建模的最佳选择。公司的营销活动对创意和品牌识别等因素是敏感的,这可能对模型性能有微妙的影响。构建和应用潜在客户获取模型的过程如下:

    (1)从各种营销活动获得的业务数据库中收集整理原始数据,组建企业客户的数据仓库系统。在客户数据仓库中抽取适当的字段组成客户分析数据,为潜在客户获取模型提供数据源;

    (2)从选出的客户分析数据中实施数据挖掘,发现对产品感兴趣的潜在客户所具有的特征模型;

    (3)运用潜在客户特征模型在当前客户数据库中发现最有可能成为企业潜在客户的群体;

    (4)对具有成为企业潜在客户特征属性的客户群,进行有针对性的营销活动,达到获取新客户的目的。

    企业的数据仓库中保存数万条甚至更多的客户(基本资料、拜访记录、预购状况等)数据是非常常见的。但是,用户感兴趣的常常只是数据仓库的一个子集。因此不加区分地挖掘整个数据仓库是不现实的。另外,现实世界的数据一般是含噪声的、不完全的和不一致的。采用数据预处理可以改进数据质量,从而有助于提高挖掘过程的精度和性能。在关系数据库中,选择相关的数据集并进行数据预处理不仅使得挖掘更有效,而且能够产生更有意义的规则。

    在对数据仓库进行数据挖掘时,其中大部分属性与挖掘任务不相关,是冗余的,遗漏相关属性或留下不相关属性都是有害的,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程,降低系统性能。然而,对于用户来说,确定哪些属性应当包含在类特征分析中则不是一件简单的事情,所以应当引进相应的方法进行属性相关性分析,以过滤掉统计上不相关或弱相关的属性。

    为了保证输入量与输出量之间有一定的相关度,可以用信息增益来考察属性间的相关性。1948年,香农(C.E.Shannon)提出了信息论,并对信息量(Information)和熵(Entorpy)进行了定义。

    熵实际上是系统信息量的加权平均,也就是系统的平均信息量,信息增益指标的原理就取自信息论。

    设指向N的训练集为S,其中包含m个不同的类,他们区分了不同的类Ci(for i=1,…,m)。设si是S中属于类Ci的记录的个数。那么分裂之前,系统的总熵:

    I(s1,s2,…,sm)=-Σ(i=1 to m)pi log2(pi)

    容易看出,总熵是属于各个类的记录的信息量的加权平均。

    设属性A是带有v个不同值的属性{a1,a2,…,av),A可以把S分成v个子集{S1,S2,…,Sv},其中Sj={x︱x∈S & xA=aj)。如果A被选为测试属性,那么这些子集就表示从代表集合S的出发的所有树枝。设Sij表示在Sj中类为Ci的记录个数。这时按A的每个属性值(更一般的是取A的一个子集)进行分裂,分裂后的系统总熵为:

    E(A)=Σ(j=1 to v)((s1j+s2j+…+smj)/s)*I(s1j+s2j+…+smj)

    总熵E(A)是各个子集信息量的加权平均。对N用属性A分类后的信息增益为:

    Gain(A)=I(s1,s2,…,sm)-E(A)

    在相关性分析方法中,可以计算定义S中样本的每个属性的信息增益,设用于识别弱相关性的属性相关阈值为a0,若属性的信息增益小于该阈值则被认为是弱相关的,应删除。

    在CRM系统的数据仓库中记录着有关客户购买产品的描述信息表,表内容包括了客户预购的产品、预购时间、交货地点、年龄和资信状况等。对于每一个客户的购买行为可以按照概念树进行描述,并用基本概念树的知识进行归纳,基本概念树其实是一个元组合并的处理过程,即数据的预处理。其基本思想是:(1)一个属性的较具体的值被该属性的概念树中的父节点所代替(这个过程又称为属性的概化);(2)对相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目;如果数据库中宏元组数目仍然很大,那么用这个属性的概念树中更一般的父节点取替代,最终生成覆盖面广、数量少的宏元组。

    利用决策树对概念树进行定义后,就可以将数据库中所有概念定义的数据汇集到一个数据集中,这时利用元组合并的原理对数据集的数据条件属性值依其概念树进行概化,并对宏元组进行合并,直到宏元组的数目满足要求为止。

    UPTree算法采用预排序、广度优先的方法构造决策树,在决策树生成的时候同步进行修剪工作。预排序减少了对数值字段进行排序消耗的时间,广度优先使得对当前树中所有叶子节点分割的都是在同一遍历中完成的。

    UPTree的数据结构是使用若干驻留磁盘的属性表和单个驻留主存的类表。每一个属性具有一个属性表,由RID(记录标识符)建立索引。每个元组由一个从每个属性表的一个表目到类表的一个表目(存放给定元组的类标号)的链接表示,而类表表目链接到它在判断树中对应的叶子节点。

    区别于一般的决策树,UPTree对属性选择采用了gini指标,gini指标能够适用于种类字段和数值字段。对每个节点都需要先计算最佳分裂方案,然后执行分裂。

    如果集合T分成两部分N1和N2,割的gini就是:

    提供最小gini就被选择作为分裂的标准(对于每个属性都要遍历所有可以的分割方法)。

    对于数值型连续字段(numeric attribute)分裂的形式A≤v。所以,可以先对数值型字段排序,假设排序后的结果为v1,v2,…,vn,因为分裂只会发生在两个节点之间,所以有n-1种可能性。通常取中点(vi+vi+1)/2作为分裂点。从小到大依次取不同的split point,取Information Gain指标最大(gini最小)的一个就是分裂点。

    对于离散型字段(categorical attribute),设S(A)为A的所有可能的值,分裂测试将要取遍S的所有子集S’。寻找当分裂成S’和S-S’两块时的gini指标,取到gini最小的时候,就是最佳分裂方法。

    算法的控制结构是一个队列。这个队列存放当前的所需进行分裂的叶子节点,这是为了控制广度优先搜索的需要。当队列为空时,说明所有的叶子都已经被处理过。这时建树算法结束。其结果存放在三个表中,第一个表存放决策树整个叶子节点信息;第二个表存放分割字段是离散型字段的时候,分割的信息;第三个表存放各个节点中不同类别的分布情况。

    决策树分类算法的一个最大优点就是可以容易提取决策树表示的分类规则,并以IF-THEN形式表现。每个叶子节点都创建一条规则,每个分割都成为一个规则中的一个条件(IF部分),叶子节点包含类预测,形成规则后件(Then部分)。IF-THEN规则易于理解。

    沿着由根节点到叶节点的路径,可以将决策树信息转换成IF-THEN分类规则。根据本文的挖掘结果,现列举说明一下分析出来的结果:

    业务代表成功挖掘出一个新客户大约需要拜访6-8次左右(客户的购买可能性:三个月内购买),老客户再次购买大约需要拜访1-3次左右(平时的关系维护未计入拜访次数)。

    这当中对于业务员的自身素质没有做具体考评,如果需要细分,可以划分为:入职1年内,入职1-3年,入职3年以上。

    总 结

    数据挖掘技术的引入高质量地实现了CRM的目标,在CRM中有效地应用数据挖掘技术,可以为企业高层决策者提供准确的客户细分、忠诚度、盈利能力、潜在用户等信息,指导他们制定最优的企业营销策略,从而降低企业运营成本,增加利润,加速企业的发展。当前国外许多企业为了获得竞争优势,都积极地投入资金、人力、物力进行该方面的研究和应用,并取得了较好的投资回报率。同样,数据挖掘技术在工程机械行业的CRM应用中也有着远大前景。

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918