关于客户流失的问题

  作者:姜玲
2007/4/30 15:22:44
本文关键字: ttnn 2006年10期

请教大家一个问题。

在电信的数据挖掘应用中经常会看到关于预测客户流失的应用。通常可能的做法是选取四个月的数据,比如选20061234四个月的数据。 首先删除了到 4 月末为止入网时长小于等于 3 个月的用户。其次对用户的 4 个月的使用情况进行汇总,删除 4 个月的使用总次数为 0 的用户。第三,确定用户流失变量,把 4 通话次数大于 0 的用户确定为非流失用户 ,其他用户确定为流失用户 。这样数据中就可以给客户打上是否流失的标签。

接下来可能会用一些预测模型比如MLN之类的,进行模型的训练,然后利用检验数据对模型进行检验,再接着用一套方法,把预测模型的预测准确率提高。最终就用该模型来预测客户流失与不流失了。

我的问题是:

1、能否把那些已经标记为流失的用户,再进行一次聚类方法的分析,分析出流失风险不同的组呢?比如按流失概率的大小,分为高流失风险客户,中等流失风险客户,低流失风险客户等,这种分群应当怎么分?分成几群?这样做有什么利弊,在实际中有没有实用价值?

2、对于这种聚类的分群,一般所用的数据都是话费详单数据。在这些数据中有用户通话行为类型的数据,这类数据是数值型的,有客户社会属性的数据,这类数据是字符型或者布尔型的。那么在选取上有没有什么讲究?是用数据值型的多?还是用混合型的好?

3、对于以下字段,选取哪些进行分析比较好一点?   

字段名称

字段定义

移动号码 varchar(15),

用户的移动手机号码

客户状态 varchar(15),

 

通话总次数 integer,

三月通话平均次数

通话总次数变化率 decimal(10,4),

第三月通话次数与三月平均通话次数的比率

  通话总时长integer,

三月通话平均时长

主叫次数 integer,

三月通话平均主叫次数

主叫次数变化率 decimal(10,4),

第三月用户主叫次数与三月平均主叫次数的比率

主叫时长 integer,

三月平均主叫时长

被叫次数 integer,

三月平均被叫次数

被叫时长 integer,

三月平均被叫时长

呼转次数 integer,

三月平均呼转次数

呼转次数变化率 decimal(10,4),

第三月呼转次数与三月平均呼转次数的比率

呼叫对手客服总次数 integer,

三月平均呼叫对手服务次数

短信次数 integer,

三月平均短信次数

应收费用 decimal(10,2),

三月平均应收费用

应收费用变化率 decimal(10,4),

第三月应收费用与三月平均应收费用的比率

信息费 decimal(10,2),

三月平均信息费

新业务费 decimal(10,2),

三月平均新业务费

优惠金额 decimal(10,2),

三月平均优惠金额

长话费 decimal(10,2),

三月平均长话费

市话费 decimal(10,2),

三月平均市话费

市话费变化率 decimal(10,4),

第三月市话费与三月平均市话费的比率

漫游费 decimal(10,2),

三月平均漫游费

欠费金额 decimal(10,2),

三月平均欠费金额

欠费金额变化率 decimal(10,4),

第三月欠费金额与三月平均欠费金额的比率

客户类型 varchar(15),

第三月客户类型

预存款   decimal(10,2),

三月平均预存款

在网时长 integer,

第三月在网时长

年龄 integer,

第三月年龄

性别 boolean

 

用户状态 varchar(15),

第三月用户状态

用户流失变量 integer,

本月用户是否流失( 0-没有流失, 1-已流失)。定义前三个月有通话行为,而本月没有通话行为的用户为流失用户。

套餐类型 varchar(15));

第三月套餐类型

以上三个问题请各位多指教。请大家指教的时候,也分为三个问题来分别答一下。多谢。

Nirvana2000 20061008

第一个问题,很有必要,这给市场部做外呼挽留工作的人员很大帮助,能有针对性地采取营销工作,分群的时候需要多做一些探索,分成不同群数,进行对比,还有结合一些业务知识看分的群是否合理;

第二个问题,你可以从分群后的结果分析出一些对特定群相关性较大的属性,你分不同的群数,那么特定属性对特定群的决定因素可能有些变化,这就需要反复做些比较,再还可以考虑采用挖掘工具的因子分析,得到属性对该模型相关性程度的一个排序,这也有很好的参考作用,再就是和业务人员沟通,他们会很熟悉客户的那些特征最能反映客户的流失倾向。

第三个问题,参考二

Hawk 20061009

多谢Nirvana2000

我试着进行了分析,按问题3中所列的字段,主要取了一些通话费用的字段和客户自然属性的的字段,进行分群,试图找出流失客户中可以分成什么样的群,但没有找到任何规律。在流失客户中再按什么原则分群才有意义呢?这是最大的困惑所在。

希望有这方面的经验的朋友多指点,现在关键找不出"因变量",若是能够找到一个"因变量",然后再试图去找到影响这个"因变量"的因素,就可以用你的说的"因子分析"法去分析一下了。

希望有高人结合我的问题3所列的字段,指点一下。

Qing 20061010

最近遇到类似hawk提出的第一个问题,在预测模型打完分,是否需要再将这些名单划分成几组?怎么划分比较合理?

预测的结果可能是一个预测值,或者是一个概率,这种数据拿给营销执行人员,对他们没什么意义。只是知道,0.90.6的概率大,但是这个""是遥遥领先?还是高出那么一点点呢?不知道。因此,我想对于执行人员来说,根本就不必关心这些数值,所有的数值都得离散化。根据ARPU,知道对方是一个高价值或是低价值的,根据流失概率,得知这是高流失风险或是低流失风险的。

有个问题我也非常迷惑。仅仅根据预测的值,划分几组,比如高、中、低三档,这好弄,因为一般来说,目标变量只是一元的。而如果根据预测模型中重要变量来对这些客户的特征进行划分,就有些难度了。一种方法当然是hawk提出的,聚类的方法。当然,hawk提出用聚类来划分流失风险,觉着没必要。因为流失风险就可以根据流失概率来划分,用不着聚类这么麻烦。即便再多一个因素考虑,用人工经验来划分类别也是更简单一点的。如果要刻画这些高流失风险客户的特征,并分成几类,因为依赖的变量较多,用聚类的方法可能好些。例如,有些流失客户是通话量突增突降型的,表现为通话时长、次数、交往圈(这就三个变量了)突增突降,有的是外地交往圈减少型,等等(这里举出的两种型只为说明用)。可见,这些类型的划分是依赖多个变量的,人脑不大能够顾得上来。

分出这些群的目的是什么?

还是为了帮助营销。然而,从以往我们的一些分析应用看,虽然很多都加入一些分群信息(大多是依赖认为经验划分的),但这些信息几乎很少被执行人员用到,最多也就是我们评估的时候,看看这些不同组的对比而已。

问题出在什么地方呢?我想是在这些群划分以后,配套的市场策略没有,或者说这些划分不足可信,市场人员不敢用它。当然也有可能是目前的营销还没有到那样精细化程度。既然你给我一万个号码,我就一骨碌做了不就完了,反正有足够的资源。这些因素也许都存在吧。

一般来说,目前作一项营销活动大多采用一种策略。例如客户流失,就是一套外呼脚本。先跟你套磁,然后抛出预存话费送话费,不行就送手机,如果都曾经办理过,就跟你推荐这个xx套餐,xx新业务体验之类。而没有说,针对第一种类型的客户,优先推荐xx套餐,然后新业务体验,第二类型的,优先送话费,再推荐套餐,第三类型的,推荐套餐,不行拉到。如此,这个分类信息就已经结合到外呼人员的外呼脚本里面了,当然能够用的起来。

因为缺乏这个,所以这些分类到底可不可信也无从说起。如果设立对照组就能说明问题,对照组是不区分类型,采用统一策略的,看这些客户对策略的接受率。再跟这些不同类型接受不同策略的接受率对比,如果后者高出一些,说明分类和策略匹配甚好。如果并未高出一些,那么还得设计更好的策略,如果试了几次还是不见效果,可能就是分类的问题,干脆将这个分类并入其他类别里面去。反正一个道理,有对比才有优劣。

不过大家也看出来,前面这段是空谈,现在很难执行下去。正是因为没有到精细化营销的地步,你看,如果要做这样的工作,需要一段长长的周期,他们可能要连续半年地做这项营销活动。比如说流失预警吧。这个营销活动现在确实已经连续执行了一年多了,是"要求"执行,流程已经固化。每个月发布名单、市公司给出反馈,生成评估。但反而倒是没有人再关注那些评估结果了,也不会再去优化整个流程了。反正当初刚作起来的几个月,效果还可以,领导也认可了,就这样吧。

我想如果竞争再激烈一点,利润空间再小一些,资源再紧张一些,就会想着应该优化这些流程,避免不必要的资源浪费。

至于hawk提到的第二、三个问题,其实是涉及到挖掘建模的话题,不大懂,这里应该有一些挖掘高手,看能不能探讨一下。

Zeus amiao 20061022

关于问题1:为什么要分群,分群目的是减少我们理解的难度,原来有1大堆,现在有个方法能把它区分开来,或者至少能区分一部分,比原来只给1SCORE无疑要进步很多。至于分群怎么用,具体的话,要跟市场人员交流,核心是这个吧。

关于问题2:如果只是SEGMENTATION的话,可以直接的根据变量做一些划分,至于划分的依据,你可以先做一些单变量分析;如果要CLUSTER的话,至少要把字符型的进行转化,可以转化成BULL型,如男女可以设置一个01变量。至于变量究竟怎样一个组合到最优,不同的数据有不同的结构,每个结构又取决于你参数的设定,就技术上而言,这些是固定的。我觉得唯一的标准是合理,解释得通,数据又是如此,同时MARKETING部门的人能认同。

关于问题3:这个要看具体的数据,或者你所要分析的对象,技术上而言,你可以做一个TREE,看看这些变量的IMPORTANCE

责编:姜玲
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918