基于K-means的航空旅客聚类研究
Research on Air Passenger Clustering Based on K-means
龚婷① GONG Ting;普慧洁① PU Hui-jie;
张嘉伟① ZHANG Jia-wei;吴昊辰② WU Hao-chen
(①中国民航大学经济与管理学院,天津 300300;②中国民航大学空中交通管理学院,天津300300)
(①Economics and Management College,Civil Aviation University of China,Tianjin 300300,China;
②College of Air Traffic Management,Civil Aviation University of China,Tianjin 300300,China)
摘要:本文采用K-means聚类方法,通过分析国内外民航业的旅客细分及产品打包方法的优缺点,以自己调研收集的数据,对一定范围内的人群进行了旅客细分。在使用SPSS对旅客细分的过程中,经过多次尝试,最终确定K=3时聚类效果最好,即将旅客分为三类:公/商务旅客、探亲旅游旅客、回家/返校学生团体,并为其设计了不同的产品组合。
Abstract: This paper adopts the K-means clustering method and analyzes the advantages and disadvantages of the passenger segmentation and product packaging methods in the civil aviation industry at home and abroad. Based on the data collected by the survey and study, the passengers within a certain range are subdivided. In the process of using SPSS to segment passengers, we have tried several times to finally determine the best clustering effect when K=3. This means that passengers are divided into three categories: public/business travelers, visiting relatives and tourists, home/back to school student groups and different product mixes were designed for them. However, due to the strong uncertainty in passenger demand, in the final APP, we will mainly push product accessories/free choice, and the product portfolio will supplement the sales approach to meet the needs of passengers for personalized and customized services.
关键词:K-means;数据挖掘;产品组合;旅客细分
Key words: K-means;data mining;product portfolio;passenger segmentation
中图分类号:F560 文献标识码:A 文章编号:1006-4311(2018)35-0052-03
0 引言
在大数据时代,民航业有大量的旅客数据被闲置,得不到充分地利用。且航空运输业飞速发展,旅客对民航业的要求已经从简单地运输变成了对舒适、便捷的飞行服务的追求。针对需求各异的顾客,服务类型企业大多采用客户细分方法进行研究应用,以追求对尽可能多旅客需求的满足,提高服务质量及旅客满意度,增强旅客粘性。尽管目前客户细分的研究和应用比较广泛,但针对民航这一特殊市场的旅客细分研究还比较贫乏。在民航旅客分类上,通常会粗略地分为两大类,公务旅客和闲暇旅客。很明显,这种粗糙的分类方法并不能让配套的产品满足相应的旅客需求,缺乏自由度的旅客可能会由此降低满意度,这种被动的满意度降低并不是航空公司想看到的,改进旅客聚类方法迫在眉睫。通过数据调查,运用目前数据挖掘技术中很普遍和常用的聚类分析方法——K-means算法,笔者发现民航旅客的分类可以在原来的基础上再进行细分,最终可以由两类细化为5类。通过总结细分后的旅客特征,为特定旅客制定并提供特定的产品组合选择,这是本文的目的所在。通过本文研究,可以为航空公司日后更精确地给旅客提供定制化服务奠定一定基础,同时通过产品组合,可以优化购票程序,提高旅客购票效率。
1 数据采集和赋值
近年来,我国民航业发展迅速。十几年前,由于价格较高,乘坐民航客机还是一种看似“高大上”的出行方式。现如今,居民平均生活水平提高,乘坐民航客机出行已不是什么新鲜事。由于乘坐目的不同,每位旅客对民航运输服务的要求与需求也不同。为了使每位旅客的出行更加舒心,同时提高航空公司的收益,我们需要深入旅客市场,根据不同旅客的基本情况进行分类,再将旅客的出行目的及要求进行分类,从而对不同需求的旅客提供不同的产品组合。本次调查采用网上发布问卷调查方式,参与者覆盖全国各个区域和各个年龄段,2017年10月-2017年11月调研小组对学生、在职人员等不同社会人员以线上调查问卷的方式进行了调查,一共发布600份问卷,回收了516份,其中有效问卷500份。其中,1、2、3、4题为本次调研的基本变量,即旅客职业、年龄、性别和月收入,之后所有的数据全部是基于这些旅客基本信息之上。5、6、9题主要是为了统计乘坐飞机方面的支出在旅客收入中所占的比例,即出门首选交通工具、每月交通收入占比和每年乘飞机次数,以便计算机票价格与旅客需求之间的供需关系。7、12、14、15、16、17、18、19、21、22题收集的信息是在多维度旅客聚类方面的主要参考数据,例如常选购买机票方式、购买机票首要考虑因素和飞行时长等因素,研究初期,我们将利用这些基本的数据对旅客进行聚类,划分,进而推送更适合其的商品组合。8、10、11、20题是为了了解现如今旅客对民航业种种常见问题的看法,例如对产品组合的看法等,以便民航业针对这些要求作出相应的改变,适应十九大提出的新要求。
2 聚类模型的建立
本文中采用SPSS(Statistical Product and Service Solutions)软件所提供的K-均值聚类分析(K-means Cluster)。操作过程是首先选择问卷中几个具有代表性的关于旅客信息的问题,然后分别将这些问题的选项进行赋值型量化,使每道题的选项数值均值都为0(例如,将A、B、C、D四个选项分赋值为-2、-1、1、2)再将数据导入SPSS进行聚类分析操作,再对得出的结果进行检验和优化。该步骤的特点是将文字型选项进行数值量化,用数学方法解决实际应用问题,且每道问题选项均值为零,排除了某些选项占比不均的现象。该聚类模型的建立过程只需一次将数据导入SPSS软件,在运算过程中可以随时终止和重新开始操作,计算过程中数据会被自动迭代并根据设置的中心点分类。
K-means算法的公式如下:
■ (1)
其中,V表示样本Xj到其所在类别聚类中心Ui的距离平方和,K表示聚类个数,Xj表示第j个样本,Ui表示第i个聚类中心。
■
3 聚类过程
3.1 中心点的选择
K-means算法本身思想比较简单,但是合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。K-means算法在聚类方法的分类中属于划分方法,首先要构建划分数目K值,然后进行迭代计算。对于给定的初始K值,则需要一定的探究,一旦初始值选取不当,容易出现一个局部最小的准则函数。目前初始聚类中心的选择方法有以下的一些:
①任意的选取k个样本作为初始聚类中心。
②凭经验选取有代表性的点作为起始聚类中心。根据个体性质,观察数据结构,选出比较合适的代表点。
③把全部混合样本直观地分成k类,计算各类均值作为初始聚类中心。
④通过“密度法”选择代表点作为初始聚类中心。
⑤按最大最小距离聚类法中寻找聚类中心的方法确定初始聚类中心。
⑥进行多次初值选择、聚类,找出一组最优的聚类结果。
由以上综述可以看出,选取中心点的方法很多,可以通过随机数选取、凭经验确定和科学计算等等,无论使用哪一种方法,都不应该一次性得出绝对的结论,应该经过多次计算比对结果,筛选优化中心点,最终得出最优聚类结果。
3.2 实现K-means算法的聚类过程
通过对调查问卷结果的分类,我们将旅客分为五个样本集,舍弃每个类别中无意义的孤立点即坏点,防止其对聚类结果产生不良影响。选取调查问卷中四个问题指标进行量化,分别是旅客职业、旅客性别、旅客在运输方面的消费与收入占比、旅客平均飞行时长。对五个样本集的四个指标分别进行聚类。
■
■
■
其中VAR00002为旅客职业,VAR00003为旅客性别,VAR00004为运输消费收入占比,VAR000005为旅客飞行时长。
3.3 聚类中心点的优化
由初始聚类可以看出,第1和3类数据对象、第4和5类数据对象都极为相似,说明初始中心点选取有误差,相似的数据样本集可以合并为一类,除此之外处于类别中间模糊边界上的点可以视作孤立点,对数据再一次进行迭代计算,此时将K取值为3进行优化。
■
■
■
4 聚类结果分析
从上述计算过程看出,各类别之间均值差距较大,已无法再次进行划分,调查数据共被分为3类,分别是企事业单位工作人员、自由休闲人员和学生,性别均值为0,表示男女性旅客各占一半,运输消费收入占比大部分在10-20%,有一类旅客群在运输方面消费占比不超过10%。旅客的飞行时间平均不超过5小时,各旅客群有其对应的飞行时长偏好。
为了使聚类结果更有说服力,笔者对分类结果进行了检验。将回收的问卷根据出行目的(即问题七)进行分类,然后将主观的分类结果与聚类结果进行比对,分析发现聚类结果与主观分类结果不谋而合。按照其出行目的,将航空旅客分为5个类别:公/商务旅客,旅游度假旅客,探亲访友旅客,返工/返乡旅客,回家/返校的学生群体旅客,即设定k=5时聚类结果,此时与主观分类结果相吻合。接着,我们对首次分类结果进行优化,最终当我们得出当k=3时,聚类结果不再变化,即航空旅客可以分为3类:公/商务旅客,探亲旅游旅客,回家/返校学生群体。其分类依据综合考虑了出行目的、旅客对出行时间与价格的敏感度等影响因素。将返工/返乡旅客与回家/返校的学生群体旅客合并成一类,除了学生旅客比打工旅客多了一个暑假外,这两类旅客性质基本相似。将旅游度假旅客与探亲访友旅客合二为一,因这两类旅客对出行时间的敏感度弱于公务旅客和学生群体。
在对于公/商务旅客的产品推荐上,我们主打“两舱+高端酒店+接送机+X”和“经济舱+舒适型酒店(报销标准下)+接送机+X”两种产品组合,并根据实际情况,对动态变量“X”进行调整,它可以是与航空旅客运输相关的产品或服务,也可以是与公/商务业务相关的产品或服务。针对探亲旅游旅客,我们主要进行“机票+接送机+酒店+旅游景点门票+X”的组合,其中机票主要以经济舱为主,可适当加入少量公务舱,机票所附加的几个小项可以进行自由组合,尽量满足更多旅客需求。在对于学生旅客的产品打包上,我们首先应该考虑的就是特价打折的机票。但是一般价格较低的机票其航班时刻都不是很好,考虑到学生到达或离开机场的便利性,我们便可以给其推荐可以拼车的接送机服务。同时,对于部分行李较多的学生,我们还可以给其提供相应的快递服务,并给予优惠。在对于一些特例旅客的处理上,我们可以增加一个全开放式自助组合板块,让旅客自由组合所需要的产品,而不仅仅局限于我们所提供的打包产品。同时通过后台数据的积累,我们可以不定期推出某一类或某几类旅客常用的产品组合,方便旅客的同时也提升了自身效率。
总之回家、返校/工作群体的特征相对明显,对于价格的高度敏感和对于时间的不敏感将成为我们保持旅客粘性的关键,成为我们提供增值服务的重要切入点,旅客分类与需求特征如表7所示。
■
5 结论与展望
本文在借鉴前人研究成果的基础上,查阅国内外相关参考文献,对聚类算法及在航空旅客分析中的应用做了一些研究,主要做了以下几项研究。
①介绍了本文的研究背景及意义和数据挖掘、聚类算法方面的理论知识。
②借助SPSS分析工具,使用k-means算法对航空旅客的特点和需求进行聚类分析,基本思想是将电子问卷选项答案进行量化,将首次聚类的结果进行优化,改变中心点k值,使优化后的聚类中心有更高的准确度。
③将聚类结果与航空旅客需求联系一起进行分析,对不同类型旅客推出不同产品组合建议,将数学分析与实际应用更好地关联。
在本项目的研究过程中,我们还发现如下可改进的问题:
①虽然电子问卷涉及各个职业领域,但本文所选数据样本相对于当今时代的海量数据依然微不足道。
②对于本文研究所的结论,希望可以运用手机或电脑软件将产品组合展示出来,将研究运用到具体实践当中。
参考文献:
[1]张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007(05):166-168.
[2]袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007(03):65-66.
[3]陈光宇,胡丽英,苏勇.聚类分析在电信行业客户关系管理中的应用[J].微计算机信息,2006(33):210-211.
[4]丁青,周留根,朱爱兵,张义东.基于K-means聚类算法的校园网用户行为分析研究[J].微计算机应用,2010,31(06):74-80.
[5]冯晓蒲,张铁峰.四种聚类方法之比较[J].微型机与应用,2010,29(16):1-3. |