Design and Implementation of Brand Evaluation System Faced to Microblogging
孙育华① SUN Yu-hua;黑龙① HEI Long;黄成哲① HUANG Cheng-zhe;李军① LI Jun;
张艳艳① ZHANG Yan-yan;张定峰① ZHANG Ding-feng;赵金梅② ZHAO Jin-mei
(①黑龙江工程学院,哈尔滨 150050;②哈尔滨商业大学,哈尔滨 150028)
(①Heilongjiang Institute of Technology,Harbin 150050,China;②Harbin University of Commerce,Harbin 150028,China)
摘要:本文设计并实现了一个面向微博的品牌评价系统。用户可以通过系统方便地获取网络上相关的品牌信息,挖掘出网友对该品牌口碑评价的信息,并获得这些评价信息的好评、差评相关结果,了解某个品牌在网络上的声誉度。
Abstract: This paper designs and implements a brand evaluation system for micro-blog. Users can easily access the relevant brand information on the network through the system, dig out the information about the brand reputation evaluation of netizens, and obtain the positive and negative evaluation results of these evaluation information, so as to understand the reputation of a brand on the network.
关键词:品牌评价;网络爬虫;微博;情感分类
Key words: brand evaluation;web crawler;micro-blog;sentiment classification
中图分类号:TP391.3 文献标识码:A 文章编号:1006-4311(2019)24-0234-02
1 概述
消费者对一个品牌的认识,早先主要是来源于街巷、报纸、电视新闻、广播等。Internet的飞速发展,不断地影响人们生活和获取信息的方式,贴吧、个人空间、论坛、博客、在线社区、微博等通讯平台已成为人们展示生活、分享体验的主流方式。在这众多交流平台中,微博“灵活、快速、简短”的特点无疑成为网民发布信息、交流个人观点的主要平台,而且微博的发布可以通过移动端和PC端等多种方式进行发布、分享140字以内的文本信息。这样的社交方式使人们对微博越来越青睐,且其用户数量与日俱增。
由于微博数量巨大,难以被人为控制,以微博作为品牌评价的数据源,在一定程度上保证了数据的可靠性。通过对微博文本进行情感分析,对相关品牌进行判断分析,能更直观地感受到微博上相关的品牌声誉,而不是被部分舆论所误导。企业也可以从中了解用户的情感信息,便于对产品满意度进行调研,以此有针对性的完善产品和相关的服务体系,以助于企业更好的发展,同时也可以让用户有一个更好的选择。它还可以运用于舆情监控、心理学等不同领域的研究。因此对于面向微博的品牌评价分析不仅可以用于企业调研用户对企业品牌的满意度,通过分析负面评价的内容,方便企业更好的了解用户需求。因此面向微博的品牌评价系统设计与实现对于企业和用户具有十分重要的意义。
本文以微博作为数据来源,以自然语言处理、信息检索、情感倾向性分析等相关技术为核心,设计并实现了一个面向微博的品牌评价系统。
2 系统分析
2.1 业务需求分析
面向微博的品牌评价系统面向的对象是互联网上的舆情信息,其中包括互联网上各大论坛、贴吧、社区、网络新闻、博客、空间、微博等等。微博具有即时、交流量大、短文本的特点是本文选取作为系统数据来源的原因。微博文本分析不仅是品牌评价分析的参考元素,对品牌的分析起至关重要的作用,而且可以对分析结果单独使用,从中可以分析网民在某个事件的情感倾向,以供管理者总体的了解网络的评价信息,同时也可以根据当前的口碑结果来评估一个品牌的声誉度。所以,面向微博的品牌评价系统需要能够适应微博的短文本分析,并且准确率要求较高,以供后续进行一个品牌评价。
根据上述的需求背景,可以总结出下业务需求分析:
①能够从网络上抓取微博相关的页面并从中提取相关的文本信息。
②能够对抓取下来的文本信息进行准确的情感倾向性分析。
③直观的将分析结果进行显示。
④具有友好的用户使用界面。
2.2 功能需求分析
针对上述的系统总体业务需求分析,进而可以对系统的功能进行分析,可以将系统分为前台和后台,其中前台负责展示业务,后台负责主要的相关计算逻辑,系统前后台的交互,共同组成一个完整的系统。
前台的功能模块具备用户从搜索某个品牌开始到系统响应结束时,系统将处理结果展现给用户,用户可以通过结果整体了解品牌的声誉度,并且可以通过好评、差评相关信息进一步地了解目标品牌的口碑评价信息。
系统的前台系统结构功能主要分为七部分,品牌展示首页为系统的首页,展示的是多个已经分析好的品牌信息。前台的功能中,微博爬虫入口主要是填写爬虫程序启动所需的信息,通过填写微博名称、爬取页数、是否官博下的评论、是否用户微博信息来启动爬虫程序,完成爬虫程序后主页面会新增一个品牌的展示位,并且这个展示位的图标为此官博的头像。品牌声誉评价的结果显示分为官方微博下的用户评论情感分析结果和新浪用户发表微博的文本信息的情感分析结果,前台的显示区分官博和用户微博的统计页面,并且可以进行相互跳转查看。同时在统计的数据报表页面上,有词云展示、条形图展示、饼状图展示,其中数据报表统计的内容为:统计文本信息的差评、好评的文本总数、差评文本高频词语数量、好评文本的高频词语数量、统计某个性别对某个品牌的评论情感类型为好评或者差评的文本数量、统计某个地区对某个品牌的评论情感类型为差评或者好评的文本数量。在查看数据报表时,用户可以点击条形图、饼状图、词云的某一个属性进行跳转至一个关联这个属性的句子信息页面。页面有全屏显示的按钮,用户可以通过点击全屏的按钮进入全屏模式,让用户有良好的视觉体验。
后台的功能模块主要为了实现情感分析功能,为此系统应该具有获取数据源和处理数据、分析数据的功能,因此,可以将系统功能总结如下:
①微博数据抓取及存储模块。
②文本预处理模块。
③情感模块。
其中微博数据抓取及存储模块,能实现利用关键字爬取相关的微博的用户页面,进行节点抓取用户名链接,然后再进行抓取该用户名下发表的所有微博的链接,进而抓取其中的评论、发布评论的用户个人信息的功能,而且还能根据微博昵称获取头像图片。文本预处理模块为文本分词、去停用词、排序和编号模块,能实现将一个待测文本处理成可以让情感分析模块预测数据的数据集。情感分析模块主要实现模型制作和预测数据的功能。
3 系统设计
通过上述系统需求分析,可以将系统的功能划分为四大模块:
①微博数据抓取及存储模块。②文本预处理模块。③情感分析模块。④前台结果界面展示模块。
微博数据抓取及存储模块实现对品牌官方微博在新浪微博的头像、评论信息进行获取的功能;文本预处理模块及情感分析模块,用于对抓取的品牌评论信息进行语言处理、情感分析;前台结果界面展示模块,用于反馈给用户微博评论情感分析的结果。
为了更好的为用户服务,系统的功能在需求分析中最为重要,但是系统的性能指标分析的也必不可少,所以,本系统在设计上考虑到四个方面,如下所示:
①功能性:实现需求分析的每个功能。②有效性:受限于目前自然语言技术上的中文情感分析的瓶颈,面对在中文的“反讽”、“夸张”等等表达手法上效果有所欠缺,使用现有语料进行的语料训练制作的分类器,本文为系统定下的性能指标为:对于微博文本的分析准确率大于63%。③可维护性:系统应该能够方便的对系统的爬虫策略,机器学习算法进行更新、维护。④易用性:为了方便用户使用,使用户具有良好的体验,系统应以操作简单、结果展示清晰、展示界面的风格简洁大方作为设计目标。
4 系统实现
本系统采用多层构架,系统分层结构图如图1所示。
■
其中,展示层运行于浏览器中,应用层、服务层和数据访问层这三层都位于服务器中,这三层详细介绍如下。
4.1 应用层
应用层主要是服务器业务和前端可视化界面的业务。主要包含两个业务模块:①基础业务:基础业务包括了基本的登录系统、爬虫功能、分析类型切换,切换用户微博分析结果和官博下评论的分析结果。②展现业务:展现模块主要运用数据报表对数据进行可视化显示,例如微博数据词云显示、微博品牌等级评价显示、数据统计显示(饼状图、柱状图)、好评与差评的微博详情、全屏等等。
4.2 服务层
服务层主要分为以下几个模块:
① 数据基础服务层。包括新浪微博数据的抓取、数据存储等数据服务。②中文分词服务层。实现该层的方法主要是使用中科院汉语词法分析系统ICTCLAS的服务,得到了对中文的分词结果和相应的词性标注信息进而通过相关算法制作成测试集。③机器学习服务层。利用机器学习模型实现对微博信息的情感分类。该机器学习服务层的具体业务是:首先对微博信息中的人工标记号的褒贬各60000条的句子,通过分词,过滤相关的停用词,进行编号,制作词袋,整理成训练集,之后利用Libsvm对模型进行训练,生成模型。
4.3 数据层
数据层的主要是利用Mybitas框架的持久化机制来完成对数据的操作,系统数据库采用MySQL数据库。
5 结束语
品牌评价系统的实现,一方面满足了消费者了解某个品牌在网络上口碑好坏的需求,也满足了企业了解自身品牌在市场上的声誉度的需求,为品牌的营销提供数据支持。
参考文献:
[1]王文华,朱艳辉,徐叶强,等.基于SVM的产品评论属性特征的情感倾向分析[J].湖南工业大学学报,2012,26(5):76-80.
[2]游建平.基于语义情感空间模型的微博情感倾向性研究[D].广州:暨南大学,2012.
[3]沈磊.基于规则与机器学习方法的中文微博情感分析研究[D].合肥:安徽大学,2015.
[4]阳爱民,林江豪,周咏梅,等.中文文本情感词典构建方法[J].计算机科学与探索,2013,7(11):1033-1039.
[5]李寿山,李逸薇,黄居仁,等.基于双语信息和标签传播算法的中文情感词典构建方法[J].中文信息学报,2013,27(6):75-81. |