笔记本电脑在线评论数据的文本分析

来源：湖北工业大学作者：陈俊宇
发布于：2020-08-24 共14922字

　　摘要

　　互联网电子商务的快速发展使得网络购物成为一种潮流,网购给各大电商平台和生产厂家带来机遇的同时也带来了挑战,除了开发、升级产品带动消费外,商家还需要了解用户的心声,才能尽可能满足他们的真正需求,随着网购的兴起,消费者利用网购平台发表自己的购物体验以及对商品、服务等的看法已经成为一种趋势,随之也产生了海量的评论数据,而在这些评论文本中包含着许多有价值的潜在信息,因此通过对商品评论信息的分析,一方面能够为商家发现产品的缺点、提高产品质量、改善服务态度提供有力的依据,另一方面能够让消费者全面了解产品有利于选购.

　　本文的研究对象是笔记本电脑的在线评论数据,首先利用八爪鱼数据采集器采集数据,将京东商城采集到的华为荣耀 MagicBook2019 和华硕 Vivobook 超薄笔记本电脑的评论数据作为分析语料;接下来对文本数据进行清洗和预处理,包括文本去重、中文分词、去停用词等,然后将处理后的文本向量化,表示成计算机能够识别的结构化数据.在本文的情感倾向研究过程中,考虑到监督学习方法需要已经标注好的文本,所以本文采用构建词典和机器学习相结合的方法,既解决了人工标注的繁琐问题,同时加入了支持向量机、K 近邻以及朴素贝叶斯三种文本分类算法进行算法比较,先对训练集建立分类模型后将模型应用于测试集中,通过查准率、召回率、值三个指标对分类器做评估,根据实验结果得到最优的分类器为支持向量机;同时本文还对消费者评论数据进行了特征分析,利用词云图可视化技术对产品的特征有了一个初步认知,然后对两款笔记本电脑的正面评论和负面评论分别建立 LDA 主题模型,利用主题向量之间的余弦距离,通过 R 语言编程求解得到最优的主题个数,在此基础上归纳出消费者对商品的看法,发现消费者主要关注的是电脑运行速度、外观、便携性、系统、性能、屏幕显示效果以及售后服务等属性.最后结合文本挖掘分析结果的差异性,针对性的为两个品牌的生产商提供可行性建议,同时根据电脑的优劣差异为消费者购买决策提供一定的参考.

　　关键词:文本挖掘,在线评论,情感倾向,机器学习,LDA主题模型

　　Abstract

　　The rapid development of Internet e-commerce has made online shopping a trend.Online shopping has brought opportunities and challenges to major e-commerceplatforms and manufacturers. In addition to developing and upgrading products to driveconsumption, merchants also need to understand the user 's voice that can meet theirreal needs as much as possible. With the rise of online shopping, consumers have usedthe online shopping platform to publish their shopping experience and opinions ongoods and services has become a trend, and a large amount of comment data has alsobeen generated, and these review texts contain a lot of valuable potential information, sothrough the analysis of product review information, on the one hand, it can provide astrong basis for businesses to find product shortcomings, improve product quality, andimprove service attitudes. On the other hand can enable consumers to fully understandthe product is conducive to purchase.

　　The research object of this article is the online review data of laptops. First, thereview data of Huawei Honor MagicBook2019 and ASUS Vivobook ultra-thin laptopsare collected from Jingdong Mall using the Octopus Data Collector for analysis. Next,the text data is cleaned and pre-processed, including text deduplication, chinese wordsegmentation, and stop words, etc., and then the processed text is vectorized andexpressed as structured data that can be recognized by the computer. In the process ofresearching the sentiment tendency in this paper, considering that supervised learningmethods need to have already annotated text, this paper uses a combination ofdictionary construction and machine learning, which not only solves the cumbersomeproblem of manual annotation, but also adds three text classification algorithms, such assupport vector machines, K-nearest neighbor and Naive Bayes. Firstly establish aclassification model on the training set and then apply the model to the test set, andevaluate the classifier through three indicators: precision rate, recall rate, and F_1 valueto obtain the optimal The classifier model of is a support vector machine; at the sametime, this article also analyzes the characteristics of consumer review data, uses wordcloud visualization technology to have a preliminary understanding of thecharacteristics of the product, and then positive and negative reviews of the two laptopsEstablish LDA theme models separately, using the cosine distance between topic vectors,the optimal number of topics can be obtained by R programming. On this basis,summarize the consumer's views on the product, and find that consumers are mainlyconcerned about the speed, appearance, portability, system, performance, screen displayeffect, and after-sales service of the computer. Finally, combined with the difference inthe results of text mining analysis, it provides targeted suggestions for themanufacturers of the two brands, and at the same time provides a certain reference forconsumers to make purchase decisions based on the differences between the advantagesand disadvantages of the computer.

　　Keywords: Text mining; Online reviews; Emotional orientation; Machine learning;LDA topic model

　　目录

　　摘要 ........................................................ I

　　Abstract ....................................................... II

　　目录 ...................................................... III

　　第 1 章引言 .................................................... 6

　　1.1 研究背景及意义 .............................................6

　　1.1.1 研究背景 ............................................6

　　1.1.2 研究意义 ............................................7

　　1.2 国内外研究现状 .............................................7

　　1.2.1 文本情感分类研究 ....................................8

　　1.2.2 LDA 主题模型研究.....................................9

　　1.2.3 文献述评 ...........................................10

　　1.3 研究内容及框架 ............................................10

　　1.3.1 研究内容 ...........................................10

　　1.3.2 研究框架 ...........................................11

　　1.4 本文创新点 ................................................12

　　第 2 章研究方法及理论 .......................................... 14

　　2.1 文本挖掘 ..................................................14

　　2.1.1 文本挖掘理论 .......................................14

　　2.1.2 文本预处理 .........................................14

　　2.1.3 文本的表示 .........................................16

　　2.1.4 特征的提取 .........................................17

　　2.2 情感倾向分析 ..............................................18

　　2.3 机器学习算法..............................................19

　　2.3.1 支持向量机 .........................................19

　　2.3.2 K 近邻算法..........................................20

　　2.3.3 朴素贝叶斯 .........................................21

　　2.4 LDA 主题模型.............................................22

　　第 3 章数据采集与预处理 ........................................ 25

　　3.1 数据的选取与采集 ..........................................25

　　3.1.1 数据的选取 .........................................25

　　3.1.2 数据的采集 .........................................25

　　3.2 数据的预处理 ..............................................27

　　3.2.1 数据的清洗 .........................................27

　　3.2.2 中文分词与去停用词 .................................28

　　3.2.3 词频统计 ...........................................28

　　第 4 章笔记本评论数据的情感倾向分析 ............................ 30

　　4.1 基于词典的情感分类 ........................................30

　　4.1.1 基础词典的构建 .....................................31

　　4.1.2 否定词典 ...........................................31

　　4.1.3 情感分类结果 .......................................31

　　4.2 基于机器学习的分类 ........................................32

　　4.2.1 算法流程 ...........................................32

　　4.2.2 实验步骤 ...........................................33

　　4.2.3 分类器性能评估 .....................................33

　　4.3 本章小结 ..................................................34

　　第 5 章消费者评论特征分析 ...................................... 35

　　5.1 基于词云图的可视化 ........................................35

　　5.2 基于 LDA 主题模型的特征分析 ...............................37

　　5.2.1 LDA 最优主题个数的确定..............................37

　　5.2.2 华为荣耀 Magicbook 的主题分析 .......................38

　　5.2.3 华硕 Vivobook 的主题分析............................40

　　5.3 本章小结 ..................................................41

　　第 6 章结论与展望 .............................................. 43

　　6.1 结论与建议 ................................................43

　　6.1.1 结论 ...............................................43

　　6.1.2 建议 ...............................................44

　　6.2 不足与展望 ................................................45

　　参考文献 ....................................................... 46

　　在校研究成果及奖励 ............................................. 49

　　致谢 ........................................................... 50

　　附录 ........................................................... 51

　　第 1 章引言

　　1.1 研究背景及意义

　　1.1.1 研究背景

　　近年来,随着互联网的蓬勃发展、移动支付的迅速推广以及物流行业配送效率的提升,网络购物逐渐融入大众生活,改变消费习惯的同时也带来了全新的消费体验,消费者能在不受时间、空间限制的情况下够买自己心仪的商品.我国互联网信息中心发布的统计报告中显示,中国网民的数量在不断增长,截至 2019 年 6 月,我国网民规模达到 8.54 亿人,与 2018 年相比,增长了 2598 万人,互联网普及率达到 61.2%,网络环境变的更加个性化、多元化、生活化,网络购物方便、快捷,优势更加突出.根据国家统计局 2020 年公布的有关数据可以得知,2019 年的社会消费品零售总额比 2018 年增长 8.0%,其中网上零售额为 106324 亿元,与 2018 年相比增长 16.5%.由此可知,随着中国社会网络经济环境的逐步优化,越来越多的人选择使用网络购物代替传统的实体店消费,网络消费已经成为当今社会商品零售的重要渠道.

　　在如今信息共享的时代,信息来源渠道广泛、传播速度快,网民在获取信息的同时也在发布自己的信息资源.电商平台在提供各类产品的同时,也提供了共享信息的渠道,应运而生的是网络购物的衍生产物-在线评论,在线评论是消费者对产品和服务的直接反馈,表达着他们对于所购买商品及购物过程的看法及意见.当然,电商平台流量大,故而会产生良莠不齐的评论,消费者难以辨别做出选择,生产商难以有针对性的做出调整,因此如何从海量的信息中准确获取有价值的信息成为当前文本挖掘领域研究的方向,对于生产商来说,及时了解用户的需求点与关注点,能够为其改进产品、升级服务指明方向,从而提高用户满意度,帮助企业在激烈竞争中赢得先机.

　　在线评论是一种非结构化的文本数据,因此,这类数据不能直接通过数据挖掘中的常规方法对其进行分析.如今是大数据的时代,面对这些数量庞大、内容杂糅的文本数据,单纯依靠人工阅读的方式来获取有价值的信息,工作量可想而知,操作耗时费力.近年来文本挖掘技术的兴起,越来越多的国内学者开始在文本挖掘方面进行探索研究,为分析这种文本数据提供了重要的方法及技术,也取得了一些的进展,未来在该领域的研究还存在很大的空间.

　　1.1.2 研究意义

　　目前,各大电商平台基本都有一个自己的评论管理系统,这些评论涉及商品的方方面面,反映着消费者的主观感受,尽管各大电商平台对于消费者评论系统做了便签化处理,但很多时候消费者只是图方便并没有真实的反映商品属性,比如在好评分类的下面往往能发现内容并非好评,另外各大网站一般是按照评论的时间或者是点赞次数将消费者的评论进行展示,这样给消费者寻找对自己有价值的信息也带来一些困扰,我们需要做的是将这些信息化繁为简,提取出消费者关心的内容,为商家改进提供方向.当然,手动分类这些信息,工作量太大,这就需要使用计算机技术来快速准确地分析数据.随着文本挖掘技术的发展,为处理、分析文本数据提供了的重要理论及方法,在进行文本分析时,不仅要分析用户的情感倾向,还应该对产品特征多维度的解读,评价产品的优劣.

　　本文将以笔记本电脑在线评论数据作为分析对象,笔记本电脑作为每个大学生必备的电子产品,经济市场前景广阔,通过研究此类产品消费者的心声,可以知晓消费者对笔记本电脑的尺寸大小、屏幕显示效果、运行速度等各个特征的看法,让生产商更好地把握产品的优势,改进产品的不足,通过对消费者在线评论的分析,这不仅可以挖掘出对生产商有价值、有参考意义的信息,而且在消费者购买产品时可提供参考建议.本文将利用网络爬虫工具去采集产品的在线评论数据,并使用文本挖掘技术分析这些文本数据,通过分析可以清楚地了解产品的属性,准确表达用户对产品使用的感受,进一步发现产品的利弊.所以,文本数据挖掘的意义是不容小觑的,通过对用户的评论进行文本挖掘,能够避免有用信息被淹没,无论是对生产商更好的占据市场赢得更大利益,还是对消费者优化购买决策都十分重要.

　　1.2 国内外研究现状

　　文本挖掘技术是从国外开始研究和应用的,最早将词频统计思想运用到自动分类的是 Luhn(1959)[1],为后续的文本分类研究奠定了基础;Maron 和 Kuhns(1960)[2]基于此发表了第一篇有关文本分类的文章;Feldman(1995)[3]提出了"Text Mining(文本挖掘)"的概念,他认为,随着电子媒体信息的快速增长,传统的数据处理方法不足以应对这种信息泛滥,为了处理非结构化文本信息,就需要使用数据库管理知识发现(KDD)这种新的范式,它侧重于对大量文本数据的探索,从此英文文本挖掘在国外展开研究.

　　1.2.1 文本情感分类研究

　　(1)使用情感词典的研究

　　最早,在文本情感分类应用研究领域,Riloff(1997)[4]等人提出了基于语料库的方法来构建特定类别的语义词典;后来的学者开始对词典中涉及的情感词提取进行研究,Hu Minqing(2004)[5]等人把形容词作为唯一的情感词,并基于 WordNet 英文词典的基础上进行情感词的识别,但由于该方法的单一词性,在分析过程中没办法获取其他词性的情感词;Whitelaw(2005)[6]等人提出了一种基于评估理论的方法,提取出文本中的形容词、修饰词等作为特征词,然后通过构建评价词典的方法对电影评论进行分类;Kennedy(2006)[7]等人根据评论所包含的正面和负面词语的数量对评论进行分类;闻彬、何婷婷(2010)[8]等人在情感词识别过程中引入了情感义原,在此基础上提出一种改进的基于语义理解的情感分类方法, 并且研究了副词的出现规律及其影响,可以更好地判别文本倾向性;Lei Zhang(2011)[9]等人基于特征挖掘模型发现不仅形容词能代表观点,名词和名词短语等产品特征也可以包含观点.Graebner D(2012)[10]等人基于一个给定的语料库提取特定领域的相关词汇,提出了基于情感分析的酒店顾客评价分类系统.

　　随着研究的深入,发现词语之间的语义相关性也会影响情感分类的最终结果,于是 Zhang(2005)[11]建立了一个从句子或文本中识别情感感知的系统,在系统构建过程中,构建了一个中文情感词库,该词库具有自己的分类,该系统通过句法分析,意外事件分析,情感感知来识别句子;Kim、Hovy(2006)[12]利用句子语义结构的方法提取出在线新闻文本的特征词,以此判别新闻所表达的观点;朱嫣岚(2006)[13]等人利用知网词典提供的语义相似度及相关理论,通过计算被测词与评价词的相似性差异来判断被测词的语义倾向;王晓东(2012)[14]等人提出一种词语组合模型识别句子,然后依据情感词汇集和规则集来计算句子的倾向性值;周红伟(2015)[15]采用构建基于不同句型,赋予不同权重的多策略情感分析方法计算情感词权重;黄仁(2016)[16]等人提出基于 word2vec 生成词向量的方法计算语义相似度,用构建情感词典的方法对文本进行情感分类.Wei W(2016)[17]等人将亚马逊数码相机的评论数据作为分析语料,在情感分析中加入计量模型,研究用户购买的意愿与产品属性特征评价的关系.

　　(2)使用机器学习方法研究情感倾向

　　国外关于机器学习分类的文献较少,最早是 Pang B(2002)[18]等人利用人工标注的电影评论数据作为研究对象,将三种机器学习方法进行情感分类对比实验,实验验证得到支持向量机的分类效果较好;Agarwal(2005)[19]等人提出一种基于 WordNet 英文词典和机器学习相结合的方法对文本进行更高效的分类;Durant(2006)[20]等人将文本挖掘技术应用在 Web 日志帖子分类中,根据实验结果发现朴素贝叶斯分类器的准确率比支持向量机高;Pandey(2009)[21]等人使用分类系统和机器学习方法,对 Twitter 微博文本中带有情感的语句进行分类.

　　国内关于机器学习分类的应用,主要有徐军(2007)[22]等人将朴素贝叶斯和最大熵方法应用在新闻文本分类中,实验发现将机器学习用于文本分类能取得较好的效果;曹杰(2015)[23]利用朴素贝叶斯算法对高血压文本进行分类,并对该算法进行改进后,发现分类效果有了明显提升;王明(2017)[24]以亚马逊网站的荣耀手机为例,然后提取句子中情感词、否定词等来构建特征向量,并使用支持向量机和概率神经网络两种方法建立文本分类模型,并比较了不同特征组合下的模型效果.孙昕(2018)[25]使用朴素贝叶斯与随机森林两种机器学习分类算法对手机在线评论数据进行分类,实验研究表明,当词条数量少时,朴素贝叶斯分类效果更好;当词条数量大时,随机森林分类效果更好.王悦(2019)[26]以京东大米消费者的评论为研究对象,利用朴素贝叶斯算法对消费者的情感进行分类,并利用 K-means 算法对高频名词进行分类,由此归纳出影响消费者满意度的七个主要因素.

　　1.2.2 LDA 主题模型研究

　　最早,LDA 模型由 Blei(2003)[27]等人引入到文本的分析中.近年来,该模型在文本聚类、文本分类等的研究都有了一些新的进展,比如 Lee S(2010)[28]等人将文本挖掘中典型的四种方法,隐含狄利克雷分布、潜在语义分析等放在一起比较,对比介绍了每种方法的应用场景和特点,同时将这四种方法应用在多组数据中进行实验.王鹏(2015)[29]、陈珊珊(2017)[30]等人针对传统文本聚类维数过高的问题,提出可以通过 Gibbs 算法估计主题模型;毛龙龙(2015)[31]对微博文本建立 LDA 主题模型聚类后,然后使用 SVM 方法对微博进行情感分析;丁诗晴(2016)[32]对在线旅游的评论文本建立 LDA 主题模型,提取出评论数据的主题,根据文本分析的结果追踪用户需求,为企业改善产品和服务提供建议.毛玲(2018)[33]构建了一个三层贝叶斯概率空间分布的采样过程来模拟文档的生成,将 LDA 模型应用于对豆瓣今日精选的文章进行无监督的文本主题挖掘,并采用 VEM 和 Gibbs 方法进行参数估计并比较分析结果.李洋(2019)[34]使用 LDA 模型对与冰箱质量相关的主题进行分类,并根据分类的结果, 确定以冰箱的外观、制冷保险效果、噪音三个维度作为研究角度进一步探究质量相关评论对冰箱销量的影响.

　　1.2.3 文献述评

　　从国内外关于文本挖掘的应用研究可以发现,国外最早是对电影影评、新闻类等一些具有逻辑的语料进行研究,而国内不少学者热衷于一些非逻辑性、开放度较高的文本语料,目前研究对象逐渐扩散到手机[35]、旅游产品[36]、空调[37]等领域.随着文本挖掘技术的日益成熟,也形成了一套较为成熟技术框架,无论是在分类系统的构建、还是文本挖掘算法的研究都取得了一些成果,不过目前大多数文章在做文本挖掘时,都是单一研究某种算法或者产品,例如,在文本情感研究领域,许多学者使用了构建情感词典的方法,然后依据不同特征词的权重计算每篇文档的最终情感得分,也有一些研究学者会用机器学习的方法对文本数据进行分类,但通常都需要事先获取已知分类标签的文本,李清镇[38]在文中也提到该文的不足之一就在于用朴素贝叶斯分类时需要提前人工标注文本,所以本文要做的就是解决人工标注这一难题,更大效率的对文本进行情感研究;另外目前大多数文本挖掘都是基于 python 语言进行爬虫或者算法分析,在其他计算机程序设计语言上的应用较少,本文将利用 R 语言进行编程求解,拓宽不同计算机语言的应用范围.

　　1.3 研究内容及框架

　　1.3.1 研究内容

　　笔记本电脑作为办公必不可少的电子设备,具有价格昂贵、更新速度快的特点,作为耐用型产品,消费者在购买时往往要依靠其他用户的评论来搜集信息,以此尽可能避免信息不对称产生的错误决策,但搜集整理这些信息仅依靠人工阅读的方式较为困难,所以对消费者的在线评论进行分析研究具有重要意义.

　　本文以华为和华硕两个品牌的笔记本电脑评论数据为研究对象,在进行数据预处理之后,工作一是将构建词典法和机器学习方法相结合对评论数据进行情感倾向分类分析,工作二是利用词云图可视化技术和建立 LDA 主题模型对评论数据进行语义挖掘分析,并最终根据文本分析的结果对消费者和商家提出建议.本文共分为六个章节,每章内容简要介绍:

　　第一章为引言.首先是介绍了本文的选题背景和研究意义,接着对国内外学者对文本情感分析和主题模型的应用进行综合阐述,接着对本文的研究内容及方法做了详细的介绍,并给出本文整体的研究框架,最后概括了本文的创新之处.

　　第二章为研究方法及理论.首先阐述文本挖掘的相关概念和研究方法,随后详细介绍了文本数据的预处理技术,包括中文分词,停用词等,最后对文本情感分类、机器学习算法、LDA 主题模型理论作了详细阐述.

　　第三章为数据采集与预处理.本章详细介绍了获取数据的方法,以及如何采集数据的过程,接着对采集到的笔记本评论数据进行了处理,包括对重复、错误的数据进行删除,对数据进行清洗后接着对文本数据进行中文分词,停用词,词频统计等数据预处理操作,为后续研究奠定数据基础.

　　第四章为笔记本评论数据的情感倾向分析.在第三章的基础上,先利用构建情感词典的方法对文本进行分类,根据规则计算每条评论的情感倾向值,根据结果将评论文本数据划分为好评集和差评集,在获得分类标签文本的基础上再利用机器学习方法中的朴素贝叶斯、支持向量机、K 近邻三种方法进行文本情感分类,根据精确率、召回率和 F 值三个指标对模型的分类效果进行评估.

　　第五章为消费者评论特征分析.基于上一章中已分类的文本,分别对两款电脑的好评集和差评集做可视化分析,然后对好评集和差评集分别建立 LDA 主题模型,并利用余弦距离来确定主题个数,进一步整理归纳出商品的特征.

　　第六章为结论与展望.结合本文文本挖掘分析的结果,分别为两个品牌的生产商提供可行性意见,同时根据电脑的优劣差异为消费者购买决策提供一定的参考.最后阐述了本文研究中存在的不足及后续研究的展望.

　　…………由于本文篇幅较长,部分内容省略,详细全文见文末附件

　　第 6 章结论与展望

　　6.1 结论与建议

　　6.1.1 结论

　　随着互联网的快速发展和移动支付的推广,网络购物成为一种潮流,随之产生的是消费者在诸如京东、淘宝等电商平台上留下的大量购物评论信息,在这海量的评论数据中隐藏着很多有价值的信息,在大数据的时代,文本挖掘扮演着越来越重要的角色,企业可以通过对这些评论信息的深入挖掘从中获悉消费者的需求与偏好,进而提升自身经营效益与市场竞争力,同时能够帮助消费者在购物选择决策上提供意见参考.

　　本文以笔记本电脑消费者评论数据为研究对象,研究过程中主要经历了以下过程:首先简要介绍了研究对象的选取思路以及数据的采集;接着对数据进行清洗、分词、统计词频等预处理操作;然后对文本的进行分类,采用构建情感词典和机器学习结合的方法,并对分类器的性能做了评估;最后通过可视化技术呈现两个品牌笔记本电脑消费者评论数据的总体特征,并对不同品牌的笔记本电脑评论数据建立 LDA 主题模型,进一步挖掘商品的优点和不足之处,结合文本挖掘分析结果,为生产商提高商品质量满足用户需求提供可行性意见,同时根据电脑的优劣差异也可为消费者购买决策提供一定的参考.

　　本文得出的主要结论有:将词典法和机器学习的方法结合用于在线文本评论情感分析是可行的.本文使用八爪鱼软件采集华为荣耀Magicbook和华硕Vivobook笔记本电脑京东在线评论数据,对文本进行预处理,进行分词,去除停用词,将情感词、否定词作为特征项,最后把这些特征项转化为文本向量,依据权重和的正负性,大于零的为正面评论数据,小于零的为负面评论数据,并对词典分类的准确率进行了评估;接下来在词典分类的基础上,运用监督学习的算法,K 近邻、支持向量机和朴素贝叶斯来对文本做情感倾向分类,实验表明:从值来看,最优的分类器是支持向量机,准确率能达 90%以上.另外对评论数据做特征分析,利用可视化和建立 LDA 模型的方法分别对两款笔记本电脑的正面评论和负面评论进行分析,结果发现,消费者主要关注的是电脑运行速度、外观、便携性、系统、性能、屏幕显示效果以及售后服务等属性,为进一步提出建议提供方向.

　　6.1.2 建议

　　(一)对华为荣耀 Magicbook 商家的建议

　　一、提高电脑显示器分辨率.电脑显示屏的画质效果直接影响到电脑的使用体验感,好的显示器色彩还原好,色彩看的舒服,对眼睛的刺激也小,且使用寿命长.目前,笔记本电脑的消费群体大多数是青年人,上网办公、视频学习、网络购物,电脑的使用贯穿于我们的日常生活当中,普遍面对电脑的时间偏长,并且随着科技的发展,消费者对笔记本电脑不止是硬件上的需求,同时也很重视全方位的体验.因此,生产商在设计、生产过程中要充分考虑用户的体验感,这样既能满足消费者需求还能赢得口碑.

　　二、做好电脑质检工作.对于电脑配件如鼠标、充电线等,在出厂前要认真核查,以免漏发,给消费者留下不好的印象;另外质量方面的检测也必须到位,商品的质量将直接影响消费者对品牌的认可,因此,要做到既保证电脑附带品的质量,又要赢得消费者口碑,做好这些才会给商品的销售打开更大的销路.

　　三、做好价格管控以及售后服务工作.售后反映的是一个企业的管理水平,特别是客服人员,应该耐心帮助客户解决问题、注重细节才能真正赢得消费者的喜爱.才能帮助商家赢得消费者的赞誉;另外就是价格管控的问题,商家应该对商品的价格有计划的进行变动,且应该有保价条例,保证消费者的权益,不能为了促进商品的出售而过于调低价格,避免让消费者产生负面情绪.

　　(二)对华硕 Vivobook 商家的建议

　　一、优化电脑散热器功能.笔记本电脑作为日常工作的高耗能电子产品,同时打开太多网页或多个程序时,会产生较多热量,如果机身散热效果不佳,则会影响电脑运行速度导致死机、黑屏等后果.所以,机身散热功能的强弱直接影响电脑的性能发挥,优化电脑散热装置尤为重要.

　　二、提高电脑续航能力.续航能力和电池的质量和容量有关,改进笔记本电脑的电池续航能力,能提高电脑外出办公的便携性,提高工作效率,电脑续航能力也是笔记本的一大卖点,所以提高电池续航能力是非常必要的,不仅满足消费者的需求,也能让商品在市场上具有优势.

　　三、提高质量链管理.此款电脑出现屏幕漏光的现象,说明在生产线中对电脑的故障发现有遗漏,所以应该加强产品质量方面的检测和管理,同时做好产品的售后服务,及时解决消费者出现的电脑质量问题,将服务满意度纳入绩效评估,并不断提高售后服务能力.

　　(三)对消费者购买决策的建议

　　产品评论的文本挖掘分析不仅为生产者提供了有价值的信息,而且对消费者购买决定也很有意义,结合分析结果为消费者决策提出以下两个建议:

　　一、华为荣耀 Magicbook 品牌笔记本电脑固态硬盘容量大,外观设计美观,处理器运行速度较快,华为旗下的荣耀系列产品,产品质量有保证.但此款电脑的屏幕显示一般,对于有美工或者修图需求的可能不太合适,不过此款电脑整体的性价比高,对于学生党来说是个不错的选择,并且此款电脑的续航能力不错,方便携带外出办公.

　　二、华硕 Vivobook 笔记本电脑同样是固态硬盘,电脑开机速度快,运行速度快、网页浏览流畅,整体体验感是不错的,机身外壳是全金属,质感不错,外形轻薄大方、适合携带办公,但此款电脑的散热性和续航能力一般,适合对电脑颜值要求较高,符合日常办公的要求.

　　总而言之,两台笔记本电脑各有优点,但也有不足之处.对生产商而言,产品的优势之处应保留并逐渐开发出更好的功能,带给消费者更多更好的体验,缺点也需要不断改善以满足消费者的需求,同时做好售后工作,对消费者而言,参考有价值的信息并结合自己需求才能做出正确的决定.

　　6.2 不足与展望

　　在本文的研究中,由于时间、理论等方面的欠缺和不足,还是存在一些值得改进的地方,本文只抓取了京东商城关于这两个商品的评论信息,在将来的深入研究中,可以考虑选择多个网站来比较同一品牌产品,另外也可以增加多品牌对比分析,这样更有利于对产品全面分析,挖掘到更多的信息.此外本文只对评论文本数据进行了分析研究,对消费者所购买笔记本的型号选择、颜色、时间等信息的利用不够,最后这种评论数据可能存在刷好评的操作,如何识别这种评论可以作为一个深入研究的方向.

　　因此,在以后的研究和工作中,我将继续沿着数据挖掘和分析的方向不断发展,不断学习,为之后的学习工作奠定坚实的基础,同时掌握更多的理论知识,提高自己的计算机编程能力,积极动手实践,将理论应用到具体解决问题当中去.
　　参考文献
　　[1] Luhn H P. Auto-encoding of documents for information retrieval systems[M]. IBM Rese-arch Center, 1958.
　　[2] Maron M E, Kuhns J L. On relevance, probabilistic indexing and information retrieval[J]. Journal of the ACM (JACM), 1960, 7(3): 216-244.
　　[3] Feldman R, Dagan I. Knowledge Discovery in Textual Databases (KDT)[C]//KDD. 1995,95: 112-117.
　　[4] Riloff E M , Shepherd J . A Corpus-Based Approach for Building Semantic Lexicons[J].1997.
　　[5] Hu Minqing, and Bing Liu. "Mining opinion features in customer reviews." AAAI. Vol.4. No. 4. 2004:755-760.
　　[6] Whitelaw, Casey, Garg, Navendu, Argamon, Shlomo. Using appraisal groups for sentiment analysis[J]. 2005.
　　[7] Kennedy A, Inkpen D. Sentiment classification of movie reviews using contextual valence shifters[J]. Computational intelligence, 2006, 22(02): 110-125.
　　[8] 闻彬,何婷婷,罗乐,宋乐,王倩.基于语义理解的文本情感分类方法研究[J].计算机科学,2010,37(06):261-264.
　　[9] Zhang L, Liu B. Identifying noun product features that imply opinions[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Association for Computational Linguistics,2011: 575-580.
　　[10] Gr?bner D, Zanker M, Fliedl G, et al. Classification of customer reviews based on sentiment analysis[C]//ENTER. 2012: 460-470.
　　[11] Zhang, Yu, et al. "Semi-automatic emotion recognition from textual input based on theconstructed emotion thesaurus." 2005 International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2005.
　　[12] Kim S M, Hovy E. Extracting opinions, opinion holders, and topics expressed in onlinenews media text[C]//Proceedings of the Workshop on Sentiment and Subjectivity in Text.Association for Computational Linguistics, 2006: 1-8.
　　[13] 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006(01):14-20.
　　[14] 王晓东,王娟,张征.基于情感词汇本体的主观性句子倾向性计算[J].计算机应用,2012,32(06):1678-1681+1684.
　　[15] 周红伟. 商品评价信息的中文情感分析[D].浙江工商大学,2015.
　　[16] 黄仁,张卫.基于 word2vec 的互联网商品评论情感倾向研究[J].计算机科学,2016,43(S1):387-389.
　　[17] Wei W , Hongwei W . The influence of aspect-based opinions on user's purchase intention using sentiment analysis of online reviews[J]. Systems Engineering-Theory & Practic e, 2016.
　　[18] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine le-arning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in n -atural language processing-Volume 10. Association for Computational Linguistics, 2002:79-86.
　　[19] Agarwal A , Bhattacharyya P . Sentiment Analysis: A New Approach for Effective Useof Linguistic Knowledge and Exploiting Similarities in a Set of Documents to be Classified[C]// 2005.
　　[20] Durant, Kathleen T., and Michael D. Smith. "Mining sentiment classification from political web logs." Proceedings of Workshop on Web Mining and Web Usage Analysis of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (WebKDD-2006), Philadelphia, PA. 2006.
　　[21] Pandey, Vipul, and C. Iyer. "Sentiment analysis of microblogs." CS 229: Machine learning final projects (2009).
　　[22] 徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007(06):95-100.
　　[23] 曹杰. 基于朴素贝叶斯的高血压文本分类的研究[D].太原理工大学,2015.
　　[24] 王明. 基于 SVM 和概率神经网络多特征组合的在线产品评论情感信息挖掘[D].江苏大学,2017.
　　[25] 孙昕. 基于文本挖掘对商品评论的分析[D].华中师范大学,2018.
　　[26] 王悦. 基于在线评论的京东平台大米消费者满意度研究[D].黑龙江八一农垦大学,2019.
　　[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
　　[28] Lee S, Song J, Kim Y. An empirical comparison of four text mining methods[J]. Journal of Computer Information Systems, 2010, 51(1): 1-10.
　　[29] 王鹏,高铖,陈晓美.基于 LDA 模型的文本聚类研究[J].情报科学,2015,33(01):63-68.
　　[30] 陈珊珊. 基于 LDA 模型的文本聚类研究[D].苏州大学,2017.
　　[31] 毛龙龙. 基于 LDA 模型的微博情感分析技术研究[D].西北师范大学,2015.
　　[32] 丁诗晴. 基于在线网站评论的中文文本挖掘[D].华中科技大学,2016.
　　[33] 毛玲. 基于 LDA 的文本主题挖掘研究[D].华中科技大学,2018.
　　[34] 李洋.文本挖掘视角下电子商务平台在线评论对大型家电销量的影响[D].合肥工业大学,2019.
　　[35] 陈义. 文本挖掘在网购用户评论中的应用研究[D].浙江工商大学,2018.
　　[36] 刘阳. 基于文本挖掘的在线旅游产品销量影响因素分析[D].首都经济贸易大学,2018.
　　[37] 杨瑞欣. 电商空调产品的评论数据情感分析[D].山西大学,2017.
　　[38] 李清镇. 基于文本挖掘的笔记本电脑网评分析[D].兰州财经大学,2019.
　　[39] 曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优 LDA 模型选择方法[J].计算机学报,2008(10):1780-1787.
　　[40] 王献伟. 文本情感分析在商品评论中的应用研究[D].浙江工商大学,2018.
　　[41] 江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(01):87-89.
　　[42] 蒋艺琪. 基于情感分析和特征过滤的主题提取方法研究[D].华中科技大学,2019.
　　[43] Hu, Jian-jun,Yao, Yu-xian. Research on the Application of an Improved TFIDF Algorithm in Text Classification[J]. Journal of Convergence Information Technology,2013,8(7):639-646.
　　[44] 刘丹. 酒店评论的情感分析[D].云南财经大学,2017.
　　[45] 丁晟春,王颖,李霄.基于 SVM 的中文微博情绪分析研究[J].情报资料工作,2016(03):28-33.
　　[46] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.
　　[47] 李龙昊.基于朴素贝叶斯的文本分类算法研究[J].数字通信世界,2017(09):228+263.
　　[48] 崔志刚. 基于电商网站商品评论数据的用户情感分析[D].北京交通大学,2014.
　　[49] 李长江. 基于酒店中文评论情感倾向分析[D].华南理工大学,2016[50] 韩宝国,张良均,林柳琳,何展鸿,施兴.商务数据分析实战[M].北京:人民邮电出版社,2018.

返回本篇论文导航

作者单位：湖北工业大学

原文出处：陈俊宇. 基于文本挖掘的在线评论应用研究[D].湖北工业大学,2020.

点击下载全文

相关内容推荐

1在线评论在消费者购买意愿中的作用探究
2笔记本电脑在线评论数据的文本分析