基于加权word2vec的微博情感分析
来源:小侦探旅游网
第50卷第3期 2017年3月 通信技术 Communications Technology Vo1.50 N0.3 Mar.2017 doi:10.3969/j.issn.1002-0802.2017.03.021 基于加权word2vec的微博情感分析 李锐,张谦,刘嘉勇 (四川大学电子信息学院,四川成都610065) 摘 要:随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间 语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分 析方法,对微博的情感分析问题进行研究。首先用word2vec训练并计算得到文档词向量;然后根 据TFIDF算法计算文档中词汇的权重,对word2vec词向量进行加权;最后,使用SVM对情感数 据进行训练和分类。在微博实验数据中,与已有方法相比,所提方法分类准确率和召回率都得到 了提高。 关键词:情感分析;word2vec;加权词向量;支持向量机 中图分类号:TP391.1 文献标志码:A 文章编号:1002—0802(2017)一03—0502—05 Microblog Sentiment Analysis based on Weighted Word2vec LI Rui,ZHANG Qian,LIU Jia—yong (College of Electronics and Info.,Sichuan Univ.,Chengdu Sichuan 610065,China) Abstract:With the popularity of social media,microblog sentiment analysis attracts more attention from most researchers.In order to solve the problem of lacking lexical semantic relation and neglecting lexical importance in sentiment analysis,a sentiment analysis method based on weighted word vector and support vector machine(SVM)is proposed,thus to analyze the microblog sentiment.Word2vec is ifrstly used to train and calculate the document word vector,then by using TFIDF algorithm,the weight of document word is calculated,and word2vec weighted.Finally SVM is used to train and classify the sentiment data.Microblog experimental data indicates that compared with the existing methods,the proposed method is greatly improved in classiifcation accuracy and recall rates. Key words:sentiment analysis;word2vec;weighted word vector;support vector machine 0引 言 ‘ .息进行分析。与传统的基于主题文本分类不一样, 伴随着社交网络的不断发展,更多的人通过微 博、博客来表达自己的情感,发表对热点事件的观 点。微博平台以其灵活性、及时性,毫无疑问地成 为新事件和热门话题的前沿阵地。通过分析微博内 容来了解事态的变化及人们的情感倾向,成为许多 学者的研究方向。 这种分类对象是一些主观因素。对于一个文本要得 到它是否支持某种观点的信息,而不是一些简单的 客观内容,这种独特的文本分类任务被称为“情感 文本分类”。根据分类的粒度不同,情感文本分类 可以分为短语级、句子级和篇章级[1-21 ̄根据在训 练集中标注样本所占的比例,情感文本分类可以大 文本情感倾向性分析,是指对说话人的态度(或 称观点、情感)进行分析,也就是对文本中主观信 致分为基于半监督学习、基于监督学习和基于无监 督学习的情感分析p】。 收稿日期:2016—11-09:修回日期:2017—02—12 502・ Received date:2016一l1-09;Revised date:2017—02—12 ・第5O卷 李锐,张谦,刘嘉勇:基于加权word2vec的微博情感分析 第3期 1相关工作 目前,情感分析的主要研究方法大致分为两类。 一维向量空间,从而为文本数据寻求更加深层次特征 表示。这使得word2vec输出的词向量可以被用来做 很多NLP(Natural Language Processing)相关的工作, 类是基于情感词典及规则的方法,另一类是目前 使用较多的基于机器学习的方法。 Turney等 针对情感字典的不足,使用PMI 方法对基准字典进行了扩充;李寿山等 利用标签 传播算法构建覆盖领域语境的中文情感词典,用于 文本情感分析;张婧等人『6 建立基于二元语法依赖 关系的情感倾向互信息特征模型,通过机器学习方 如聚类、找同义词、词性分析和短文本分类等。 Word2vec包含了两种训练模型:Continuous Bag of W0rds(CBOW)和Skip—gram。CBOW的目 标是根据上下文来预测给定词,数学表示为: P( I 一 , 一¨,…, + , + ) 其中, (1) 为语料词典中的一个词。CBOW通过 法训练分类器自动识别词语情感极性;杨经等 通 和 相邻上下文窗口大小为k的词来预测词 出 过提取分析情感词的相关特征,使用SVM对句子 现的概率。Skip—gram刚好相反,它根据当前词语 进行情感识别及分类;Pang等 尝试使用n—grams 来预测上下文,数学表示为: 模型和SVM分类模型对情感分类,并选择unirgams P( 一 , 一川,…, + , + } ) (2) 作为特征来获取最佳分类结果;李素科等 针对监 即通过词汇 去预测相邻窗口k内词 [的概率。 督学习分类的不足,对情感特征进行聚类,并提出 与CBOW模型相比,Skip—gram语义准确率高, 了一种半监督的情感分类算法;陈昀等[10-11]提出 代价是模型计算复杂度高,模型训练耗时较长。 了基于多特征融合的中文评论情感分析方法,通过 CBOW模型因为窗口大小的限制,导致窗口以外 word2vec和SVM进行训练和分类来判断隋感倾向, 的词汇与待预测词的关系不能正确被模型所捕获。 提高了情感分类准确率。然而,文本中词汇的重要 如果单纯扩大窗口,又会增加训练模型的耗时。 程度很少被考虑。事实上,文本分类中特征项权重 Skip—gram模型会通过跳跃词汇来构建词组,避免 的赋予对于分类效果有着较大影响[12-131,而TFIDF 了因窗口大小限制导致丢失语义信息的问题。 算法是权重计算的重要算法之一。基于此,本文提 考虑到word2vec模型无法区分文本中词汇的重 出了基于TFIDF的加权word2vec情感分析方法。 要程度,借助TFIDF算法计算短文本中词汇的权重。 2基于加权word2vec的情感分析 2・2 TFIDF模型 TF—IDF的主要思想:如果某个词或短语在一 情感主要分为积极和消极,这样微博文本情感 篇文章中出现的频率高,且在其他文章中很少出现, 分析可转换为短文本的二分类问题。Word2vec在文 本分类上具有良好性能[14-16]主要取决于传统分类 则认为此词或者短语具有很好的类别区分能力,适 合用来分类。实际上,TF—IDF是TF*IDF,TF词 模型中的词汇都是独立的、毫无关联的。Word2vec 频(Term Frequency),IDF逆向文件频率(Inverse 词向量是根据词汇所在上下文计算出的,充分捕获 Document Frequency)。TF表示词条在文档d中出 了上下文的语义信息。针对word2vec模型无法区分 文本中词汇的重要度问题,进一步借助TFIDF算法 现的频率。 IDF的主要思想:如果包含词条f的文档越少, 计算短文本中词汇的权重,提出加权word2vec分类 也就是 越小,IDF越大,则说明词条f具有很好 模型,将得到的微博文本词向量作为特征向量训练 的类别区分能力。 分类器,从而预测待测试微博的情感极性。 词频(Term Frequency,TF)表示某一个给定 2.1 Word2vec模型 的词条ti在文档 中出现的频率,该词汇ti的TF Word2vec是Google在2o13年年中开源的一款 公式为: 将词表征为实数值向量的高效工具。它利用深度学 ni ,j (3) , 习思想,通过训练把对文本内容的处理简化为 维 向量空间中的向量运算[1 ,而向量空间上的相似度 其中,,z‘ 是词 在文件 中的出现次数,而 可以用来表示文本语义上的相似度。换个思路,把 分母∑ √则是在文件 中所有字词的出现次数 词当做特征,那么word2vec就可以把特征映射到 之和。 逆文档频率(Inverse Document Frequency,IDF) ・503・ www.txjSZZ.corn 通信技术 是一个词语普遍重要性的度量,某一给定词语 的 IDF为: …. 文本分类前,一般要经过去停用词等预处理技 术。停用词主要包括英文字符、数字、数学字符、 z i-Iog ■■ 可 ’1DI ti∈ 川 (4) 其中, l表示语料库中的文件总数,I{j:ti∈4}1 表示包含词语 的文件数目(即n“≠0的文件数目)。 标点符号以及使用频率特别高的没有实际意义字符 的单汉字如“的、在、和”等。移除文本中的停用词, 能改善文本分类效果 。 如果该词语不在语料库中,就会导致分母为零。因 此,一般情况下使用l+l{j:ti∈ }I。 词汇 的TFIDF权重为: 3实验结果与分析 3.1实验数据 Oqdfj= ̄,j*idf (5) 实验训练word2vec模型的语料,来自中文维 2.3加权word2vec情感分析 Word2vee情感分类方法解决了分类词间的语义 关系,却忽略了词汇的重要程度;TFIDF解决了词 汇的重要程度,却忽略了词汇间的语义关系。基于 此,本文采用基于TFIDF加权的word2vec情感分 类方法,以期提高微博情感分类的准确率。 设有训练语料词典vocab和文档 =(W ,W2,… wj),N是词向量维度: voeab={tili∈1…Ⅳl (6) 首先,使用word2vec中默认的Skip_gram模型 训练语料,用训练得到的word2vec模型计算文档 中各词汇的word2vec向量。累加文档 中每个词 汇的词向量得到 的向量表示为尺( : R(d )= word2vec(t)where t∈d,(7) 其中word2vec(t)表示词汇 的word2vec词向量。 然后,根据实验微博语料训练TFIDF模型, 计算每条微博中词汇的TFIDF权重,将词汇的 word2vec词向量乘以对应TFIDF权重得到加权 word2vec词向量。累加文档词汇的加权word2vec词 向量,得到文档 新的向量 ( : W—R(d,)= word2vec(t)×t ̄afij(8) 将得到的微博文本向量作为特征训练分类器, 从而预测待测试语料文本的情感极性(积极和消极)。 很多研究表明,与其他分类系统相比,SVM在分类 性能上和系统健壮性上表现出很大优势 ,因此 实验选用SVM作为分类工具。 SVMperf是SVMlight的开发者Thorsten Joachims在SVMlight的基础上采用更优化的内核算 法得到的新型分类模型。SVMperf相较于SVMlight 具有3点优势:分类速度更快、分类精度更高、适 合大数据集。因此,本文采用SVMperf ̄)ll练测试语料。 基百科网站下载的、常用的、未处理的词条正文数 据集。情感分析采用来自网络中已有的用户微博情 感分析语料,去重后保留6 000条数据,包括3 000 条积极微博和3 000条消极微博。测试数据原始微 博,如表1所示。为了进行实验,将积极和消极的 数据集各分为两份,其中80%作为训练集,余下 20%作为测试集。 表1实验数据 今天手机报上那个王宝强的哪吒造型,彻底笑喷了… 太美啊!太感谢了!为庆贺海棠花儿们的新据点诞生, 小宣特此冒死献出独家私房女超人美国太浩湖美图,望 千丌花儿们天天都开心。 股票回暖了,上午够本儿。我今天终于忍住一次没有抛, 一果然,下午继续飘红。 社飘飘龙巴厘岛#哦,特别佩服那位帅哥~,/@飘飘龙 品牌:回复@闫小东:老鼠,,,我以前还养过二只 小老鼠呢,嘿嘿//@飘飘龙品牌:看着怕怕的~很怕蛇 最讨厌下雨,最讨厌变冷,最讨厌阴霾,啊…,总之 这样天气的珠海,我最最最讨厌了! 蝴蝶效应?关我们什么事JLn ̄???难道韩国人过来收 购白菜啊?太思密达鸟韩国泡菜危机使我国部分地区白 。 菜大涨价。 似牙龈肿痛,连带着整个半边腮帮子还有脖子一侧都很疼, 嘴只能张开~公分,水果、米饭、好吃的菜一概吃不了, 我只能喝稀饭度日了。哭求大伙儿献出良方搭救搭救我 吧!1 3.2评价标准 本文情感分类的评价指标采用精度(Precision)、 召回率(Recal1)、F—score。表2是两分类分类器 的混淆矩阵(Confusion Matrix),其中TP(True Positive)表示实际为正类、预测也为正类的文本数 量;FN表示实际为正类、预测为反类的文本数量; FP表示实际为反类、预测为正类的文本数量;TN 表示实际为反类、预测也为反类的文本数量。 第50卷 李锐,张谦,刘嘉勇:基于加权word2vec的微博情感分析 表2混淆矩阵 表4对比实验结果 第3期 准确率定义为: precision= 1P FP (9) 召回率定义为: recall= TP+FN (10)、 。 从实验结果可以看出,基于加权word2vec和 实际应用时,需要平衡准确率和召回率。通常, 使用两者的调和平均数作为一个综合的评价指标, 称之为F—score: F一,一 SC0re = =———_precl:——————————————一 slon + recal1 (11)l 3.3微博情感分析 实验训练word2vec模型,将下载的维基百科 语料经过中文繁体转简体、文本中噪音过滤等处 理后,经ICTCLAS分词,共提取出词汇672 135个。 word2vec模型参数向量维度为400,窗口大小为 20,其他参数都为默认。 实验针对微博语料,先删除非用户微博内容, 保留用户个人的微博正文;采用ICTCLAS分词后, 将各条微博文本分词去停用词。测试数据处理前后, 对比如表3所示。 表3测试数据处理前后对比 原始微博文本 …………………一飘撼品牌; 一看着怕怕的-i屋怕蛇, ,………… 处理后微博文本特别佩服那位帅哥 将处理后的微博文本作为语料训练TFIDF模型。 先计算微博文本中各个词汇的TF值及该词汇在语料 中的IDF值,相乘后得到文本中各词汇的TFIDF权 重。然后,使用训练得到的word2vec模型计算词汇 的word2vec向量,将词汇word2vec词向量乘以对应 的TFIDF权重,得到加权word2vec词向量,累加加 权wol ̄12vec词向量表示每一条微博文本。 ‘ 将微博文本的加权词向量作为特征向量,采 用SVM情感分类算法训练分类器,对已标注的情 感数据进行分类预测。为了测试该方法的性能, 先采用TFIDF和未加权的word2vec方法对微博 数据进行情感分类,再采用基于TFIDF加权的 word2vec方法分类并对比情感分类效果,对比结 果如表4所示。 SVM的情感分类方法取得了较好的分类效果。 TFIDF模型忽略了词汇间的语义关系;word2vec模 型的分布式词向量及联系上下文的特点能很好地解 决微博文本特征稀疏等问题,但不能解决模型中词 汇的权重问题。因此,本文结合TFIDF模型,提出 加权word2vec模型,通过文本分类来分析微博内 容的情感倾向。从实验结果可以看出,与TFIDF、 word2vec模型相比,加权word2vec模型在分类精确 率、召回率、,值和正确率方面都有所提高。 4结语 对比已有的情感分析方法,加权word2vec方 法主要根据词汇间的语义信息和词汇在语料中的权 重,采用SVM的分类方法,对微博内容进行训练 分类,取得了较好的实验结果。如果能考虑到微博 之间的文本相似度,相信能取得更好的情感分析结 果,这有待后续进一步的研究和实验。 参考文献: [1】杨立公,朱俭,汤世平.文本情感分析综述[J].计算 机应用,2013,33(06):1574—1607. YA NG Li-gong,ZHU Jian,TANG Shi-ping.Review on Text Emotion Analysis[J].Journal of Computer Applicatio as,2013,33(06):1574—1607. [2 魏耩,向阳,陈千.中文文本情感分析综述[2]J].计算 机应用,201 1,31(12):3321—3323. WEI Wei,XIANG Yang,CHEN Qian.Survey on Chinese Text Sentiment Analysis[J].Journal of Computer Applicat ions,2011,3l(12):3321—3323. [3】黄胜.Web评论文本的细粒度意见挖掘技术研究【D】. 北京:北京理工大学,2014. HUANG Sheng.Research on Fine—grained Opinion Mining Technologies of Web Review Texts[D]. Beijing:Beijing Institute of Technology,2014. [4]Turney P D,Littman M L.Measuring ̄aise and Criticism: Inference of Semantic Orientation from Association[J]. ・505・ www.txjszz.com 通信技术 2017矩 AcM Transactions on Information Systems(TO [13]侯艳钗.基于词语权重的中文文本分类算法的研究 . 天津:河北工业大学2o11. HOU Yan-chai.Term Weight—based Chinese Text IS),2003,21(04):3 15-346. 【5】李寿山,李逸薇,黄居仁等.基于双语信息和标签 传播算法的中文情感词典构建方法『J1.中文信息学 报,2013,27(06):75—82. LI Shou-shan,LI Yi—wei,HUANG Ju-Ren,et a1.Constrn- ction of Chinese Sentiment Lexicon using Bilingual Classiifcation Algorithm[D].Tianjin:Hebei University of Technology,201 1. [14】Lilleberg J,Zhu Y,Zhang Y.Support Vector Machines and Word2vec for Text Classificati0n with Semantic Information and Label Propagation Algorithm[J].Journal of Chinese Ifornmation Processing,2013,27(06):75—82. Features[C】.Cognitive Informatics&Cognitive Computing(ICCI cc),2015 IEEE 14th International 【6】张靖,金浩.汉语词语情感倾向自动判断研究[J].计 算机工程,2010,36(23):194—196. ZHANG JingjIN Hao.Study on Chinese Word Sentiment Polarity Automatic Estimation[J].Computer Engineeri ng,2010,36(23):194—196. 【7】杨经,林世平.基于SVM的文本词句情感分析【J]. 计算机应用与软件,201 1,28(09):225—228. YANG Jing,LIN Shi-ping.Emotion Analysis on Text Words and Sentences based on SVM[J].Computer Applications and Software,201 1,28(09):225—228. 【8】Pang B,Lee L,Vaithyanathan S.Thumbs up?:Sentiment Classiifcation Using Machine Learning Techniques[C]. Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics,2002:79-86. [9】李素科,蒋严冰.基于情感特征聚类的半监督情感分 类【J】.计算机研究与发展,2013,50(12):2570—2577. IJ Su—ke.JIANG Yan—bing.Semi—Supervised Sentiment Classiifcation based on Sentiment Feature Clustering[J]. Journal of Computer Research and Developme nt,2013,50(12):2570-2577. 【10】陈昀,毕海岩.基于多特征融合的中文评论情感分类 算法【J】.河北大学学报:自然科学版,2015,35(06):651— 656. ’ CHEN Yun,BI Hai-yan.A Sentiment Classification Algorithm of Chinese Comments based on Multi Features Fusion[J].Journal of Hebei University(Natura1 Science Edition),2015,35(06):65 1-656. 【1 1】Zhang D,Xu H,Su Z,et a1.Chinese Comments Sentiment Clsasiifcation based on Word2vec and SVM Pert[J1.Expert Systems with Applications,2015,42(04):1857-1863. 【l2】施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J]. 计算机应用,2009(S1):167—170,180. SHI Cong-ying,XU Chao-jun,YANG Xiao-jiang.Study of TFIDF Algorithm[J].Journal of Computer Applications,2009 fS1):167—170,180. Conference O1q,2015:136—140. 【l5】Wolf L,Hanani Y,Bar K,et a1.Joint Word2vec Networks for Bilingual Semantic RepresentationslJJ. International Journal of Computational Linguistics and Applications,2014,5(01):27-44. 【16】苏增才.基于word2vec和SVMperf的网络中文文 本评论信息情感分类研究【D】.石家庄:河北科技大 学,2015. SU Zeng-cai.Research on Sentiment Classiifcation for Chinese Online Comment Texts based on word2vec and SVMped[D].Shijiazhuang:Hebei University of Science& Technology,2015. 【17】Mikolov T,Chen K,Corrado G,et a1.Efifcient Estimation of Word Representations in Vector Space[J].Computer Science,2013,25(05):213-219. 【18】徐易.基于短文本的分类算法研究[D】.上海:上海交 通大学,2010. XU Yi.Research of Text Classiifcation Algorithm based on Short Text[D].Shanghai:Shanghai Jiaotong University,2010. 【19】李玲俐.数据挖掘中分类算法综述【J】.重庆师范大学 学报:自然科学版,201 1(40):44—47. LI Ling-li.A Review on Classification Algorithms in Data Mining[J].Journal of Chongqing Normal University(Naturla Science),201 1(40):44-47. 【20】Patel B,Shah D.Signiifcance of Stop Word Elimination in Meta Search Engine[C].Intelligent Systems and Signal Processing(ISSP),2013:52-55. 作者简介: 一 研究方李张刘向嘉为锐谦勇数(据19挖6872掘-一、)信, 息男,博士,教授,男安,全硕博; 士,主要 主要研究方向为信息安全理论与应用、 网络信息处理与 信息安全、大数据分析。