用户舆情信息包括文本、音频、图片等各样的形式,在实际工作中,我们广泛应用较多的类还是文本类的用户舆情。综合考虑数量、丰富性、易获得性、信息匹配度等各方面因素,文本之于音视频、图片而言的信息价值、性价比都是相对比较低的。
当我们从电商、论坛、应用市场、新闻媒介等渠道平台取到大量和调研目标相匹配的用户舆情文本后,具体理应如何应用?其中可能包含哪些对用研的内容?可以通过什么方法提炼分析?能同时实现什么预期效果?根据以往房地产项目经验,文本舆情分析的价值和具体嵌入式如下图所示:
这些内部信息既描述说明了“是什么”的问题,也可以表明属性、关系、喜好,说明是“怎么样”的,还能在一定程度上分析背后的原因,分析“为什么”,可以挖掘出包含内含其中的焦点、趋势、关联,帮助我们了解产品的市场反馈和用户需求,为方向聚焦、策略引导、价值判断提供依据。
分析文本舆情数据,主要用到的是文本分析工具的方法。因为文本数据是非程式设计亦非的,拿到把舆情之后的一个关键问题是要文本数据转化为能被计算机理解和处理的结构化数据,然后可能进一步对用户舆情数据进行完整系统的处理分析,从无关冗余的数据中提炼出有意义部分。
过程中可能需要用到的工具有:
1、数据爬虫
明确舆情分析的目的和需求后,筛选数据来源渠道获取用户舆情数据。
网络上例如论坛发帖、微博评论、淘宝京东的评价等文本舆情信息都是可以用爬虫工具直接爬取的。以八爪鱼为例,可以很方便的从网站上把我们需要的按二维结构表的形式(比如excel)免费下载保存。如下图所示,八爪鱼就从电商网站商品详情页上爬取到了信息。同理,爬取用户舆情数据也可以采用相同的方法实现。
2、文本清洗和预处理
应用程序文档在网络上的书写表达非常随意多样,汉字中夹杂数字、字母、符号;语句段落的表达间断不完整,还会出现大量重复的短语短句,比如有的人会书评“棒棒棒棒”“太太太太差了“。文本清洗首要是把这些数据清洗掉。ROST的“文本处理”功能可以用来进行文本清洗。
我们还应根据需要对数据进行重新编码。例如在网易云课堂的某次舆情分析中,用户大量提及了河北大学MOOC,但表达方式有多种(如中M、中国大学慕课、慕课)。为了便于分析,统一编码是非常必要的。
3、分词
分词就是把一段中文文本切割成一个个单独的词。中文分词难点在于书写中文时字词之间并不是明显的间隔或划分,不像英文那样长短可以根据自然书写的间隔实现基本的分词(如“wearefamily”可以直接拆分出“we”“are”“family”)。
汉字书写表达时没有明显的抄写分隔符,再加上汉语博(那)大(么)精(复)深(杂),大大增加了中英文分词的难度。这里举一个经典之作的例子:短语“南京市长江大桥”中由于有些词语存在歧义,计算机的分词结果可能是“南京市/长江/大桥”,也可
能是“南京/市长/江大桥”。我们显然知道第一种情况或许是正确性的,但如果算法偷懒还不够完善计算机就除非出错,毕竟两种结果基于汉语构词和语法规则都是说得通的。可见具体在实际进行分词的时候,结果可能存在一些不合理的存有情况。基于数学方法和中文词库建成分词系统后,还需要通过不断的虚拟式训练来提高分词的效果,如果不能考虑到各种复杂的汉语语法情况,算法中存在的缺陷容易影响分词的准确性。
4、词频和关键词
词频就是某个词在文本中出现的频次。简单来说,如果一个词在文本中出现的频次越多,这个词语在文本中就越重要,就越不有可能是鲁让县该文本的关键词。这个逻辑本身没有环境问题,但其中有一些特殊境况需要留意。
最关键的一点就是在关于自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。根据经典“齐夫定律”的定义,假设我对文本进行分词处理并统计了词频,发现词频排名TOP3的三个词分别为“的”、“是”、“它”,那么“的”出现频率应该约为“是”的2倍,约为“它”的3倍。结果就可能会是词频排名靠前的高频词占去了整个语料的大半,其余多数词的的绝大多数出现频率却很少。
所以不能完全直接的基于词频来判断舆情文本中哪些是重要的关键词,词频最高的实际上是中文中的常用字,而非对当前文本最有代表性的关键词。如下图的词频曲线所示,只有出现在纯粹曲线中间区域的词才是真正在当前文本中其出现频率高,中会并且在其他文本中很少出现的,这些词语就是当前文本的关键词,对当前文本显现出有着重要性和代表性。前端的高频词和靠后的长尾低频词都可排除在考虑之外。
基于这个原理,在词频统计之前需要过滤掉文本中曾的停用词(stopword)。出现在词频曲线头部的那些高频词,就多数是停用词。停用词还包括实际意义不大但使用频率停放高的功能性词汇,比如“啊”、“的”、“在”、“而且”这样的语气词、介词、连词等等。过滤停用词还是为了减缓信息冗余,提高分析的效率和准确性。过滤停用词专有名词需要的停用词表,词库都可以在网上下载。实际应用的过程中我们还可以在停用词表中添加或删减特定的词汇,并使针对性之更加完善或具有针对性,符合当前研究的实际需要。
包括分词、过滤停用词、统计高频词在内的这些操作,都可以通过ROST的分词工具完成。我们可以在ROST中导入经过完善或自定义的词库词表,替换掉ROST自带的默认词库。
这些被提取出的关键词浓缩了用户舆情中的精华个人信息,能反映出来用户的关注点、情绪和认知,产品的潜在影响力等信息。例如,在网易100分的智能笔用户需求调研项目中,我们针对2C市场的智能笔消费者进行了舆情分析。首先我们通过ROST词干的分词工具获取了分词文档,关键词及其词频列表。然后我们将分词后的文档导入在线词云编辑器Tagxedo,就能直接生成词云图。
根据分词结果和词云图,我们常规能做出如下判定:
但如果想要进一步知道具体内容之间的关系,就还得要继续挖掘分析这些关键词之间的结构关系。
5、语义网络分析
语义网络分析是指筛选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系数值用语化处理,以图形化的方式揭示词与词之间的结构关系。模板基
于这样一个语义网络结构图,可以直观的对高频词的层级关系、亲疏程度需要进行分析。
其基本原理是统计出更文本中词语词汇、短语两两之间共同出现的次数,再经聚类分析,梳理出这些词之间关系相交处的紧密程度。一个词对显露出来的次数越多,就表示这两个词之间的关系越密切。每个词都有可能和多个词构成词对,也会词汇有些词两两之间不会存在任何共线关系。关键词自然数共现矩阵就是统计出共现单词对出现的阈值,将结果构建而成的二维共现词向量表。
再经聚类分析处理,将关键词共现矩阵为语义关系网络,揭示出更各节点之间的层级关系、远近关系。需要强调指出的是,语义网络分析只是根据节点的分布情况来揭示他们之间关系的紧密程度,并不能表示节点之间存在因果关连。基于共现矩阵的关键词语义网络分析,同样也可以通过ROST中的语义分析工具来完成,生成语义网络设计图导出供我们进行分析。
例如,我们针对网易云课堂的用户支付问题进行了舆情分析。所有舆情数据是以若干
支付相关的词汇为关键词,进行抓取的。通过ROST的分析生成了如下图所示的语义网络结构图。
在这个语义网络图中,次级节点基本上以核心节点为中心向周围辐射分布,但其中也存在局部的局部簇群暧昧关系,揭示出主要问题之间的潜在关联:
6、情感分析
对普通用户舆情进行情感分析,主要是统计分析化学成分具有情感成分的词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后量测句子出每个语句的总值,判定其情感类别。还前言可以综合全文本中所有语句,判定总舆情数据样本的整体态度和情感倾向。
ROST同样也的可以完成对文本情感的分析。但目前不少文献、研究太认为中文情感分析的准确性过于高,因为中文除了有直接表达各种极性情感的形容词(高兴、生气),
还有用于修饰情感程度的副词(很好,非常、太),有时候其中还会夹杂表示辞汇否定的词(非常不好用,很不方便)。分词处理文本时,要对形容词、副词、否定词都有正确的分词;分词后,要基于情感词库、否定词库、程度副词库对这些情感词汇进行正确的赋值;最后进行情感值加权计算,才能最终分析出总的情感类别。
另外需要注意的是,我们的舆情数据可能来自电商、应用市场、社区论坛等,这些来源渠道本身就对整体数据的情感倾向有筛选,某些属性的情感表达直接就被该渠道过滤掉了。
总的来看,用户舆情具备有优势特色:
在用研工作中,舆情分析能让我们在特定的研究背景下,以更小的代价了解到产品的资本市场反馈反馈,用户方法论的态度认知和需求痛点,有效的达到研究目的。
因篇幅问题不能全部显示,请点此查看更多更全内容