“关键词”提取都有哪些方案?

发布网友

我来回答

3个回答

热心网友

仅从词语角度分析,1.2句banana是重复出现的,3.4句kitten是重复出现的。但其实可以发现1.2句主要跟食物有关,3.4句主要跟动物有关,而food、animal两个词在四句话里均未出现,有没有可能判断出四句话中所包含的两个主题呢,或者当两篇文章共有的高频词很少,如一篇讲banana,一篇讲orange,是否可以判断两篇文章都包含food这个主题呢,如何生成主题、如何分析文章的主题,这就是topic-model所研究的内容。对文本进行LSA(*语义分析)。在直接对词频进行分析的研究中,可以认为通过词语来描述文章,即一层的传递关系。而topic-model则认为文章是由主题组成,文章中的词,是以一定概率从主题中选取的。不同的主题下,词语出现的概率分布是不同的。比如”鱼雷“一词,在”军事“主题下出现的概率远大于在”食品”主题下出现的概率。即topic-model认为文档和词语之间还有一层关系。首先假设每篇文章只有一个主题z,则对于文章中的词w,是根据在z主题下的概率分布p(w|z)生成的。则在已经选定主题的前提下,整篇文档产生的概率是而这种对每篇文章只有一个主题的假设显然是不合理的,事实上每篇文章可能有多个主题,即主题的选择也是服从某概率分布p(t)的因此根据LDA模型,所有变量的联合分布为表示topic下词的分布,表示文档下topic的分布。是第m个文档的单词总数。和表示词语和topic的概率分布先验参数。而学习LDA的过程,就是通过观察到的文档集合,学习的过程。

热心网友

TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基本能应付大部分关键词抽取的场景了。对于中文而言,中文分词和词性标注的性能对关键词抽取的效果至关重要。较复杂的算法各自有些问题,如TopicModel,它的主要问题是抽取的关键词一般过于宽泛,不能较好反映文章主题。这在我的博士论文中有专门实验和论述;TextRank实际应用效果并不比TFIDF有明显优势,而且由于涉及网络构建和随机游走的迭代算法,效率极低。这些复杂算法集中想要解决的问题,是如何利用更丰富的文档外部和内部信息进行抽取。如果有兴趣尝试更复杂的算法,我认为我们提出的基于SMT(统计机器翻译)的模型,可以较好地兼顾效率和效果。以上都是无监督算法,即没有事先标注好的数据集合。而如果我们有事先标注好的数据集合的话,就可以将关键词抽取问题转换为有监督的分类问题。这在我博士论文中的相关工作介绍中均有提到。从性能上来讲,利用有监督模型的效果普遍要优于无监督模型,对关键词抽取来讲亦是如此。在Web2.0时代的社会标签推荐问题,就是典型的有监督的关键词推荐问题,也是典型的多分类、多标签的分类问题,有很多高效算法可以使用。看你主要提取什么文本的关键词,曾经在微博上试过TF-IDF,LDA和TextRank,感觉LDA在短文本上完全不靠谱,在文档级应用上应该可以(没试过,这方面的论文应该很多。

热心网友

讲两个灰常牛*的算法。这才是大数据好伐。能够识别一个query里面哪些是关键term,哪些是比较弱的term。假如来了一个query,那么我们要判断里面的哪个词是关键词,我们会给每一个term都打一个分(termweight),分高的就是关键词,分低的就是垃圾词。那么这个分怎么来打比较合理呢,下面讲两个算法,都是基于海量数据统计的(query数目大约60亿);上下文无关的weight算法一个term单独出现的频次越高,而且和其他term搭配出现的机会越少,那么我们可以肯定,这个term表达意图的能力越强,越重要。所以有公式:一看就知道是一个迭代的公式。初始化的时候,每一个query的所有term权重之和等于1,所以每一个term的权重就是1/m;m是当前query的term数目。上下文有关的weight算法。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com