文章詳情頁
django - python實(shí)現(xiàn)兩篇文章相似度分析
瀏覽:123日期:2022-08-08 10:30:47
問題描述
如題,最近有需求要做文章相似度分析,需求很簡單,具體就是對比兩篇分別300字左右的文章的相似度情況,目前查到的方法,需要先中文分詞(jieba),然后對比相似度,時(shí)間緊任務(wù)重,不知道有沒有做過類似功能的大神可以指點(diǎn)一二的
問題解答
回答1:第一步你已經(jīng)給出了,首先對文章進(jìn)行中文分詞,然后計(jì)算每個(gè)詞在兩篇文章中的tf-idf值。然后計(jì)算兩個(gè)文章的余弦相似度,可以用Python中的gensim實(shí)現(xiàn)。
有疑問請繼續(xù)提問。
回答2:補(bǔ)一下一樓的答案在食用余弦相似性或TF-IDF,應(yīng)該首先去掉停止詞。
停止詞,是由英文單詞:stopword翻譯過來的,原來在英語里面會遇到很多a,the,or等使用頻率很多的字或詞,常為冠詞、介詞、副詞或連詞等。因?yàn)楦痹~,連詞這類詞語并不會十分影響我們對語義的判斷。
但是單純的余弦相似性和TF-IDF某種情況下并不能十分的可靠。推一波自己的鏈接2333這里
建議使用textrank和以上算法進(jìn)行結(jié)合
相關(guān)文章:
1. javascript - JS設(shè)置Video視頻對象的currentTime時(shí)出現(xiàn)了問題,IE,Edge,火狐,都可以設(shè)置,反而chrom卻...2. java固定鍵值轉(zhuǎn)換,使用枚舉實(shí)現(xiàn)字典?3. 如何為每個(gè)應(yīng)用程序配置tomcat 6的logs / catalina.out。(為sys.out,sys.err配置Web應(yīng)用程序特定的日志文件)4. css - ionic中的柵格布局如何讓文字內(nèi)容多少不同的每一列中的內(nèi)容都能垂直居中?5. php自學(xué)從哪里開始?6. phpstady在win10上運(yùn)行7. java - 我設(shè)置了cookie的max age,但是cookie依然在關(guān)閉游覽器后消失了8. javascript - canvas設(shè)計(jì)鼠標(biāo)畫圖功能一筆畫出多條并行彩色線條9. 這是什么情況???10. javascript - 微信網(wǎng)頁開發(fā)從菜單進(jìn)入頁面后,按返回鍵沒有關(guān)閉瀏覽器而是刷新當(dāng)前頁面,求解決?
排行榜

熱門標(biāo)簽