當(dāng)前位置: 首頁 > 設(shè)計知識 > 企業(yè)官網(wǎng)設(shè)計 > 解析google和百度兩個關(guān)鍵詞的相關(guān)度
通常對于文本信息之間得相關(guān)性得計算都是采用向量的辦法,我在以前的PPT里曾經(jīng)提到過。然而對于文本信息更深層次的分析不能單純從字面上分析一篇文章的關(guān)鍵詞,更重要的是它隱含的擴展的意義。
傳統(tǒng)的關(guān)于計算文本相關(guān)度和【網(wǎng)頁和查詢的相關(guān)性】的計算都是采用匹配的方式進行的,然而這只能是基于字面意義上的統(tǒng)計計算。這里介紹的做法是采用關(guān)鍵詞相關(guān)性擴展的做法從而得到更加精確的相關(guān)度計算。
例子:
文章 A: 談?wù)摰氖谴髮W(xué)教育,最高頻的關(guān)鍵詞是:學(xué)生[3],學(xué)習(xí)[2],大學(xué)[2]
文章 B: 談?wù)摰氖瞧胀ń逃罡哳l的關(guān)鍵詞是:教育[5],教師[1],進修[1]
[]里是相對的權(quán)重,可以理解成 TF*IDF
根據(jù)傳統(tǒng)的相關(guān)性計算,我們會得到如下的結(jié)果:
1. 文章A 與 文章B 不相關(guān)
2. 查詢 學(xué)生,學(xué)習(xí),大學(xué)只能返回文章A,不能返回文章B
3. 查詢 教育,教師,進修只能返回文章B,不能返回文章A
分析:
這個顯然是有一定的問題的,問題的出現(xiàn)在于我們通常將“字面”的意思做為分析的來源而且依靠和僅僅依靠這些“字面”的關(guān)鍵詞做為文章相關(guān)性和查詢相關(guān)性判斷的唯一要素。
如何避免?
我在以前的文章中提到過【關(guān)鍵詞相關(guān)度】的概念,舉例說明:
當(dāng)出現(xiàn):{學(xué)習(xí)}這個詞匯的時候,真實的表達的意義往往是這樣的:
{W1*學(xué)習(xí),W2*教育,W3*教師,W4*大學(xué)。。。。。。}
其中W1,W2...是學(xué)習(xí)和相關(guān)詞匯的相關(guān)權(quán)重。
基于這樣一個矩陣,我們就能夠?qū)⒁粋€詞擴展成為一組詞匯,因而也同時可以將文章所對應(yīng)的向量擴展成一個更多詞匯的集合。
這里的計算需廣州網(wǎng)站設(shè)計要一個完整的相關(guān)度矩陣:M
M(i,j) = {關(guān)鍵詞i,j的相關(guān)度}
而兩篇文章的相關(guān)度的計算,也由簡單的
R= Sigma Vi*Vi
變?yōu)?br>R= Sigma Vi*M(i,j)*Vj
查詢關(guān)鍵詞和文章的相關(guān)度也由簡單的
R(i)=TF(i)*IDF(i)
變?yōu)?br>R(i)=Sigma TF(j)*IDF(j)*M(i,j)
下面碰到一個核心問題就是:關(guān)鍵詞之間的相關(guān)度如何計算?
例如:學(xué)校和學(xué)生的相關(guān)度是多少?
計算方法:
假設(shè)一個文章集合 {C},總文章數(shù)目為N,其中含有單詞A的文章總數(shù)為Na,含有單詞B的文章總數(shù)是Nb,含有{A+B}的文章總數(shù)是 Nab,那么相關(guān)性這么計算
CorrAB= Nab/(Na+Nb-Nab)-(Na*Nb)/(N*N)
本計算中可能會得到負相關(guān),如果考慮到Na,Nb都是小量,可以忽略,那么
CorrAB= Nab/(Na+Nb-Nab)
至此,要計算相關(guān)度之間的全部要素都獲得了。
思考,那么到底 學(xué)校 和學(xué)生 之間的相關(guān)度是多少呢?
我們利用google來回答這個問題吧:
約有91,700,000項符合學(xué)校的查詢結(jié)果
約有88,200,000項符合學(xué)生的查詢結(jié)果
約有48,900,000項符合學(xué)廣州網(wǎng)站設(shè)計生 學(xué)校的查詢結(jié)果
Corr{學(xué)校,學(xué)生}=48,900,000/(91,700,000+88,200,000-48,900,000)=0.37
這個原理我以前應(yīng)用在了計算【網(wǎng)頁信噪比】上,和網(wǎng)頁信噪比一起成為衡量一個網(wǎng)頁的關(guān)鍵詞的核心算法。
這也就是為什么6e的網(wǎng)頁信噪比能夠不依靠網(wǎng)頁上現(xiàn)有的關(guān)鍵詞而準(zhǔn)確的判斷網(wǎng)頁的分類和相關(guān)度,是因為除了TF和IDF之外,我們能夠從已有的文本集合里學(xué)到更多的“知識”。
那么百度和google的相關(guān)度應(yīng)該不難計算了:
利用 google計算得到:2,950,000/(61,800,000+6,370,000-2,950,000)=0.03
利用 baidu計算得到:2,760,000/(21,700,000+12,200,000-2,760,000)=0.08
看來基本上相關(guān)度小于10%。
版權(quán)聲明:以上文章信息來源于網(wǎng)絡(luò),等僅代表原作者本人的觀點。除了已經(jīng)標(biāo)注原創(chuàng)的文章外,其它文章版權(quán)和文責(zé)屬于原作者。文章中出現(xiàn)的商標(biāo)、專利和其他版權(quán)所有的信息,其版權(quán)屬于其合法持有人。對可以提供充分證據(jù)的侵權(quán)信息, 我們將在確認后的1小時內(nèi)刪除。
本網(wǎng)站之聲明以及其修改權(quán)、更新權(quán)和最終解釋權(quán)均屬廣州古柏廣告策劃有限公司所有。
下一篇:怎樣選擇關(guān)鍵詞
掃一掃關(guān)注古柏
GOOBAI AD.
Brand Whole Case Design
4000-882-993
shsyjz.cn
微信加好友咨詢
廣州古柏廣告策劃有限公司
地址:廣州市天河區(qū)東圃長盛商務(wù)大廈B213-215
Copyright?2004-2020 GOOBAI Inc.All rights reserved
粵公網(wǎng)安備: 44010602001481號
備案號:粵ICP備09222445號
與古柏對話
關(guān)注古柏