tf-idf (term frequency–inverse document frequency)

寫作業會用到,先把學到的記錄一下以免忘記...。

TF-IDF常被用在Data Mining相關的領域上,用來計算某個字詞在文章中的相對重要程度

字詞的重要性隨著它在文件中出現的次數成正比增加但同時會隨著出現在越多文章中而下降。這是很正確的想法,舉個例子來說:

假設我們要找的詞是:【演算法的範例】。正常來說,我們按照段詞切字的法則應該會把這個字串切割成三個短詞【演算法】【的】【範例】。

假設【演算法】在文章A中出現10次、【的】出現100次、【範例】出現30次,文章A總共有1000個詞,則三個短詞的TF(Trem Frequency)分別是0.01、0.1和0.03。

如果我們資料庫中總共有10000篇文章,【演算法】總共出現在15篇文章、【的】出現在10000篇文章、【應用】出現在5000篇文章,則IDF分別是:2.82、0、0.30。

用一般的想法來思考,【演算法】這個詞應該是我們最重要的搜尋詞、接著是【應用】,最不重要的是【的】。因為【的】實在是太常出現了,不可能有文章中沒有這個詞,所以從上面的計算結果可以看出其IDF是0,在計算TF-IDF的值時,即使他的TF再高,最後的結果都會變成0。【演算法】這個詞可能TF的值不是很高,但是可以利用IDF來提高它的權重,這也比較符合我們一般的思考結果。

參考資料:

【Wikipedia TF-IDF】
【數學之美 系列九 -- 如何確定網頁和查詢的相關性】

Share this post!

Bookmark and Share

0 意見: