寫作業會用到,先把學到的記錄一下以免忘記...。
TF-IDF常被用在Data Mining相關的領域上,用來計算某個字詞在文章中的相對重要程度。
字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著出現在越多文章中而下降。這是很正確的想法,舉個例子來說:
假設我們要找的詞是:【演算法的範例】。正常來說,我們按照段詞切字的法則應該會把這個字串切割成三個短詞【演算法】【的】【範例】。
假設【演算法】在文章A中出現10次、【的】出現100次、【範例】出現30次,文章A總共有1000個詞,則三個短詞的TF(Trem Frequency)分別是0.01、0.1和0.03。
如果我們資料庫中總共有10000篇文章,【演算法】總共出現在15篇文章、【的】出現在10000篇文章、【應用】出現在5000篇文章,則IDF分別是:2.82、0、0.30。
TF-IDF常被用在Data Mining相關的領域上,用來計算某個字詞在文章中的相對重要程度。
字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著出現在越多文章中而下降。這是很正確的想法,舉個例子來說:
假設我們要找的詞是:【演算法的範例】。正常來說,我們按照段詞切字的法則應該會把這個字串切割成三個短詞【演算法】【的】【範例】。
假設【演算法】在文章A中出現10次、【的】出現100次、【範例】出現30次,文章A總共有1000個詞,則三個短詞的TF(Trem Frequency)分別是0.01、0.1和0.03。
如果我們資料庫中總共有10000篇文章,【演算法】總共出現在15篇文章、【的】出現在10000篇文章、【應用】出現在5000篇文章,則IDF分別是:2.82、0、0.30。
用一般的想法來思考,【演算法】這個詞應該是我們最重要的搜尋詞、接著是【應用】,最不重要的是【的】。因為【的】實在是太常出現了,不可能有文章中沒有這個詞,所以從上面的計算結果可以看出其IDF是0,在計算TF-IDF的值時,即使他的TF再高,最後的結果都會變成0。【演算法】這個詞可能TF的值不是很高,但是可以利用IDF來提高它的權重,這也比較符合我們一般的思考結果。
參考資料:
【Wikipedia TF-IDF】
【數學之美 系列九 -- 如何確定網頁和查詢的相關性】
0 意見:
張貼留言