Twitter 利用 Human Computation 改善搜尋結果(Amazon's Mechanical Turk)

Twitter 最近在其 Engineer Blog 中發表了一篇 Improving Twitter search with real-time human computation,當中介紹了 Twitter 使用了 Amazon's Mechanical Turk 服務來改善搜尋引擎的精準度。


整個處理的流程是這樣:

  • Twitter 利用 Storm(註:Storm 是 Twitter 所開發 open source 的 real-time 計算系統) 來觀察目前熱門的 query term。
  • 等到目前的 query term 到達一定量時,利用 Thrift API 把這些 term 丟到 Amazon Mechanical Turk 服務。
  • Amazon Mechanical Turk 會把結果回傳回來,這時候 Twitter 再把結果丟到其原本的 backend 去處理,如此一來,即使是最新的 query term,使用者也有辦法找到其相關的資訊。
Twitter 也提到,他們在很多方面都使用 human computation 來幫助他們改善整個系統,包括在計算廣告的相似度和搜尋的品質上。

而 human computation 又是怎樣來 evaluation 每個 query term 呢?在這篇文章也有解釋:每個人會被問幾個可能的問題,包括:
  • 這個 query 是屬於哪個類別?
  • 這個 query 是代表一個人嗎?
  • ...等等

另外值得一提的是,Twitter 對於所挑選的 "評審" (他們用 judge 來表示每個幫助他們 check query term 的 human resource) 也不是隨機亂挑的。有興趣的可以參考原文。

很好奇的是,不知道像 Twitter 這樣的流量,需要 hire 多少人來幫他們看呢?

Share this post!

Bookmark and Share

3 意見:

彭其捷 提到...

我很期待 FB 的 Graph Search
之後搜尋的不只是資料,還包括社交資訊 XD

Unknown 提到...

社交資訊指的是什麼?如果analytics自己寫應該現在就可以挖到一些有趣的東西了吧XD

LF 提到...

kevingo~ Storm那玩意兒 你有研究嗎? 看來很有趣