整個處理的流程是這樣:
- Twitter 利用 Storm(註:Storm 是 Twitter 所開發 open source 的 real-time 計算系統) 來觀察目前熱門的 query term。
- 等到目前的 query term 到達一定量時,利用 Thrift API 把這些 term 丟到 Amazon Mechanical Turk 服務。
- Amazon Mechanical Turk 會把結果回傳回來,這時候 Twitter 再把結果丟到其原本的 backend 去處理,如此一來,即使是最新的 query term,使用者也有辦法找到其相關的資訊。
Twitter 也提到,他們在很多方面都使用 human computation 來幫助他們改善整個系統,包括在計算廣告的相似度和搜尋的品質上。
而 human computation 又是怎樣來 evaluation 每個 query term 呢?在這篇文章也有解釋:每個人會被問幾個可能的問題,包括:
- 這個 query 是屬於哪個類別?
- 這個 query 是代表一個人嗎?
- ...等等
另外值得一提的是,Twitter 對於所挑選的 "評審" (他們用 judge 來表示每個幫助他們 check query term 的 human resource) 也不是隨機亂挑的。有興趣的可以參考原文。
很好奇的是,不知道像 Twitter 這樣的流量,需要 hire 多少人來幫他們看呢?
3 意見:
我很期待 FB 的 Graph Search
之後搜尋的不只是資料,還包括社交資訊 XD
社交資訊指的是什麼?如果analytics自己寫應該現在就可以挖到一些有趣的東西了吧XD
kevingo~ Storm那玩意兒 你有研究嗎? 看來很有趣
張貼留言