把twitter當成知識分享的寶庫?先停下腳步想一想!

有許多人使用twitter來接收有用的資訊,透過好文章會不斷的被分享、RT的原則,我們應該很容易在twitter上面找到許多被群眾所推薦的【有用連結或內容】。如果你也是這樣想,不如讓我們先來看一個統計數據:

根據pear analytics這家公司的統計,有40%的tweets是【Pointless Babble】,超過三分之一的tweets是使用者無意義的自言自語!有37.5%的tweets是屬於【Conversational】的,也就是像傳統IM軟體一樣,是一問一答的聊天形式。換言之,接近八成的tweets可能都是沒有意義的【noise】!

他們是怎麼統計出這些數據的?pear analytics蒐集了十天內,從早上十一點到下午五點的資料(總共2000個tweets),並且將這些資料分成六大類:

  • News:新聞tweets
  • Spam:垃圾tweets
  • Self-Promotion:公司行號、產品、服務的tweets
  • Pointless Babble:無意義的自言自語。(例如:我今天早餐吃了7-11的三明治+豆漿)
  • Conversational :使用者之間的一問一答。
  • Pass-Along Value:有RT的tweets


這是他們統計出來的結果:


首先我必須詬病一下他們的實驗。這個樣本也太少了吧!你一天才取200個樣本,平均一個小時取不到20個。以twitter如此龐大的資料量來說,說服力實在稍嫌不足。

好吧,我們這裡不是要探討在做統計分析的時候需要取多少樣本才達到信效度。撇開這個不談,這個統計顯示出來的問題是【這些social network application有過多的雜訊在其中】。不管是twitter或是plurk,這些服務本來開發出來的目的就是讓使用者可以在上面murmur一下,輕輕鬆鬆的使用就好,搞什麼研究、統計這樣嚴肅的話題呢?不過由於這樣使用輕鬆、快速的特性,使得這些服務除了這些看似無意義的內容之外,還多了許多寶藏在其中。除了使用者會在上面分享一些有用的連結,並且好的內容會被不斷不斷的分享出去之外,還有許多的想像空間在其中。最近我的研究方向也是從Plurk的Data中,嘗試去cluster user的sentiment,透過不同的sentiment  tendency,來找出群眾對於某個事件或產品的反應。從這個角度出發去思考,這些Conversational、Pointless Babble的發言搞不好對我來說就是很有用的data resource 了。當然這當中有許多問題要克服的,比如說要如何利用NLP的方法來判斷詞性,盡量找出每個字詞應該屬於的詞性組,還有必須要過濾掉沒有用的noise...等等。總之光前置處理(Data Pre-Processing)就很頭大了阿:P

說到這裡有點離題...。在我們把twitter或plurk這類服務當成我們吸收資訊的來源時,我們必須要想一想有沒有比較有效率的方式來閱讀,把這些【散出去】的訊息【聚集】成一些有更有意義的分類,透過聚集的動作來閱讀,是比較有效率的方法。這樣的閱讀方式可以參考下列文章:


對於這些Social Network Services如果你有什麼想法,也歡迎分享討論:)

【相關閱讀】
TWITTER ANALYSIS: 40% of Tweets Are Pointless Babble
從twitter幾個有趣的應用,看即時搜尋(Real-Time Search)和資訊整合的重要性!

Share this post!

Bookmark and Share

0 意見: