Precision and Recall - Information Retrieval


在資訊檢索或資料探勘的領域中,一個最基本的問題就是要如何衡量一個系統的效能?這裡指的系統效能是說:當我們進行一個Query時,在一個檢索或搜尋系統中,到底回傳回來的結果,是不是使用者想要的?回傳的效率有多好?
這裡介紹兩個用來評估檢索結果的方法,叫做【查準率(Precision)】和【查全率(Recall)】


先來看看定義:
  • Precision = Relevant Documents Retrieved / Total Retrieved Documents
  • Recall = Relevant Documents Retrieved / Total Relevant Docuements
從上面的公式可以看出來,Precision和Recall的分子都是Relevant Document Retrieved(抓回來的相關文章數目),差別的地方在於Precision的分母是【抓回文章的總數】;而Recall的分母則是【相關文章的總數】。


舉個例子:假設現在資料庫中有10000筆資料,和美食有關的文章有500篇。使用者在輸入美食的關鍵字後,回傳的文章有4000篇,其中有400篇是和美食有關的。

Precision = 400 / 4000 = 10%
Recall = 400 / 500 = 80%

在這裡代表的意思就是,這個搜尋引擎的查準率是10%、查全率是80%。

繼續延伸下去,如果我們要做比較細部的分析,可以將以上的兩個比率畫分成下面的四個象限:


tp : 代表文章和此query有相關,而且系統判斷正確回傳。
fp : 代表文章和此query沒有相關,但是系統判斷錯誤卻被搜尋引擎回傳。
fn : 代表文章和此query有相關,但是系統判斷錯誤沒有回傳。
tn : 代表文章和此query沒有相關,而且系統判斷正確沒有回傳。

所以我們得出:
Precision = tp / tp+fp
Recall = tp / tp+fn

其實這和統計上的Type 1 error、Type 2 error 也有相關,不過在這裡就不再多說了...,有興趣的可以到Google找找,相信會有很多資訊的。

Poisson Trial 的 動差母函數 (Moment Generating Function of Poisson distribution)

【法一】直接計算


【法二】湊出另外一個Poisson Dis.

幾何分配的動差母函數(Moment Generating Function of Geometric Distributin)

Youtube繼續朝著最佳體驗前進!


為了因應寬螢幕的普及,並且朝著最佳體驗的目標邁進,youtube把原本4:3的顯示比例改成16:9,也就是所謂符合寬螢幕的顯示比例。對比之前我提到的Threat View功能來看,youtube真的是朝著電影界的規格在走了。

延伸閱讀:

【本土化】的上網體驗


現在什麼東西都講究【本土化】,別誤會,這裡可不是要牽扯到任何有關政治色彩的東西。這裡說的本土化,指的是使用符合本地人操作習慣或生活方式的一種設計方式,根據不同地域或國家做區分,創造出最適合該地區的產品。

ReadWriteWeb的這篇報導上指出,中國地區的網民上網習慣和西方人有很大的不同:

(1)中國人上網的時候習慣只使用滑鼠,而西方人則是滑鼠和鍵盤並用
(2)中國人習慣點選自己有興趣的主題來閱讀,西方人則是利用搜尋來找相關的資訊。換句話說,中國人習慣讓資訊來找自己,而西方人習慣動手去找資訊。

根據這樣的文化差異,Firefox China Edition就此誕生。根據官方表示,Fx China Edition具有以下的四項特點:

(1) 以滑鼠為導向的操作方式,加上幾個簡易的快速鍵。
(2) 具有Maxthon瀏覽器的一些特點,比如說連點兩下可以關閉分頁。
(3) 在工具列上設置一些常用程式的下拉按鈕。比如說:計算機或記事本。
(4) 設置一個新的側邊欄(sidebar)-Live Margins。

光說不練是不行的。因此我特地下載了Fx 中國版來玩玩看。

主要新增加的套件有:

  • cpmanager:中國版插件管理器
  • fontsetter:字體管理器
  • G-Fox:G-Fox主題
  • livemargins:火狐魔鏡
  • quicklaunch:火狐捷徑
  • tabimprovelite:標簽頁管理器
  • zoompanel:快速縮放


這個就是【Live Margins】sidebar. 可以呈現:搜尋(百度)、放置視訊、放置圖片、音樂、天氣和股票等等相關的活動。



Live Margins裡面的視訊功能,可以將喜歡的影片拖曳過去,在youtube上觀看影片的時候,旁邊還會出現一個【拖】的小提示符號,十分有趣。




工具列上新增加的下拉式按鈕,可以快速啟動一些小程式。



如果想要關閉sidebar,在右上角有一個Firefox圖案的小按鈕,按一下呈現灰白色即可關閉。


另外還有一個功能是在狀態列上設置可以快速改變網頁大小的功能,不過我自己是習慣用ctrl+plus sign或用滑鼠直接縮放。


好了,測試完了之後我馬上就移除並且安裝原來的版本。別誤會,我並不是說火狐中國版不好,反而我認為這是一個新的做法、對於推廣Firefox來看,我認為是有正面的幫助的。首先,Firefox如果想要成功推廣,最重要的除了上網的正確性(這裡指的是要能夠相同大部份的網頁)之外,就是要創造一些其他瀏覽器所沒有的全新體驗,讓使用者產生黏性、讓使用者的轉換成本提高,如此一來才有助於Firefox的推廣。

另外Mozilla會首先針對中國地區提供這樣的服務,我想和這幾年來的中國熱也脫不了關係。中國地區本身的市場實在太廣大了,超過十二億的人口,雖然目前使用網路的比例不是很高,但是基數(base)夠大,所以只要提高一兩個百分比,在使用人數上就會有相當程度的提升。而且不知道在哪裡看到這樣的一句話:如果在中國市場能夠成功,那在世界上任何國家都可以成功了。(這只是我印象中有這樣的說法,just for fun)

可以預見的是,只要火狐中文版在中國地區有成功的例子之後,這樣的做法會越來越普及,入門想要體驗Firefox的使用者就會下載該地區特有的瀏覽器,而進階的使用者依舊還是會自己安裝最適合自己的瀏覽環境。

(不妨延伸思考一下:個人在打造自己最佳體驗的瀏覽器時,從某個角度來看,不也是在做【在地化】的動作嗎?只是那個範圍縮小到一個人或是少數幾個人罷了。現在火狐中文版只是把基數擴展到一個國家,針對該地區的使用方式或文化習性做一個統計,來提供這樣的在地化軟體。)

延伸閱讀:


比筆記型電腦還強大的記事本

一般我們都稱呼筆記型電腦叫做【筆電】、【notebook】、【NB】,多多少少和他的尺寸與一般A4的記事本相仿有關。相信大家都可以接受筆電的功能筆記事本強的這個道理。但是你在看過下面的影片之後,也許就會改觀了:



這應該還是用電腦後製出來的啦!只能說真是創意十足啊!


有趣的迷思

1. 誤會樣本就是母體

2. 只關注平均值而忽略變異程度

3. 過於關注短期事件而忽略長期事件

4. 高估眼前資料或低估背景資料的影響

5. 幾番曲折後忘記初始的設定

(Continued...)

LIFE Search in Google - 歷史性的圖像搜尋



一張好的圖片勝過千言萬語,從過去到現在人們建立了多少的圖片或影像恐怕是不得而知,而且有許多具有重大歷史意義或廣為人知的圖片,現在都可以在Google LIFE Image Search中找到。Google 宣稱蒐集了從1750年開始到現在的歷史照片,超過百萬張的圖片,而且還在增加中。


你可以利用年代來看照片


或是直接點選他幫你分好的類別。有人物、事件、地點...等等。


或是直接搜尋想要看的照片


如果你在Google Image中想要找LIFE資料庫中的照片,只要使用【關鍵字+source:life】這樣的規則即可,不過目前似乎不支援中文,我用【台灣 source:life】就找不到任何結果,用【taiwan source:life】就可以找到許多照片。




建議大家可以玩玩看,有蠻多有趣且驚奇的照片。不知道Google是從哪裡蒐集到這些圖片的,之後如果有進一步的資訊再和大家分享。


【延伸閱讀】
LIFE Photo Archive available on Google Image Search



Google Chrome 0.4.154.18 will be released soon.

Google Chrome 0.4.154.18目前正在 on developing. 可以參考 Google Chrome Release.

目前看到的重要更新是【書籤功能】,會提供import/export和新增folder的功能。

延伸閱讀:

Google Chrome to Improve Bookmark Management

效率至上

檔案總管已經不能滿足我了,事情多到需要用這樣才行...

登泰山而小天下

【登泰山而小天下】這句話是出自於論語,孟子說:「孔子登東山而小魯,登泰山而小天下」。但是我在這裡不是要上國文課,而是最近頗有【登清大而小天下】的感覺。

以往在中正競爭感沒有這麼強烈,大多數都是自我意是在作祟,自己逼著自己要前進、自己告訴自己要打拚一點,同儕之間或是老師給的壓力相對來說少了一點。不過來到清大之後,身邊一個一個都是比自己優秀的人,老師用輕鬆的口吻出著作業、考試、報告,即使他沒有每天站在你面前說要努力要努力,還是會感受到那種無形的壓力。

除了學校的不同之外,來自社會上的壓力可能也是一個重要的原因。除非將來要繼續升學,不然成績好像也不是這麼重要了,空有高分,卻沒有實力,也只能騙騙第一關的主管,後來就會原形畢露了吧。不知道有沒有一種藥可以在一夜之間增加一甲子的功力?我看有也輪不到我吃、吃了也會水土不服。XD


聯發科參觀紀錄

這次的Seminar去了竹科的聯發科參觀(下一次是到玉山銀行),聽說去年是廣達,我比較想要去廣達說...。

本來在參觀之前,我就有預料到因為時間的關係,應該沒有辦法做太詳細的介紹,加上這種參訪行程走馬看花的意味多過於實質上的意義(比如說介紹公司的福利、發送騙人小紀念品等等),但是兩個多小時的行程下來,其實還是頗有收穫的,這讓我還算開心。

參訪的行程是前面先做公司簡介和當資應遇上IC的兩場簡報,最後是以參觀公司做為ending。

公司簡報只有短短的15分鐘不到,很好,這種簡報通常不需要太久,因為資料在網路上都找的到(什麼年營業額、全世界有幾個branch、得過什麼獎...),花費時間如果過常有拖台錢之嫌。

接著是當資應遇上IC的專題簡報。這個報告是我覺得最有收穫的一場,演講的人是聯發科的一位副理,主要是在解釋公司在軟體開發上所運用到的一些技術和遭遇的困難。

比較讓我驚訝的是原來聯發科在大陸的白牌手機市場市占率這麼高?而且在開發相關韌體和應用軟體的時候,所需要耗費的人力成本及程式碼的複雜度是如此之高(據說製造一個手機的chip要撰寫相當於ten gigabytes的source code),不過好處就是辛苦一次可以吃很久的老本,副理說他們從2004年製造出來的chip到現在都還有在賣,生命週期相當的長,這和一般的資訊產品有很大的不同。而且聯發科所強調的是all-in-one的service,只要出廠的chip有問題,公司會負責之後所有的服務,通常都是靠軟體來解決硬體所遭遇到的瓶頸和困難。最讓我訝異的是聯發科印象中是做硬體的公司,但是內部的員工居然有高達百分之八十都是搞軟體的,只有少部分是在硬體上琢磨,這和我原本的印象大相逕庭啊!


【聯發科把燈關了,就什麼都沒有了。】這是那位副理所下的結論,意思就是說聯發科是一個完全依靠腦力和智慧撐起來的公司,只要關了燈,員工下班了,公司就什麼都沒有了。可見得聯發科是很注重員工的腦力價值的。

大公司該有的格局聯發科看起來都有了,事實上以我個人的角度來說,也是比較喜歡在大公司裡面工作,雖然有人會說在大企業裡面被忽略的機會比較大,小企業可以讓你的成就很快被發現(如果你夠厲害),但是畢竟格局還是不同,訓練的結果應該也有所差異吧!如果可以,希望我的第一份工作是在一家具有聲望和規模的企業囉!


Google Reader Translation


今天打開Google Readers要看RSS的時候,發現了一個好玩的新功能:Google Readers Translation

顧名思義就是將RSS的內容翻譯成你設定的語言。



聽起來好像很炫,但是換湯不換藥,骨子裡其實就是把網頁的網址丟到Google Translate裡面罷了。翻譯的速度蠻快的拉,但是品質就...嗯。



不過我習慣用英文界面,所以對我不會有太大影響,我總不會把中文翻成英文吧 :P

期中大爆炸

現在手邊的工作如洪水般湧出來...Orz

稍微記錄一下:

(1) ADB 程式
(2) Randomized Algorithm Assignment
(3) Information Retrieval Assignment
(4) IDEA Web Page 改版
(5) 工研院
(6) 師資培育中心網站
(7) Web 2.0 / Semantic Web 研究助理 (未定)
(8) 跑實驗數據 (未定)
(9) RA 期中考
(10) IR期中考
(11) ADB Assignment two

還有什麼沒跑出來的 = =

自己來做Word Cloud!


標籤雲(Tag Cloud)是利用視覺化的方式來表示一連串相關意義名詞的集合,通常是單一名詞,並且具有以下特性:

(1) 越重要的關鍵字較為醒目。
(2) 重要性可以依照點閱次數、文章篇數或其他計算權重方式而定。

Wikipedia 是這樣定義的:

A tag cloud is a set of related tags with corresponding weights. Typical tag clouds have between 30 and 150 tags. The weights are represented using font sizes or other visual clues. Meanwhile, histograms or pie charts are most commonly used to represent approximately a dozen different weights. Hence, tag clouds can represent many more weights, though less accurately so. Also, frequently, tag clouds are interactive: tags are hyperlinks typically allowing the user to drill down on the data.

這裡要介紹一個網站,你可以利用它輕鬆的做出自己的Tag Cloud!這個網站叫做【Wordle】

使用上也相當簡單,他支援三種產生word cloud的方式:



(1) 自行輸入一連串的文字(用,隔開即可)


(2) 提供網址或Rss Feed,這是我blog的RSS Feed產生出來的cloud :



(3) 提供del.icio.us的user name,它會自動抓取。


你可以自行設定字型、顏色、排版方式等等,還蠻有趣的。如果沒有好的idea,不妨參考一下他的Gallery,看看人家的作品,搞不好會有新的idea。

巧克力還是瑞士刀? 


我們都知道瑞士最有名的就是瑞士刀和手表,那你覺得這是瑞士刀還是巧克力?

放大點看,怎麼外表會有皺摺?



沒錯,這可是如假包換的瑞士刀巧克力喔!

測試你的Geek程度!

Geek一詞源自於美國的俚語,通常只在某個領域上特別狂熱或是專精的人。中文也叫做技客奇客。最近很常被用在電腦相關的領域,代表長時間鑽研某個技術或領域的專家或狂熱份子!


現在你可以在Geek Quiz這個網站上測試你的Geek程度,透過22個問題,他就會自動幫你分析囉!


結束之後你可以得到這樣的一個貼紙:

Created by OnePlusYou - Free Dating Sites


大家閒暇之餘不妨玩玩看囉。

This is Democracy

在youtube上看到這個影片,真是很有力量、很震撼人心的短片。



民主的過程得來不易,對照最近在台灣發生的大小事,我們更應該珍惜台灣現有的民主,並且勇敢的表達自己的聲音。我對在行政院前面靜坐的學生和教授感到敬佩。

用鍵盤搞定Google Search!

Google最近正在進行一項測試實驗,就是想要用鍵盤來操作搜尋的結果,讓使用者可以不需要移動手腕就可以進行搜尋的操作,這不禁讓我想起IBM小紅點有多好用......。


Official Google Blog中提到,這個試驗被稱做為Accessible View,主要使用的技術是ARIA and Google-AxsJAX。事實上Google在2006年就推出了Google Accessible Search,這一次主要的更因是利用鍵盤的A和W鍵可以切換正常模式和Accessible模式。



目前支援的快速鍵如下:

常用Google Reader的讀者應該會覺得很熟悉,兩個的快速鍵相當類似喔!

如果想要進一步表達自己的意見,可以點選首頁上的填寫問卷,進一步將自己的意見回傳給Google。

【華爾街日報】奧巴馬獲勝演講全文

如果還有人對美國是否凡事都有可能存疑﹐還有人懷疑美國奠基者的夢想在我們所處的時代是否依然鮮活﹐還有人質疑我們的民主制度的力量﹐那麼今晚﹐這些問題都有了答案。

這是設在學校和教堂的投票站前排起的前所未見的長隊給出的答案﹔是等了三四個小時的選民所給出的答案﹐其中許多人都是有生以來第一次投票﹐因為他們認定這一次肯定會不一樣﹐認為自己的聲音會是這次大選有別於以往之所在。

這是所有美國人民共同給出的答案--無論老少貧富﹐無論是民主黨還是共和黨﹐無論是黑人、白人、拉美裔、亞裔、原住民﹐是同性戀者還是異性戀者、殘疾人還是健全人--我們從來不是「紅州」和「藍州」的對立陣營﹐我們是美利堅合眾國這個整體﹐永遠都是。


長久以來﹐很多人一再受到告誡﹐要對我們所能取得的成績極盡諷刺、擔憂和懷疑之能事﹐但這個答案讓這些人伸出手來把握歷史﹐再次讓它朝向美好明天的希望延伸。

已經過去了這麼長時間﹐但今晚﹐由於我們在今天、在這場大選中、在這個具有決定性的時刻所做的﹐美國已經迎來了變革。

我 剛剛接到了麥凱恩參議員極具風度的致電。他在這場大選中經過了長時間的努力奮鬥﹐而他為自己所深愛的這個國家奮鬥的時間更長、過程更艱辛。他為美國做出了 我們大多數人難以想像的犧牲﹐我們的生活也因這位勇敢無私的領袖所做出的貢獻而變得更美好。我向他和佩林州長所取得的成績表示祝賀﹐我也期待著與他們一起 在未來的歲月中為復興這個國家的希望而共同努力。

我要感謝我在這次旅程中的夥伴--已當選美國副總統的拜登。他全心參與競選活動﹐為普通民眾代言﹐他們是他在斯克蘭頓從小到大的夥伴﹐也是在他回特拉華的火車上遇到的男男女女。

如 果沒有一個人的堅決支持﹐我今晚就不會站在這裡﹐她是我過去16年來最好的朋友、是我們一家人的中堅和我一生的摯愛﹐更是我們國家的下一位第一夫人﹕米歇 爾•奧巴馬(Michelle Obama)。薩莎(Sasha)和瑪麗亞(Malia)﹐我太愛你們兩個了﹐你們已經得到了一條新的小狗﹐它將與我們一起入駐白宮。雖然我的外祖母已經 不在了﹐但我知道她與我的親人肯定都在看著我﹐因為他們﹐我才能擁有今天的成就。今晚﹐我想念他們﹐我知道自己欠他們的無可計量。

我的競選經理大衛•普勞夫(David Plouffe)、首席策略師大衛•艾克斯羅德(David Axelrod)以及政治史上最好的競選團隊--是你們成就了今天﹐我永遠感激你們為實現今天的成就所做出的犧牲。

但最重要的是﹐我永遠不會忘記這場勝利真正的歸屬--它屬於你們。

我從來不是最有希望的候選人。一開始﹐我們沒有太多資金﹐也沒有得到太多人的支持。我們的競選活動並非誕生於華盛頓的高門華第之內﹐而是始於得梅因、康科德、查爾斯頓這些地方的普通民眾家中。

我 們的競選活動能有今天的規模﹐是因為辛勤工作的人們從自己的微薄積蓄中拿出錢來﹐捐出一筆又一筆5美元、10美元、20美元。而競選活動的聲勢越來越大則 是源自那些年輕人﹐他們拒絕接受認為他們這代人冷漠的荒誕說法﹔他們離開家、離開親人﹐從事報酬微薄、極其辛苦的工作﹔同時也源自那些已經不算年輕的人們 ﹐他們冒著嚴寒酷暑﹐敲開陌生人的家門進行競選宣傳﹔更源自數百萬的美國民眾﹐他們自動自發地組織起來﹐證明了在兩百多年以後﹐民有、民治、民享的政府並 未從地球上消失。這是你們的勝利。

我知道你們的所做所為並不只是為了贏得大選﹐我也知道你們做這一切並不是為了我。你們這樣做是因為你們 明白擺在面前的任務有多艱巨。因為即便我們今晚歡呼慶祝﹐我們也知道明天將面臨我們一生之中最為艱巨的挑戰--兩場戰爭、一個面臨危險的星球﹐還有百年來 最嚴重的金融危機。今晚站在此地﹐我們知道伊拉克的沙漠裡和阿富汗的群山中還有勇敢的美國士兵醒來﹐甘冒生命危險保護著我們。會有在孩子熟睡後仍難以入眠 的父母﹐擔心如何償還按揭月供、付醫藥費或是存夠錢送孩子上大學。我們亟待開發新能源、創造新的工作機會﹔我們需要修建新學校﹐還要應對眾多威脅、修復與 許多國家的關係。

前方的道路會十分漫長艱辛。我們可能無法在一年甚至一屆任期之內實現上述目標﹐但我從未像今晚這樣滿懷希望﹐相信我們會實現。我向你們承諾--我們作為一個整體將會達成目標。

我 們會遭遇挫折和不成功的開端。對於我作為總統所做的每項決定和政策﹐會有許多人持有異議﹐我們也知道政府並不能解決所有問題。但我會向你們坦陳我們所面臨 的挑戰。我會聆聽你們的意見﹐尤其是在我們意見相左之時。最重要的是﹐我會請求你們參與重建這個國家﹐以美國221年來從未改變的唯一方式--一磚一瓦、 胼手胝足。

21個月前那個寒冬所開始的一切不應該在今天這個秋夜結束。今天的選舉勝利並不是我們所尋求的改變--這只是我們進行改變的機會。而且如果我們仍然按照舊有方式行事﹐我們所尋求的改變不可能出現。沒有你們﹐也不可能有這種改變。

因此﹐讓我們發揚新的愛國精神﹐樹立新的服務意識和責任感﹐讓我們每個人下定決心全情投入、更加努力地工作﹐並彼此關愛。讓我們銘記這場金融危機帶來的教訓﹕我們不可能在金融以外的領域備受煎熬的同時擁有繁榮興旺的華爾街--在這個國家﹐我們患難與共。

讓 我們抵制重走老路的誘惑﹐避免重新回到令美國政治長期深受毒害的黨派紛爭和由此引發的遺憾和不成熟表現。讓我們牢記﹐正是伊利諾伊州的一名男子首次將共和 黨的大旗扛到了白宮。共和黨是建立在自強自立、個人自由以及全民團結的價值觀上﹐這也是我們所有人都珍視的價值。雖然民主黨今天晚上贏得了巨大的勝利﹐但 我們是以謙卑的態度和彌合阻礙我們進步的分歧的決心贏得這場勝利的。林肯在向遠比我們眼下分歧更大的國家發表講話時說﹐我們不是敵人﹐而是朋友……雖然激 情可能褪去﹐但是這不會割斷我們感情上的聯繫。對於那些現在並不支持我的美國人﹐我想說﹐或許我沒有贏得你們的選票﹐但是我聽到了你們的聲音﹐我需要你們 的幫助﹐而且我也將是你們的總統。

那些徹夜關注美國大選的海外人士﹐從國會到皇宮﹐以及在這個世界被遺忘的角落裡擠在收音機徬的人們﹐我 們的經歷雖然各有不同﹐但是我們的命運是相通的﹐新的美國領袖誕生了。那些想要顛覆這個世界的人們﹐我們必將擊敗你們。那些追求和平和安全的人們﹐我們支 持你們。那些所有懷疑美國能否繼續照亮世界發展前景的人們﹐今天晚上我們再次證明﹐我們國家真正的力量並非來自我們武器的威力或財富的規模﹐而是來自我們 理想的持久力量﹕民主、自由、機會和不屈的希望。

這才是美國真正的精華--美國能夠改變。我們的聯邦會日臻完善。我們取得的成就為我們將來能夠取得的以及必須取得的成就增添了希望。

這次大選創造了多項「第一」﹐也誕生了很多將世代流傳的故事。但是今天晚上令我難忘的卻是在亞特蘭大投票的一名婦女﹕安•尼克松•庫波爾(Ann Nixon Cooper)。她和其他數百萬排隊等待投票的選民沒有什麼差別﹐除了一點﹕她已是106歲的高齡。

她出生的那個時代奴隸制度剛剛結束﹔那時路上沒有汽車﹐天上也沒有飛機﹔當時像她這樣的人由於兩個原因不能投票--一是她是女性﹐另一個原因是她的膚色。

今天晚上﹐我想到了她在美國過去一百年間所經歷的種種﹕心痛和希望﹔掙扎和進步﹔那些我們被告知我們辦不到的世代﹐以及那些堅信美國信條──是的﹐我們能做到──的人們。

曾幾何時﹐婦女沒有發言權﹐她們的希望化作泡影﹐但是安•尼克松•庫波爾活了下來﹐看到婦女們站了起來﹐看到她們大聲發表自己的見解﹐看到她們去參加大選投票。是的﹐我們能做到。

當30年代的沙塵暴和大蕭條引發人們的絕望之情時﹐她看到一個國家用羅斯福新政、新就業機會以及對新目標的共同追求戰勝恐慌。是的﹐我們能做到。

當炸彈襲擊了我們的海港、獨裁專制威脅到全世界﹐她見證了美國一代人的偉大崛起﹐見證了一個民主國家被拯救。是的﹐我們能做到。

她看到蒙哥馬利通了公共汽車、伯明翰接上了水管、塞爾馬建了橋﹐一位來自亞特蘭大的傳教士告訴人們﹕我們能成功。是的﹐我們能做到。

人類登上月球、柏林牆倒下﹐世界因我們的科學和想像被連接在一起。今年﹐就在這次選舉中﹐她用手指觸碰屏幕投下自己的選票﹐因為在美國生活了106年之後﹐經歷了最好的時光和最黑暗的時刻之後﹐她知道美國如何能夠發生變革。是的﹐我們能做到。

美國﹐我們已經走過漫漫長路。我們已經歷了很多。但是我們仍有很多事情要做。因此今夜﹐讓我們自問--如果我們的孩子能夠活到下個世紀﹔如果我們的女兒有幸活得和安一樣長﹐他們將會看到怎樣的改變﹖我們將會取得怎樣的進步﹖

現 在是我們回答這個問題的機會。這是我們的時刻。這是我們的時代--讓我們的人民重新就業﹐為我們的後代敞開機會的大門﹔恢復繁榮發展﹐推進和平事業﹔讓 「美國夢」重新煥發光芒﹐再次證明這樣一個基本的真理﹕我們是一家人﹔一息尚存﹐我們就有希望﹔當我們遇到嘲諷和懷疑﹐當有人說我們辦不到的時候﹐我們要 以這個永恆的信條來回應他們﹕

是的﹐我們能做到。感謝你們。上帝保祐你們。願上帝保祐美利堅合眾國。

Barack Obama

聽演講

從以前開始我就是個還蠻喜歡聽演講的人,認為看到大師的風範和談話的方式可能有助於吸收一甲子的功力,也幻想自己將來可以站在台上對於自己有自信的議題侃侃而談...。

不過不知道是自尊心作祟還是大頭症發作,從前很多時候我都認為講者沒有說得很好。不是投影片不精采、就是流程不夠順暢、或是感覺有點敷衍,沒有很深入的講到核心重點。甚至一度覺得自己說的會不會比他們還好?!

記得上次Meeting的時候,老闆也和我們聊到關於聽演講的話題。他說:不管你們去聽什麼talk,都要盡可能的找出你可以學習的地方,即使你覺得那個speaker說得不好,對你還是有用的。

我那時候覺得很好奇,順口問了老師:老師,如果那個speaker說的真的很差、文不對題、台下的觀眾幾乎都要睡著了,那我還是要聚精會神的去聽嗎?

老師說了一個很關鍵的思考方向:可以學的東西不一定在他所說的議題中。更多時候在我們聽不到的地方!

老師進一步說:即便你覺得speaker說得不好,你還是有很多地方可以學習的。去思考為什麼他說得不好?哪裡不好?如果是你,你要怎麼表達相同的概念?到底是他不好,還是你的background不夠?

我回家思索了一下,如果消極一點想就是:既然我都花時間坐在那邊了,就認真一點吧!
積極一點就是把老師說的套用在聽演講上,如果覺得speaker說的真的很好,那就聚精會神、吸收其精華;反之,就朝老師所說的方向去思考,既來之、則學之!像塊海綿一般充實自己吧!

談政治?

其實我最不喜歡談的話題就是政治相關議題。

第一我覺得涉入的不夠深,有很多事情感覺一知半解,加上台灣的政治實在是...。
第二是因為從小看到台灣政壇上充滿著謾罵、不知所云、國會亂象、立委的行為......,實在讓我沒有辦法對政治產生好感,這也是讓我不想介入的原因。

不過隨著年紀的增加,【政治是眾人之事】這種想法也慢慢的在我腦袋發酵,討厭他就遠離他感覺有點逃避心態,不太喜歡,加上身為一個好國民,應該多多少少要瞭解一下國內的政治發展,也才慢慢的接觸相關的話題。

這一篇的主題不是要來闡述為什麼我會開始接觸政治相關議題,所以趕緊切入正題。

我在BBS上看到了這篇文章:http://www.wretch.cc/blog/kleinmaah/13003710

大概的內容是說:有一個在倫敦唸書的台灣人,看到學校網站的國籍選項把台灣寫成【Taiwan(Chinese Taipei)】,當下覺得不對,就寫信請學校更正為【Taiwan】。

看起來好像沒什麼大不了?不,其實大有關係。這讓我想到暑假去澳洲的時候,也很常被問到台灣和大陸有什麼不同,我沒有辦法用政治的觀點去解釋,只能說台灣和大陸是不同的國家,都在亞洲,因為【歷史因素】所以造成有一些名稱上的問題,不過可以確定的是台灣和大陸絕對是不同的兩個國家。

這樣的說法外國人接受程度大概一半一半,有些人可以理解這是不同的國家,有些人則是覺得很困惑,既然台灣是一個國家,為什麼名稱有一大堆?Taiwan、Chinese Taipei、Republic of China、Taiwan(Chinese Taipei) ......。其實聽到這裡我也頗難過,我也想要台灣就是台灣,Taiwan就是Taiwan,不要有其他奇奇怪怪的名稱。甚至因為這個原因,我還曾經和一個外國人差點吵了起來,真是有理說不清啊。

對照最近大陸海峽兩岸協會會長陳雲林先生來台的新聞吵得沸沸揚揚,更讓我有此感觸。為什麼我們不能把國旗放在應該放置的地方?為什麼桃園機場、圓山飯店的國旗要收掉?什麼是一中各表?為什麼不能有一個統一的表示?

我要台灣就是台灣,無關藍綠、無關支持的政黨、無關台獨不台獨。不要玩文字遊戲、不要誰再來討論我們是誰。也許我對政治不熟悉、也許你會說歷史的原罪沒辦法、也許你會說回歸大陸有什麼不好。

我只清楚的知道這一點,我愛這個出生的土地,我在這裡出生,經歷過好幾次的選舉,有自己的總統、自己的憲法、自己的體制,如果你說台灣不是一個國家,那我過去的人生是什麼?台灣就是台灣,台灣是一個國家,我只清楚的知道這一點。



人生跑道

最近看到大學死黨某彭在研究要不要轉換人生跑道,也就是他想要走【資訊+藝術】的路線,還在討論要不要雙主修交大應用藝術所,還蠻佩服他的。換跑道是需要相當勇氣的,拋開過去所學,轉換到一個陌生、不熟悉的領域,也許新的領域是自己比較有興趣的,但是一切要從頭來過,想到就會令人頭皮發麻。

不過他要走的路算是有結合過去所學,我認為是頗適合他啊!畢竟純工程師或是MIS人員真的和他的image不合,也許他自己不認為吧(可能他又會說:事情都有兩面這種話XD),但是就我認識的他來說,藝術總監或產品設計這種title搞不好和他還比較速配。

這讓我想到以前大四的時候,我和他幾乎每天都留在實驗室裡面寫專題、準備推甄、胡言亂語人生大道理,還蠻懷念的,畢竟現在的我們因為轉換到新環境,相聚的機會比以前少很多,再加上研究所的loading,好像也很難回到以前那樣胡言亂語的年代,大學真是個充滿活力和青春的時期啊!

認識他也是蠻奇妙的,這個怪怪的人也讓我改變了不少,如果要說大學四年影響我最深的人,就算不是他,至少絕對有前三名跑不掉。不過人本來就是影響來影響去的,只要結果是自己承認、可以接受的,不就好了?問心無愧是最重要。

雖然他研究所的性情有改變XD,但是不要命的打拼這點看來還是有保留住,也許自己也不想要輸他吧,有種亦敵亦友的感覺哈哈。自己也要再努力一些,自己的目標和理想要由自己來開創!

出口




吃著午餐,聽著五月天的專輯,在忙碌的生活中找一個稍微放鬆的出口。

tf-idf (term frequency–inverse document frequency)

寫作業會用到,先把學到的記錄一下以免忘記...。

TF-IDF常被用在Data Mining相關的領域上,用來計算某個字詞在文章中的相對重要程度

字詞的重要性隨著它在文件中出現的次數成正比增加但同時會隨著出現在越多文章中而下降。這是很正確的想法,舉個例子來說:

假設我們要找的詞是:【演算法的範例】。正常來說,我們按照段詞切字的法則應該會把這個字串切割成三個短詞【演算法】【的】【範例】。

假設【演算法】在文章A中出現10次、【的】出現100次、【範例】出現30次,文章A總共有1000個詞,則三個短詞的TF(Trem Frequency)分別是0.01、0.1和0.03。

如果我們資料庫中總共有10000篇文章,【演算法】總共出現在15篇文章、【的】出現在10000篇文章、【應用】出現在5000篇文章,則IDF分別是:2.82、0、0.30。

用一般的想法來思考,【演算法】這個詞應該是我們最重要的搜尋詞、接著是【應用】,最不重要的是【的】。因為【的】實在是太常出現了,不可能有文章中沒有這個詞,所以從上面的計算結果可以看出其IDF是0,在計算TF-IDF的值時,即使他的TF再高,最後的結果都會變成0。【演算法】這個詞可能TF的值不是很高,但是可以利用IDF來提高它的權重,這也比較符合我們一般的思考結果。

參考資料:

【Wikipedia TF-IDF】
【數學之美 系列九 -- 如何確定網頁和查詢的相關性】