顯示具有 研究生? 標籤的文章。 顯示所有文章
顯示具有 研究生? 標籤的文章。 顯示所有文章

兩個八十五分與一個九十五分

今天和老師Meeting完之後,偶然看到一篇陳昇瑋教授在IThome接受專訪的報導 ,拜讀之後真是相當有感觸。

對於從事研究(Doing Research)和到業界工作這兩件事情,也許對很多人來說差不多,研究是教授的工作,只不過場景從外面的公司換到學校、工作內容從產出產品變成產出論文。也許這樣的論調在某些人來說是可以被接受的,至少我在還沒有踏入研究所之前,也是這樣想的。

不過其實【嚐試】作研究到現在,我體認到了這兩者其實有很大的差異。在業界工作,很多時候有著產品出貨的時間壓力,在設計一套軟體或硬體產品時,也許我們知道它有90%的完美,但是有著10%的缺陷,但是這10%的缺陷只會造成獲利損失1%(雖然往往這些缺陷終究會導致產品的失敗),為了要搶得先機,當然是搶著上市,畢竟先行者優勢,快、狠、準對於公司來說是很重要的事情。

研究似乎是另外一件事情。當我們在思考一個問題時,想要快速的實作出一個【可作用(workable)】 的系統或產出(Output),也許很多人會想【至少這是看得到的東西】,但往往這樣做的下場,是弄出一個普普通通,平均水準的【四不像】,這樣的東西也許可以讓研究生畢業,但是要稱為研究,似乎又太高估了點。現在我的思維,也許只是在如何作出一個平均水準的東西,也許這個產出看起來包含了很多,但實際上每個元件都是普普通通。

研究,範圍也許不大,但是必須要頂尖。該篇報導中說了一句令我很有感觸的話 -【如果能將兩件事情做到85分,那表示很厲害,但將一件事情做到95分更重要】。我現在要學的,就是放棄掉很多的85分,專心在一個95分上,加油吧!

隨手畫、隨手找圖!PhotoSketch - 優秀的圖形辨識技術

如果你不清楚標題說的是什麼,那就看張示意圖吧!相信馬上就可以明白了:





瞭解了嗎?你沒看錯,就是你隨手畫一張類似素描或草稿的簡圖,電腦可以透過你畫的圖形來找出相似的圖片,並且將這些圖片組合起來成為最後的結果。這是我今天隨手逛到的一篇由北京清華大學、新加坡大學和以色列IDC大學的研究生們所做出來最新的研究,發表於2009年的ACM SIGGRAPH期刊論文。有興趣的可以去看看這篇論文


論文上放的例子都相當的令人驚奇,找出來的圖片都很接近於手繪圖(廢話,要不然要找差很多的嗎XD),









這是他們演算法的大致步驟,一開始先偵測手繪圖的外框(outline),根據這些外框去找出可能的影像,接著嘗試去把這些影像作組合,最後根據組合的結果來排序:







我不是做影像辨識,所以不要多談太多細節以免被打槍XD。只是想說現在的研究真是越來越令人驚喜了。如果有興趣的人可以看一下介紹影片:



PhotoSketch: Internet Image Montage from tao chen on Vimeo.


其實這個研究已經有線上服務可以使用了,不過現在似乎crash了...等等看之後會不會重新開放吧。


【相關閱讀】
PhotoSketch: Internet Image Montage
PhotoSketch: Photoshop + Image Recognition = Awesome
This Is a Photoshop and It Blew My Mind


把twitter當成知識分享的寶庫?先停下腳步想一想!

有許多人使用twitter來接收有用的資訊,透過好文章會不斷的被分享、RT的原則,我們應該很容易在twitter上面找到許多被群眾所推薦的【有用連結或內容】。如果你也是這樣想,不如讓我們先來看一個統計數據:

根據pear analytics這家公司的統計,有40%的tweets是【Pointless Babble】,超過三分之一的tweets是使用者無意義的自言自語!有37.5%的tweets是屬於【Conversational】的,也就是像傳統IM軟體一樣,是一問一答的聊天形式。換言之,接近八成的tweets可能都是沒有意義的【noise】!

他們是怎麼統計出這些數據的?pear analytics蒐集了十天內,從早上十一點到下午五點的資料(總共2000個tweets),並且將這些資料分成六大類:

  • News:新聞tweets
  • Spam:垃圾tweets
  • Self-Promotion:公司行號、產品、服務的tweets
  • Pointless Babble:無意義的自言自語。(例如:我今天早餐吃了7-11的三明治+豆漿)
  • Conversational :使用者之間的一問一答。
  • Pass-Along Value:有RT的tweets


這是他們統計出來的結果:


首先我必須詬病一下他們的實驗。這個樣本也太少了吧!你一天才取200個樣本,平均一個小時取不到20個。以twitter如此龐大的資料量來說,說服力實在稍嫌不足。

好吧,我們這裡不是要探討在做統計分析的時候需要取多少樣本才達到信效度。撇開這個不談,這個統計顯示出來的問題是【這些social network application有過多的雜訊在其中】。不管是twitter或是plurk,這些服務本來開發出來的目的就是讓使用者可以在上面murmur一下,輕輕鬆鬆的使用就好,搞什麼研究、統計這樣嚴肅的話題呢?不過由於這樣使用輕鬆、快速的特性,使得這些服務除了這些看似無意義的內容之外,還多了許多寶藏在其中。除了使用者會在上面分享一些有用的連結,並且好的內容會被不斷不斷的分享出去之外,還有許多的想像空間在其中。最近我的研究方向也是從Plurk的Data中,嘗試去cluster user的sentiment,透過不同的sentiment  tendency,來找出群眾對於某個事件或產品的反應。從這個角度出發去思考,這些Conversational、Pointless Babble的發言搞不好對我來說就是很有用的data resource 了。當然這當中有許多問題要克服的,比如說要如何利用NLP的方法來判斷詞性,盡量找出每個字詞應該屬於的詞性組,還有必須要過濾掉沒有用的noise...等等。總之光前置處理(Data Pre-Processing)就很頭大了阿:P

說到這裡有點離題...。在我們把twitter或plurk這類服務當成我們吸收資訊的來源時,我們必須要想一想有沒有比較有效率的方式來閱讀,把這些【散出去】的訊息【聚集】成一些有更有意義的分類,透過聚集的動作來閱讀,是比較有效率的方法。這樣的閱讀方式可以參考下列文章:


對於這些Social Network Services如果你有什麼想法,也歡迎分享討論:)

【相關閱讀】
TWITTER ANALYSIS: 40% of Tweets Are Pointless Babble
從twitter幾個有趣的應用,看即時搜尋(Real-Time Search)和資訊整合的重要性!

從【What is a Browser?】中,你學到什麼?

不久前在twitter上流行一段影片叫做【What is a Browser?】,還沒看過的人可以先欣賞一下:



看完了是不是覺得很驚訝?號稱科技大國的美國,隨機在路上找些人問問說:【你知道什麼是瀏覽器嗎?和搜尋引擎有什麼不同?】,居然只有不到百分之八的人能夠正確的分辨出來。最後問到你有沒有聽過Google Chrome的時候,居然沒有人聽過。

這樣的調查結果是否出乎你的意料之外?在這個網路如此發達,一回到家就是坐在電腦前;每天都要上一下無名看看正妹、用批踢踢瀏覽一下八卦、上去Plurk閒聊、用blog寫寫日記、去拍賣逛逛晃妝品、3C產品,這些動作我想在許多人眼中看起來極為平常的事情,想必在美國也是。那為什麼號稱科技無所不在的年代,大家居然連Browser和Search Engine都分不清楚?

這讓我想到我們老師和我們說過的一句話:【千萬不要以為你懂的東西大家都很懂】。這表示什麼?當你日以繼夜、焚膏繼晷的投入一個領域中,每天過著起床看論文、睡前寫程式的日子後,經常你會對一個特定的議題有深入的了解,這個時候在某些程度上代表你是這個領域的【研究者(還不能說專家)】,對於這些相關的詞彙、方法都有比別人更多程度的了解,這當然是好事情,但是也很容易產生問題。如果有一個人要你解釋你的東西給他聽,困難的地方就產生了。你可能會說:xxx就是把A和B做結合之後,去C裡面做些處理之後就變成了xxx。你自己覺得講的真是精闢萬分,但問題是別人連什麼是A、B和C都不了解啊!你可能就很生氣覺得這麼基本的東西你怎麼會不知道呢?然後越解釋越模糊,最後就不了了之了。

通常這樣的情況在越厲害的人身上越容易發生,因為你對某個議題太熟門熟路了,很容易深陷其中而不自知,最後說出來的用語也變得太艱澀難懂,但是自己卻不知道。

延伸到企業上也是一樣,身為一個企業主,千萬不能過於確信大環境的狀況是和自己所想的百分之百吻合。如果微軟認為全世界的人都聽過瀏覽器,不可能有人不知道,那很容易就跌了一大跤。

所以,千萬不要有太深刻的刻版印象,也不要相信自己所想、所見、所聞一定是正確的,凡事要大膽假設、小心求證,時時抱持著懷疑的精神,才是正確的態度。

funcoupon - 今晚要用哪一張折價券?


這學期修了交大Web2.0的課程,和朋友在funp平台上開發了一個「funcoupon」的服務,這個服務有什麼特別之處?讓我們來看看!

首先,大家可以先連到funcoupon的服務首頁。一進去可以看到我們是用「視覺化的模式」來呈現我們的服務-coupon,我們認為目前市面上的coupon提供網站的資訊負擔過大,常常一個頁面會呈現太多的資訊,使用者無法一眼就看到他想要的coupon,我們認為用「圖片牆」的方式來呈現是有別於文字排列的另一種選擇。



為了讓使用者能夠快速的找到他想要的coupon,我們根據不同的條件設計了不同的存取coupon的方式,首先,你可以在每一頁的上方看到不同種類、地區的按鈕,根據你的需要,你可以點選不同的牆來存取coupon:



或者,你也可以利用map的方式,搜尋某個地區的coupon:



在「我的主頁」中,你可以看到自己所收藏的coupon,同時,如果你有朋友推薦coupon給你時,也是在這邊作接受或拒絕的動作:

除了自己所收藏的coupon之外,你還可以看到朋友收藏的情況:

未來,我們希望與店家進一步的合作,能夠輔導店家自動上傳他們的coupon,透過使用者、店家和管理者三方面的維護這個服務內的coupon,讓coupon的數量能夠有爆炸性的成長:


如果你覺得這個服務還不錯,也可以推薦給其他同樣在funp的朋友:


有鑑於現在blog如此的流行,如果你想要將coupon嵌入到自己的blog,我們也提供了直接產生程式碼的功能,如此一來只要在blog中貼上即可:


如果你對本服務有什麼建議或覺得需要改進的地方,也歡迎到我們的討論區留言給我們,我們會儘快的回覆:


funcoupon嘗試把資訊用不同的呈現方式呈現出來,同時提供「coupon種類選擇」、「地圖」等不同的方式來存取coupon,並且加強美工設計的部分,希望讓使用者在找尋coupon的時候都能夠快速且開心的找到自己想要的資訊。在互動性上,透過coupon分享、推薦的機制,讓朋友之間可以快速的share自己喜歡的coupon。

在經過這學期的「磨練」之後,我們深深覺得技術和創意是一體兩面、缺一不可。有了好的創意、沒有技術的支持,就只能等著這樣的創新點子被別人搶先開發出來,或是技術能力不足,再好的點子都變得綁手綁腳,不能完完整整的把自己想要實作出來的功能呈現給使用者;但是如果空有技術、卻沒有好的點子,也是不行,因為你世界上技術能力強的人實在太多了,能夠出頭天的只有老大,因此技術、創意兩兩相輔相成,才能在殺很大的網路世界中有亮眼的表現。


簡報與我

大學念的是資訊管理系,身在管院,免不了會有大大小小上台簡報的機會。不管是期中報告、期末報告或是成果發表,一直以來【上台報告】對我來說都不是太困難的事情。也由於大學時期有許許多多站在人群前面說話的機會,不管是辦活動或做簡報,都是訓練自己膽量、把臉皮練厚的好時機。

不過最近在研究所的報告,卻讓我挫折連連,不禁讓我開始反省自己以前簡報的方式是不是有些問題?換了個學校有差這麼多嗎?年紀越大越不會報告?聽眾不同?內容不同?經過一些思考之後,我有一些感想,嘗試和大家分享。

(1) 簡報首要任務:了解報告類型。
首先,你必須要知道這次報告的類型是什麼。你是要上台報告paper?還是要上台宣傳營隊活動?不同的報告類型會決定你簡報的走向,是要輕鬆詼諧還是嚴謹小心。甚至你的投影片該如何製作,服裝該如何穿,要準備什麼道具,這些都會有影響。

(2) 製作良好的投影片
現在一場簡報大概很少不用投影片的。既然要用,就要製作出清楚、符合主題的投影片。掌握兩個原則:(1) 要表達的東西要清楚 (2) 避免在一頁裡面放太多東西。其他華麗的圖片或動畫就當作加分即可。

(3) 每一頁投影片之間要有連貫性
下一頁投影片要表達的東西和上一頁要有連貫性,如此一來整個簡報才會有一致的輪廓,而不是每一張投影片都是獨立作業,這樣會讓人很難聽懂。

(4) 最難的理論要用最簡單的例子
如果你真的了解一個理論,即使他很困難你也可以舉出很簡單的例子。

(5) 了解聽眾的背景
嘗試去了解聽眾的背景如何,不同的聽眾需要應用的簡報內容就不同。最強的就是讓完全不同領域的人也可以輕鬆的聽懂你的簡報。

(6) 反覆練習
了解和報告出來是兩回事!只有勤加練習才會讓你的簡報更加生動!

仔細想想大學和研究所的簡報,我想最大的差別在於【細膩度】。在大學的時候,做簡報都抱著【大概】、【差不多】就好的心情,也沒有很嚴謹的去檢查他的flow是不是符合邏輯、有沒有自相矛盾、甚至很多時候花在讓投影片更漂亮、動畫更炫的時間還比內容還多,現在覺得本末倒置了。自己的毛病自己也清楚,就是不夠嚴謹,不能再抱著這樣的心情下去了。振作啊!

【相關閱讀】
好文: 簡報技巧 - 跟Steve Jobs學簡報


arg 和 arg max

最近在讀paper時看到了這個數學式子 y* = argmax f(t),想當初數學這麼爛的我一定不懂argmax是什麼,找了好一會兒才找到,記錄一下避免忘記 :)

  • y = f(t) 是一般常見的函式,代表給定一個t值,丟到f函式中會回傳一個值給y。
  • y = max f(t) 代表:y 是f(t)函式所有的值中最大的output。
  • y = arg max f(t) 代表:y 是f(t)函式中,會產生最大output的那個參數t。

看起來很模糊,舉個例子應該比較好理解:

假設有一個函式 f(t),t 的可能範圍是 {0,1,2},f(t=0) = 10 ; f(t=1) = 20 ; f(t=2) = 7,那分別對應的y如下:

  • y = max f(t)  = 20
  • y* = arg max f(t) = 1

這樣應該就很好理解了吧 :)


近日雜記 - 一段參加很多比賽的時期

最近的生活只能用【充實又緊湊】來形容阿。

老師要我們修Data Mining的人都去參加KDD CUP,KDD是Knowledge Discovery and Data Mining的縮寫,在Database相關的領域中是很有名的一個Conference,想當然耳這不會是個輕鬆的比賽,這就算了,現在我們要參加的這個比賽開始的時間是 4/6 ~ 4/10 ,沒錯,第一階段只有五天!五天之內要把KDD釋出的資料加以分析然後把結果弄出來,一想到五天就在計算說我加起來可以睡到30小時嗎XD
本來實驗室的同伴在春假想要計畫出遊的行程,現在也都臨時取消了,改成KDD CUP寫程式五日遊...真歡樂阿。如果真的想要認真的去玩KDD CUP的比賽的話,就必須從現在開始逐步得去測試他給的測資,然後先把一些方法研讀過後,有個底了,將來真的數據出來了也才有base去跑實驗結果,要不然五天光想方法就過去了,一點競爭力都沒有...。

這學期和六個交大資管所、一個台大資管所的戰友們參加的中華電信加值大賽最近是初賽的截止日期,為了初賽的文件我們寫的還蠻拚命的,就是希望可以有好的表現,應該會過初賽吧(?),我們的系統如果真的實作出來,那個複雜度還真的蠻大的。公佈結果是在四月下旬,真的通過的話就有長達半年的瘋狂coding日子好過了...XD

緊接著是Web2.0的課程也要開始準備動手了,說真的我蠻喜歡這個idea的(保密一下阿哈哈),感覺很實用,寫完之後也會對Web Development有更深刻的瞭解,非常的好!修了Web2.0的課也讓我對於現在一些熱門的技術,比如說Ajax、JavaScript、PHP有了比較深刻的認識,之前想要學但是總在偷懶,現在有了理由就可以好好的去KO他們。

這學期要開發的系統都是從很貼近自己的需求,而且是真的可以拿來【使用】的系統,不是開發之後就擺在那邊等著打分數而已,這樣也讓我更有動力去把他們完成吧!而且隊友們都很強大又很優秀,感覺都是可以拚死拚活完成事情的同夥們,來到清大唸書之後看到很多這種人,都可以為了一個目標然後拚死拚活的去完成,這樣的感覺以前比較少見,說真的還蠻不錯的,有種為了目標共同奮鬥打拚的感覺,熱血又青春!

本來根本沒有意識到有春假這回事,不知道是誰提起我才想起【Oh!好像有這樣的日子耶】,本來計畫要回家和去中正一趟的,目前看起來去中正是沒時間了,回家的話最多也只能回去一天吧...。能力太差了要花比別人更多的時間來完成事情阿,誰可以賜給我一顆天才的腦袋 :P

寫到這裡打住 : )


目標?

這學期到底要做些什麼事情呢?記錄一下讓日後有個對照好了...,這樣如果偷懶就沒有藉口了。

1) 修課方面:這學期重點科目就是Data Mining和Web2.0,Data Mining的loading不用說了,是自己老闆的課,上學期修老闆的課修的二二六六,這學期實在不想重蹈覆轍,勢必要把重心放下去才行,加上之後研究的領域一定會用到hadoop和data analysis相關的知識,我要認真的K下去。Web2.0的課本來沒有想要修的,不過經過我在新竹最可以稱為死黨的某彭先生邀請,還是修了...不修則以,一修下去還真有興趣,而且project的idea我蠻喜歡的,為了保密暫時不在這裡說出來...,加上之前一直沒有認真的對待網路方面的研究,很想要把他認真的KO啊!另外一門課是Oral Presentation,loading還算不會太重,本來就打算修一門英文的課來加強自己的能力,這堂課的內容不會太難,稍微可以練習一下口說,還OK囉!

2) 比賽方面:為什麼我會把比賽拿到這裡講,因為這學期不知不覺參加了很多比賽(可能?),目前確定會參加的有第四屆龍騰微笑競賽中華電信加值大賽2009資工盃校園創新創意競賽。資工盃校園創意競賽是和Web2.0的課程綁在一起,開發課程的project就可以順便拿去比賽,另外那兩個就是額外的了,要自己想idea,然後拼死的做出成果,其中龍騰微笑競賽是個相當大型的比賽,想當然耳要進入到決賽的難度很高...。參加比賽的動機也是因為彭先生的邀約,加上我自己也想要留下些什麼,就衝吧。

3) 研究方面:老師希望我們能夠早點開始寫論文,不要拖到碩二,碩一下如果能有一些成果,對於將來要順利畢業(?)或投國際期刊或conference的時程來說才不會太趕。其實這三項裏面我覺得做研究、寫論文是最困難的orz...。要想到一個別人沒有做過的、又做得出來的題目真的是極度困難阿。我要做的這個領域太熱門是一個原因,另外一個大因素我認為是自己的基礎不足...,總是想不到什麼很好的點子或扎實的理論基礎來支撐,天馬行空想了一些方法,很可能不能實行,要不然就是早就被做掉了,困難重重...。

來到清交以後實在看到很多理論和技術都相當扎實的強者,自己越來越顯得很渺小,嘖嘖。Lab裡面也是強者如雲阿,也不是說沒有自信了,不過會想要變得更強是真的,而且我本來想要專注在一兩件事情上面就好,不過看來又是多工的一學期...。

既然有這麼多牆擋在前面,就想辦法一一擊破吧。

研究方向大致確定


之前老師找了研一的人去談談,希望我們能夠把研究的方向narrow down到比較明確的主題,一方面是很多的conference或期刊論文的投稿日期都在今年的九月到年底,如果等到碩二再動工,那完成的時間點大多在畢業前了,要投稿的話勢必要大幅修改(這一點我頗好奇,等下再談),如此一來會趕不上時間,變的說如果要投稿都要等到隔一年才能進行,不僅寫的人都畢業了,再新的idea也會被延宕,搞不好就被人家發表去了,實在不太好;另一方面是說根據老師過去的經驗,通常越早開始的,到最後的效果會比碩二才開始動工的好,因為如果大家都擠到碩二才開始動工寫論文,到時候大家一定會擠在碩二下要老師幫忙看paper、做修改等等,老師的說法是,他看完一篇paper到修改到一定的水準,可能要花上快一個月,以至於很多人的paper只能看看文法錯誤、修正拼字問題,實在沒有什麼意思。

所以我們碩一下就要開始動工啦!我做的主要研究方向是在Query Suggestion的部分,當使用者在搜尋引擎下了一個Query Term後,搜尋引擎會根據這個Query Term去做關鍵字比對,將相關性比較高的網頁列出來,問題就在於說大部分的使用者下的Query Term都很短,很難從其中看出意圖,導致回傳的結果準確率不夠。這事後有一些機制可以來幫助搜尋準確率,Query Suggestion或expansion就是其中很重要的方法。Google目前用了很basic的方法有做出一個雛形,不過似乎還有很大的空間可以研究。

這個題目我還蠻喜歡的,畢竟我在進來研究所之前想要做的領域不外乎就是Semantic Web或Search Engine Related issue,現在也有在看一些paper和修相關的課程,嗯嗯,滿懷感激的向前衝吧XD


懂得越多,越覺得懂得越少

標題好矛盾,不過的確是我最近的感想。

寒假的時候看了些paper,想要對Search、Database、Mingin這一類相關的研究有一個粗略的了解,survey了一些paper之後,發現很多的idea和concept都早就已經被propose出來了,要再從這個popular的領域中挖出一些剩餘的價值,還真的要有大量的背景知識和強韌的毅力才行。然後Lab裡面也是人才濟濟,多的是強大的學長和同學們,也許以前我習慣的位置是在前排,但外面的世界有多大,真的要自己體會過才知道。

懂得越多,越覺得自己懂得越少。

看過太多厲害的人、從別人的身上得到越多,越覺得自己的存在是很微不足道的。一步一腳印,當別人達到百分之五十的成就,仍然覺得自己的成果是不能拿出來說嘴的,自己連百分之一都沒有時,自然就會知道應該要一步一腳印的繼續努力下去,這也是我現在該做的。


一個走和停的故事-地圖日記之感想

今天地圖日記的創辦人郭書齊先生和Lab的學姊Ginger到學校來演講,本來不是很有興趣的,不過聽完之後還頗有收穫。

說到地圖日記,最早知道他們是在雜誌上看到他們在美國有名的DEMO展中得到上台展示的機會,那時候就對於這個台灣新創網站抱持著很高度的興趣,雖然我很早就註冊了帳號,但是那時候不知道是功能不夠完整還是自己沒有仔細的玩玩,一直覺得不是很上手,後來也就慢慢沒有去動他了。雖然之後陸陸續續在網路或報章雜誌上看到地圖日記的新聞,不過可能是既有的成見覺得他不好用,或是身邊的人都沒有在用,只知道這是個還算蠻成功的網站,但是始終沒有機會好好的來試試看。

就在今天,地圖日記的創辦人和Ginger學姊來解說了地圖日記當初是為什麼會成立、以及如何他們是如何來做SEO、當我們在設計一個網站的時候,有什麼需要被考量的重點。

當中我覺得很重要的一個關鍵點就是:「一個點子+一個做下去的決定」。

目前地圖日記是一個平均每天有100萬的PV(Page View)的使用者連線,在台灣來說算是個中等流量的網站,看起來好像還好,但是相較於去年一年許許多多新創公司都已經消聲匿跡的情況下,他們說目前手頭上的資金還足夠他們營運兩年不是問題,就可以知道其實這家公司的未來是相當具有成長性的。

創辦人就說當初他們也是沒有想這麼多,什麼資金的問題、會不會成功、之後要怎麼營運,這些在一開的時候都沒有想,只是想說就先做出來,一開始手頭上的資金也只有五十萬,最差最差的情況就是都賠下去,再去找工作就好。

說真的,在這樣豪氣萬千的宣言背後,想也知道是有強大的技術背景和堅持下去的恆心在支撐著他阿!Ginger學姊也說到,他當初在學習做網頁的時候,是每天到書店去翻開HTML的書籍,一天就背個兩小時的HTML程式碼,然後到電腦上實際的打出來,是這樣子的精神和持之以恆的毅力在背後支撐著他們,所以才有今天這樣的成果。

要成功:「行動力+專注力+持之以恆」我相信是不變得道理。

研究能力

之前和Lab的學長姐聊天,才知道他們到了碩二每個人的壓力都很大,平常看大家也都笑笑的,真相就是晚上都睡不好,躺在床上可能要一個小時左右才能入睡(我該慶幸我每次都不到兩分鐘就睡著了...),還有一個博班學姐現在每天都必須要凌晨五六點才睡,而且已經變成習慣了,想要在晚上十二點一點睡還睡不著呢。

每個人都有他做研究的步調,上了研究所之後外在逼迫你的壓力就少了很多,比起大學來說更少,因為修的學分也少了,平常和老師見面的機會也沒有說很多,除非你三天兩頭都去煩老師,要不然一個禮拜可能也只有修課和Meeting會見到。雖然外在的逼迫少了很多,但是自我的要求好像變高了不少。每天不做個什麼事情就會覺得內心不安;即使每天都做了事情,但還是有堆積如山的工作等著你解決。不過這都還是在【可解決、可見】的範圍內,事實上研究所要訓練我們的能力,不在於【解決已經了解的問題】,而是在【從已知的現象去發掘問題、解決問題】。這才是核心所在,也是困難之處。

拿我們一個學長在做的研究為例,他要做的方向是從一些Query Trem中,找出彼此之間的關聯性,並且建立一個多維度的Ontology。比如說,當使用者下了【台北 旅遊】的關鍵字,又下了【旅館 價格】的關鍵字,我們必須要去判斷這兩組關鍵字之間是有意義的,是有一定關聯的,如果接著他又下了【蘋果電腦 CEO】,那我們也必須要判斷這組關鍵字和之前的關鍵字是沒有關聯的,是一組新的查詢。困難之處在於要如何判斷關鍵字組之間是不是有關聯?也許蘋果電腦的CEO正好要到台北演講,而那位user也要去台北旅遊,順便參加他的演講也說不定。這樣多種組合之下,所產生的問題就很困難了。

建立這樣的模型有什麼好處?最顯而易見的就是可以針對不同的使用者提供更精準的搜尋結果,因為你可以根據建立出來的模型,來預測並且回饋使用者的搜尋結果,當然是用處多多。

回到正題,事實上在大學的時候對於什麼是做研究還懵懵懂懂(雖然現在也不見得了解多少XD),上了研究所之後,多多少少也對學術領域要做的東西有些了解。每個人都有自己做事情的方法,不見得整天坐在電腦前面就代表自己很認真,也不見得都不在實驗室的人就代表很混,Output才是檢視的重點。

這兩年我應該要認真衝刺一下,看看自已的能力到底到哪裡,加油嘿。


Precision and Recall - Information Retrieval


在資訊檢索或資料探勘的領域中,一個最基本的問題就是要如何衡量一個系統的效能?這裡指的系統效能是說:當我們進行一個Query時,在一個檢索或搜尋系統中,到底回傳回來的結果,是不是使用者想要的?回傳的效率有多好?
這裡介紹兩個用來評估檢索結果的方法,叫做【查準率(Precision)】和【查全率(Recall)】


先來看看定義:
  • Precision = Relevant Documents Retrieved / Total Retrieved Documents
  • Recall = Relevant Documents Retrieved / Total Relevant Docuements
從上面的公式可以看出來,Precision和Recall的分子都是Relevant Document Retrieved(抓回來的相關文章數目),差別的地方在於Precision的分母是【抓回文章的總數】;而Recall的分母則是【相關文章的總數】。


舉個例子:假設現在資料庫中有10000筆資料,和美食有關的文章有500篇。使用者在輸入美食的關鍵字後,回傳的文章有4000篇,其中有400篇是和美食有關的。

Precision = 400 / 4000 = 10%
Recall = 400 / 500 = 80%

在這裡代表的意思就是,這個搜尋引擎的查準率是10%、查全率是80%。

繼續延伸下去,如果我們要做比較細部的分析,可以將以上的兩個比率畫分成下面的四個象限:


tp : 代表文章和此query有相關,而且系統判斷正確回傳。
fp : 代表文章和此query沒有相關,但是系統判斷錯誤卻被搜尋引擎回傳。
fn : 代表文章和此query有相關,但是系統判斷錯誤沒有回傳。
tn : 代表文章和此query沒有相關,而且系統判斷正確沒有回傳。

所以我們得出:
Precision = tp / tp+fp
Recall = tp / tp+fn

其實這和統計上的Type 1 error、Type 2 error 也有相關,不過在這裡就不再多說了...,有興趣的可以到Google找找,相信會有很多資訊的。

Poisson Trial 的 動差母函數 (Moment Generating Function of Poisson distribution)

【法一】直接計算


【法二】湊出另外一個Poisson Dis.

幾何分配的動差母函數(Moment Generating Function of Geometric Distributin)

登泰山而小天下

【登泰山而小天下】這句話是出自於論語,孟子說:「孔子登東山而小魯,登泰山而小天下」。但是我在這裡不是要上國文課,而是最近頗有【登清大而小天下】的感覺。

以往在中正競爭感沒有這麼強烈,大多數都是自我意是在作祟,自己逼著自己要前進、自己告訴自己要打拚一點,同儕之間或是老師給的壓力相對來說少了一點。不過來到清大之後,身邊一個一個都是比自己優秀的人,老師用輕鬆的口吻出著作業、考試、報告,即使他沒有每天站在你面前說要努力要努力,還是會感受到那種無形的壓力。

除了學校的不同之外,來自社會上的壓力可能也是一個重要的原因。除非將來要繼續升學,不然成績好像也不是這麼重要了,空有高分,卻沒有實力,也只能騙騙第一關的主管,後來就會原形畢露了吧。不知道有沒有一種藥可以在一夜之間增加一甲子的功力?我看有也輪不到我吃、吃了也會水土不服。XD


聯發科參觀紀錄

這次的Seminar去了竹科的聯發科參觀(下一次是到玉山銀行),聽說去年是廣達,我比較想要去廣達說...。

本來在參觀之前,我就有預料到因為時間的關係,應該沒有辦法做太詳細的介紹,加上這種參訪行程走馬看花的意味多過於實質上的意義(比如說介紹公司的福利、發送騙人小紀念品等等),但是兩個多小時的行程下來,其實還是頗有收穫的,這讓我還算開心。

參訪的行程是前面先做公司簡介和當資應遇上IC的兩場簡報,最後是以參觀公司做為ending。

公司簡報只有短短的15分鐘不到,很好,這種簡報通常不需要太久,因為資料在網路上都找的到(什麼年營業額、全世界有幾個branch、得過什麼獎...),花費時間如果過常有拖台錢之嫌。

接著是當資應遇上IC的專題簡報。這個報告是我覺得最有收穫的一場,演講的人是聯發科的一位副理,主要是在解釋公司在軟體開發上所運用到的一些技術和遭遇的困難。

比較讓我驚訝的是原來聯發科在大陸的白牌手機市場市占率這麼高?而且在開發相關韌體和應用軟體的時候,所需要耗費的人力成本及程式碼的複雜度是如此之高(據說製造一個手機的chip要撰寫相當於ten gigabytes的source code),不過好處就是辛苦一次可以吃很久的老本,副理說他們從2004年製造出來的chip到現在都還有在賣,生命週期相當的長,這和一般的資訊產品有很大的不同。而且聯發科所強調的是all-in-one的service,只要出廠的chip有問題,公司會負責之後所有的服務,通常都是靠軟體來解決硬體所遭遇到的瓶頸和困難。最讓我訝異的是聯發科印象中是做硬體的公司,但是內部的員工居然有高達百分之八十都是搞軟體的,只有少部分是在硬體上琢磨,這和我原本的印象大相逕庭啊!


【聯發科把燈關了,就什麼都沒有了。】這是那位副理所下的結論,意思就是說聯發科是一個完全依靠腦力和智慧撐起來的公司,只要關了燈,員工下班了,公司就什麼都沒有了。可見得聯發科是很注重員工的腦力價值的。

大公司該有的格局聯發科看起來都有了,事實上以我個人的角度來說,也是比較喜歡在大公司裡面工作,雖然有人會說在大企業裡面被忽略的機會比較大,小企業可以讓你的成就很快被發現(如果你夠厲害),但是畢竟格局還是不同,訓練的結果應該也有所差異吧!如果可以,希望我的第一份工作是在一家具有聲望和規模的企業囉!


聽演講

從以前開始我就是個還蠻喜歡聽演講的人,認為看到大師的風範和談話的方式可能有助於吸收一甲子的功力,也幻想自己將來可以站在台上對於自己有自信的議題侃侃而談...。

不過不知道是自尊心作祟還是大頭症發作,從前很多時候我都認為講者沒有說得很好。不是投影片不精采、就是流程不夠順暢、或是感覺有點敷衍,沒有很深入的講到核心重點。甚至一度覺得自己說的會不會比他們還好?!

記得上次Meeting的時候,老闆也和我們聊到關於聽演講的話題。他說:不管你們去聽什麼talk,都要盡可能的找出你可以學習的地方,即使你覺得那個speaker說得不好,對你還是有用的。

我那時候覺得很好奇,順口問了老師:老師,如果那個speaker說的真的很差、文不對題、台下的觀眾幾乎都要睡著了,那我還是要聚精會神的去聽嗎?

老師說了一個很關鍵的思考方向:可以學的東西不一定在他所說的議題中。更多時候在我們聽不到的地方!

老師進一步說:即便你覺得speaker說得不好,你還是有很多地方可以學習的。去思考為什麼他說得不好?哪裡不好?如果是你,你要怎麼表達相同的概念?到底是他不好,還是你的background不夠?

我回家思索了一下,如果消極一點想就是:既然我都花時間坐在那邊了,就認真一點吧!
積極一點就是把老師說的套用在聽演講上,如果覺得speaker說的真的很好,那就聚精會神、吸收其精華;反之,就朝老師所說的方向去思考,既來之、則學之!像塊海綿一般充實自己吧!

人生跑道

最近看到大學死黨某彭在研究要不要轉換人生跑道,也就是他想要走【資訊+藝術】的路線,還在討論要不要雙主修交大應用藝術所,還蠻佩服他的。換跑道是需要相當勇氣的,拋開過去所學,轉換到一個陌生、不熟悉的領域,也許新的領域是自己比較有興趣的,但是一切要從頭來過,想到就會令人頭皮發麻。

不過他要走的路算是有結合過去所學,我認為是頗適合他啊!畢竟純工程師或是MIS人員真的和他的image不合,也許他自己不認為吧(可能他又會說:事情都有兩面這種話XD),但是就我認識的他來說,藝術總監或產品設計這種title搞不好和他還比較速配。

這讓我想到以前大四的時候,我和他幾乎每天都留在實驗室裡面寫專題、準備推甄、胡言亂語人生大道理,還蠻懷念的,畢竟現在的我們因為轉換到新環境,相聚的機會比以前少很多,再加上研究所的loading,好像也很難回到以前那樣胡言亂語的年代,大學真是個充滿活力和青春的時期啊!

認識他也是蠻奇妙的,這個怪怪的人也讓我改變了不少,如果要說大學四年影響我最深的人,就算不是他,至少絕對有前三名跑不掉。不過人本來就是影響來影響去的,只要結果是自己承認、可以接受的,不就好了?問心無愧是最重要。

雖然他研究所的性情有改變XD,但是不要命的打拼這點看來還是有保留住,也許自己也不想要輸他吧,有種亦敵亦友的感覺哈哈。自己也要再努力一些,自己的目標和理想要由自己來開創!