Feed on
文章
迴響

「電腦科學」分類文章彙整

“MMDays 的新家在 http://mmdays.com,請大家告訴大家!舊址 (就是這裡) 將在 12/22 號之後,結束與新家的同步更新。還請網友轉往新站留言 : ) , MMDays 的永久 feed 位址: http://feeds.feedburner.com/mmdays”
Posted by Mr. Wednesday

網站名稱: WARM 網路上的人際關係
提供服務介紹:
這幾年部落格大行其道,沒有一個部落格就像是沒有名片一樣,部落格成了認識人與被人認識的流行大眾管道。而許多的部落格系統上都有提供所謂的好友連結功能,簡單來說,就是把另外一個人設成自己的好友。無形中,許許多多這樣的單向好友連結就在網路上形成了複雜的社交網路。於是乎,社交網路搜尋引擎這樣的服務也就應運而生。
WARM是由樹德資工的吳邦一教授帶領著資工系學生許無寒、許迺赫、李紀廣、管世達於2007年所完成,原本是專題研究,卻意外暴紅。以下就來進行各項測試。

Read Full Post »

“MMDays 的新家在 http://mmdays.com,請大家告訴大家!舊址 (就是這裡) 將在 12/22 號之後,結束與新家的同步更新。還請網友轉往新站留言 : ) , MMDays 的永久 feed 位址: http://feeds.feedburner.com/mmdays”
微軟即將把Social Networking帶入Xbox Live的服務之中。XBox Live是微軟的線上遊戲服務,讓使用者可以與朋友一同進行線上遊戲。過去XBox Live提供有聯絡清單的功能,而這次新的改變,將可以讓使用者看到朋友的朋友,提供更多的對戰機會。
Ars Technica認為這項特徵是”very MySpace”,但是XBox Live上的Social Networking將不會以相同的型式出現。過去的XBox線上遊戲就包含了語音交談,所以社交面向的特徵將不會類似個人資訊頁面或是一般社交網站的作法,而會是一個以傳統文字型態存在更為社交的服務。
資料來源:TechCrunch

Read Full Post »

“MMDays 的新家在 http://mmdays.com,請大家告訴大家!舊址 (就是這裡) 將在 12/22 號之後,結束與新家的同步更新。還請網友轉往新站留言 : ) , MMDays 的永久 feed 位址: http://feeds.feedburner.com/mmdays”
Google搜尋力量的強大相信許多讀者已經親身體驗過,甚至用Google找出私人的電話住址也不是太奇怪的事了。但是您能想像用Google找出您在網路上使用的密碼嗎?
目前許多網站的使用帳號都會利用密碼保護,而存在資料庫中的密碼如果不是直接用明文儲存(通常不會這樣做,萬一被駭客入侵那後果不堪設想),就是會經由雜湊後(例如MD5或是SHA-1等hash function)再儲存。不久之前Cambridge University security team發生被駭客入侵的事件,駭客翻出了資料庫中的帳號密碼紀錄,但是密碼已經被MD5雜湊處理過所以無法直接使用。經過幾次字典法的嘗試失敗後,駭客把腦筋動到了Google身上,。駭客將本身創建的帳號調整到管理者的權限。駭客入侵的動作很快就被管理者發現,也將新建的帳號關閉,但是管理者進行了一些有趣的實驗希望找出駭客建立的帳號的密碼。在嘗試使用字典法失敗後,轉向從Google上尋找解答。直接把得到的密碼雜湊,20f1aeb7819d7858684c898d1e98c1bb,丟到Google上查詢,結果得到的搜尋結果都含有Anthony這樣的特徵,最後駭客使用這組密碼成功破解最後管理者終於找出了駭客使用的密碼。
原來是因為網頁URL透漏了這樣的訊息!許多程式或系統會用雜湊後的碼來當作網頁的索引,而進行雜湊時所使用的字串也經常與該網頁內容有關。簡單來說,Google成了一個超大的雜湊碼字典了。
資料來源:BLORGE.com

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
之前幾篇文章稍微提到了計算神經科學想要以數學的方法,計算出神經生物上詳細的模型,好的模型還可以在拿回電腦科學領域,尤其是人工智慧的問題上面,作為解決的方法。至於現在的機器學習方法,為甚麼我覺得不夠用呢?我主要是覺得困難在三個地方:特徵 (feature) 的擷取,參數 (parameter) 調整過程中需要人的參與,以及文字意義 (meaning)學習上可能會有困難。以下就這三個部分來做個討論,順便討論計算神經目前能夠解決的部分,和未來有可能達成的目標 (人機介面: Brain-Computer Interface)。
首先先和各位談談二項式係數。不知道各位是否有學過多項式呢?如果不知道二項式係數,可以先看看下面這個巴斯卡三角形:

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
顯然電腦科技改變的,不僅僅是我們的上網生活而已,在這一次 DARPA Urban Challenge 的比賽之後,相信許多人會真正感覺到,電腦科技真的已經準備好要深入我們的日常生活之中了.有些讀者可能不知道 DARPA Urban Challenge 是什麼東西,我在之前的一篇文章 無人車橫越沙漠! – 初探 Computer Vision (電腦視覺) 有介紹過,有興趣的讀者可以回去翻閱,這邊我就簡單地再說明一次.DARPA機構隸屬於美國國防部,該機構旨在促進美國國防部科技及工程上的研究發展,DARPA 之前為了促進自動車無人駕駛的科技,在 2004 年曾經在 Las Vegas 沙漠舉辦無人車自動駕駛挑戰 (DARPA Grand Challenge 2004),也是在為美國國防部尋找千里馬的一個計畫。但是 2004 年的這個比賽全部參賽的隊伍通通槓龜,沒有任何隊伍的自動車跑完全程.因此在 2005 年又辦了同樣自動車橫越沙漠的競賽,該競賽最後由史丹佛大學 (Stanford University) 奪得最後的冠軍,順利跑完全程,抱走獎金兩百萬美金.

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
剛剛看了這篇很棒的文章 Forget Platforms And Applications, Data Is The Real Asset On the Web,心有所感所以趕緊寫下了這篇文章,如果各位讀者懶得看該篇文章,那我在這邊就稍微提一下該篇文章的內容,之後再說說我自己的看法.這篇文章講的東西呢,用四個字來總結,就是資料為王.什麼意思呢?是這樣的,這篇文章的作者觀察到現今網路上的新興網站,大多著重在平台 (platform) 和應用 (application) 本身,卻忽略了在 Web 2.0 的網路時代,最重要的是資料,而不是花俏或是功能強大的平台.也就是說,Web 2.0 本來的重點就在於使用者回饋,使用者產出以及使用者得到回報,真正有價值的東西在於使用者幫你累積的資料,而不在於你的平台本身,平台本身,一但缺了使用者和資料,在現在的網站時代是毫無價值的.

Read Full Post »

 “Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
在今日我們可以從網路上吸收大量資訊,有時候一堆文章看不完。如果我們想要吸收資訊,時間卻又不夠的時候,使用電腦幫我們過濾資訊,或是用電腦幫我們做個總整理,是個方法。如果今天手中有一篇文章,我們想要用電腦幫我們找出這篇文章最重要的關鍵字,要怎麼做呢?在資訊檢索 (IR: Information Retrieval)領域裡面,有個基礎的方法,入門必學的方法,就是使用 TF 和 IDF (TF: Term Frequency, IDF: Inverse Document Frequency)。使用這兩個估計值,可以讓電腦具有計算重要關鍵字的能力,進而節省我們的時間。
接下來讓我們看看,TF 和 IDF 個是甚麼東西呢?TF 全名是Term Frequency,也就是某個關鍵字出現的次數,譬如說某篇文章裡面,「電腦」這個詞出現很多次,或是「使用者需求」這個詞出現很多次,那麼這些詞句的出現頻率,就會很高。一篇文章中出現很多次的詞句,必定有其重要性。譬如說一篇論述「人工智慧」的文章,「人工智慧」這個詞句再文章中出現的頻率也一定很高。然而為甚麼除了 TF (Term Frequency) 以外,還要有 IDF (Inverse Document Frequency) 呢?

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
在 Google 和其他搜尋引擎公司的大軍壓境之下,在搜尋引擎的技術這方面,應該是沒什麼人想要正面跟這些大公司衝突才對.不過 Eurekster 這一家在 2004 年成立的公司對於搜尋引擎的玩法倒是巧妙地結合了社群和個人化的垂直搜尋引擎 (vertical search engine).推出類似 Wiki 的有趣應用.這是目前各大搜尋引擎公司都尚未推出或成熟的服務和應用方式.其運作模式不僅值得我們一探究竟,其實也代表了搜尋本身的演進.(事實上,Eurekster 算是一家成立於紐西蘭公司,不過重心現在已經放在舊金山)

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
在《從尋找質數談談搜尋演算法》一篇文章裡面提到質數搜尋演算法,約略提到了一點演算法 (Algorithm) 以及 搜尋(search) 演算法。簡單地說,搜尋演算法就是要在一堆可能是答案的輸入資料 (input data) 當中,找出符合條件的答案。之前在《排程問題與CPU Scheduling》裡面提到了Job-Shop Problem是一個很難的排程問題 (Scheduling Problem),是NP-complete。本篇就簡單介紹一下搜尋演算法、「旅行中的商人」這個問題如何使用搜尋演算法、NP-complete的定義、以及最後提一下對偶問題(Dual Problem)。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
如果今天有一台機器,N個人要用,每個人使用的時間分別是t1, t2, …, tn,那麼怎樣子才能讓等待的時間最少呢?如果是以每個人的角度來說的話,當然是先搶先贏啦!不過如果是以這N個人所屬機構的角度來看,要讓全部人的等待時間最少,要如何安排使用機器的順序呢?這個時候作業系統 (OS: Operating System) 裡面的CPU Scheduling方法,就可以參考了!
首先我們先看看N個人不同的先後順序有幾種組合呢?答案是N!(N階層)種組合,譬如說5個人先後順序的組合方法就有5! = 120種組合,裡面包括第一個人先、然後第二個人、第三個人、第四個人、第五個人執行,也包括第一個人先、然後第三個人、第四個人、第五個人、最後才是第二個人執行,以及更多種組合的方法。因此我們排程的解答,就是在這麼多種組合(N!種)裡面,找到一個執行的順序,大家等待的時間加總起來是最小的。然而要怎麼找到這個解答呢?

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
Amazon 在今天終於讓許多人期待已久的線上音樂商店正式上線了,名為 AmazonMP3,自此 Amazon 正式加入販賣數位音樂的大戰,與 Apple 的 iTunes 構成直接的競爭,根據 Amazon 官方的說法,他們的音樂商店提供了超過兩百萬首歌,其中飽含超過十八萬個歌手和兩萬個唱片公司的歌曲。亞馬遜推出這個音樂商店,實際上已經是算是相當晚進入市場,亞馬遜這個音樂商店所主打的,是他們對於 DRM (Digital Right Management) 的處理方式較為寬容,從亞馬遜下載的音樂,可以在幾乎市面上所有的播放器播放,包括蘋果公司的 iPod 和 微軟的 Zune,而且使用者可以無限量地把購買的音樂複製到自己的所有數位裝置之上,不受次數的限制。這與處處限制使用者的 iTunes 相當不同,iTunes 買下來的音樂常常只能在 iPod 上面播放,買下來的影片也有授權次數的限制,DRM 實行地相當徹底,但相信這樣的做法讓許多使用者相當地不舒服。AmazonMP3 上面的音樂,價格和 iTunes 幾乎一樣 (一首美金 0.89 cents 或是 0.99 cents),有些甚至比較便宜,加上對於 DRM 比較寬鬆的處理方式,比起 iTunes 似乎比較吸引使用者,但是亞馬遜這一家從九零年代末期網路泡沫中少數生存下來的網路公司,實際上還有一項強大的武器。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
有句話是「一張圖勝過千言萬語」(One picture is worth a thousand words.)。照片的分享可以讓我們接收更直接的視覺資訊。目前網路上有很多網路相簿,我們透過手機或是數位相機得到的照片可以放在網路上,分享給朋友。然而 Web 2.0 是否能夠帶來更新的分享方式呢?本篇文章想從地區化應用 (location-based) 開始談起,由三個座標軸來探討:時間 (過去、現在、未來)、地點 (使用者所在位置、使用者不在的位置)、以及分享方式 (同步、非同步),並且提出照片分享在交友上的應用,以及交友和直銷,與 Web 2.0 的 business model 的關係,期待和大家的腦力激盪 (brainstorming),可以創造出更多想法。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
機器翻譯是一項不容易的事情。在等待機器翻譯的技術之前,也許我們可以先考慮以 Web 2.0 的方式來翻譯。想法很簡單,先從 Wikipedia 和 Wiktionary 來看,我們如果打算開始,就是開發一個類似的平台,然後由使用者來貢獻內容,只不過貢獻的內容是「翻譯」的內容。然而光是這樣子,可能還不大夠,首先就是有「誘因」(incentive) 的問題,使用者願意分享翻譯內容的誘因需要思考。其次是商業模式 (business model) 的問題,開發這個平台的人是否能夠獲取報酬。我想 Web 2.0 的服務,最頭痛的應該就是這兩個問題,甚至內容分享上還會有著作權的問題。不過我們既然有了大腦皮質,有問題也不用怕,只要肯花腦筋,我想沒有甚麼問題是無法解決的。下面我就先設想一下機器翻譯可能遇到的問題,然後提出結合以 P2P為架構 的通訊軟體 Skype 的 Web 2.0 翻譯服務,並探討其可能的優點和缺點,如果有興趣的人也不妨繼續烹調這個點子吧!

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
今天要講的「囚犯困境」,和最近的減刑新聞沒關係,而是指一種賽局。囚犯困境(Prisonner’s Dilemma)是描述抓到兩位囚犯,然而因為證據不足,所以就把這兩位囚犯分開到不同的房間裡面審問,並且分別和他們說,如果提供對方犯罪的證據,而對方保持沉默的話,對方要做10年的牢,而你可以無罪釋放。如果你提供證據,他也提供證據,那麼你們兩個各坐5年的牢。如果你們兩個都保持沉默,那麼因為證據不足,你們兩個分別坐牢6個月(半年)。所以根據這個規則,和囚犯可能的選擇,化成一個結局的矩陣如下:

0代表無罪釋放,-10代表坐牢10年,-5代表坐牢5年,-0.5代表坐牢半年。
甲方可以選擇沉默或是指認對方犯罪的證據,乙方也可以選擇沉默或是指認對方的證據。在甲乙兩方都不能串通的情形下,假設他們用理性來判斷,則甲乙兩方分別會做甚麼樣子的選擇呢?

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Saturday
之前 Mr. Saturday 曾經在 無人車橫越沙漠!–初探 Computer Vision (電腦視覺) 一文中粗淺地介紹過電腦視覺這個有趣的研究領域,裡頭中有提到了美國國防部對於這類研究之所以這麼重視,主要還是因為電腦視覺的技術一但成熟,應用到軍事科技上,將會有相當可怕的成果出現,為什麼說可怕呢?因為美國要是真正打造出智慧型的無人載具,那麼其軍事力量將會更加強大,最近我在經濟學人上又看到了一篇有關於無人載具 (unmanned vehicles) 的相關報導,裡頭就是在講有一位教授 Ronald Arkin 最近在做的事情。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Thursday
這篇文章的標題翻譯成中文是:「康威:生命遊戲」。康威(John Horton Conway)是一位劍橋的數學家,生命遊戲是他在1970年發明的小遊戲。這個遊戲是一個模擬遊戲,首先有一個長方形棋盤,裡面劃分成許多小格子。每一個可以是活的細胞或死的細胞。每一步棋盤的狀態可以影響下一步的狀態,規則是:

如果某一格細胞在時間 t 是活著的話,那麼在時間 t+1 的時候

如果這格細胞只有一個鄰居或沒有鄰居活著的話,就死去 (因為孤獨)
如果這格細胞有四個或更多鄰居活著的話,就死去 (因為擁擠)
如果這格細胞剛好只有兩個或三個鄰居,則繼續活著

如果某一格細胞在時間 t 是死的話,那麼在時間 t+1 的時候

如果這格細胞剛好有三個鄰居的話,就活起來

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Saturday
您可能已經覺得搜尋等於 Google,您也可能覺得搜尋市場早就已經成熟到不能再更熟了,實在是不知道對於一些想要在網路創業的人,搜尋還有什麼機會可言。但是事實是,專家都認為,現在存在於網路上的搜尋功能,其實只把搜尋的所有潛在能力開發了 5% 而已。是的,只有百分之五,簡直就是冰山一角,下面還有整座冰山等著我們去發掘。這座冰山的本體就是今天 Mr. Saturday 要來介紹的語意搜尋 (Semantic Search,也有人作語義搜尋)。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
我們要在網路上找東西的時候,常常會到搜尋引擎裡面,打關鍵字來找文章。然而今天要提到的搜尋演算法,卻和搜尋引擎的「搜尋」兩個字的意思有些不一樣。所謂搜尋演算法,就是一種演算法(之前提到演算法可以看成是一堆步驟,有先後順序,有重覆執行的步驟,有依照條件不同而部分執行的步驟),這個演算法可以幫忙我們解決一個問題,就是在茫茫大海中找到一根針。
舉例來說,今天可能遇到一個問題,是要找出1到100之間的質數。所謂的質數(prime number),就是除了1和他本身可以整除以外,其他小於他的數字都沒辦法整除他,舉例來說:7是質數,因為除了1和7,其他數字像是2,3,4,5,6都沒辦法整除7,所以7是質數。也許你會感到奇怪,我們沒事尋找質數要做甚麼呢?其實質數扮演滿多重要的角色,尤其在之前Mr. Friday在〈ClickClickClick的中忍考試 : 民族主義與網路安全?〉提到資訊安全的問題,一些非對稱式的加密演算法,就是建立在質數的基礎上面,因為質數不好分解,所以兩個乘在一起的質數要分解開來,需要花費很多時間,當花費的時間夠久,加密得到的保障也越大,也就達到加密的效果(譬如說某個密件10年後才能公開,這個演算法能夠讓駭客10年內無法解開就算有效)。因此,找到大質數也是件很重要的事情。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Saturday
我們都看過諸多美國影集裡,犯人的臉被攝影機拍下之後,送進聯邦調查局的罪犯資料庫進行地毯式的人臉比對,找出犯人身分的情節,雖然一般人似乎與這種比對系統無緣,但是以圖找圖 (search by image) 這個概念,也許有朝一日可以讓我們體驗更有趣的應用。這篇文章就帶大家一窺以圖找圖的有趣世界。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
雖然很多人擔心網路產業的獲利模式始終沒有太大的創新和突破,不過網路廣告的相關技術確實一步一步地向前發展,Mr. Saturday 其實一點也不悲觀。而今天要介紹的 AdSense for Video,就是近幾個月來逐漸受人矚目的新廣告方式。之前 Mr. Saturday 曾經在從超文字連結 (Hypertext) 到超影像連結 (Hypervideo) 一文之中介紹過 hypervideo 的概念,並且說明了相關技術和廣告嵌入的方式,不過由於這些相關技術在市場上的應用尚未成熟,因此距離該文中提到的理想情境還有一段路要走,如果大家還記得的話,hypervideo 牽涉到的一個關鍵技術是 pattern recognition,但是 AdSense for Video 則是採取截然不同的技術和廣告方式。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
Web 2.0?Web 3.0?Web 4.0?幾點零都好,現在史丹佛大學 (Stanford University) 的一個團隊選擇不跟大家爭論這些名詞的定義,他們選擇重新發明一個新的網際網路!史丹佛大學這個跨領域的研究團隊認為現今的網際網路存在著一些相當基本的重大缺陷,所以他們想要重新塑造一個全新的網路,把著眼點放在解決現在網際網路上層出不窮的安全問題。這個計畫就是該大學於去年提出的 Clean Slate Design for the Internet。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
每天早上醒來,我們通常會洗臉刷牙,吃早餐,搭車上班或是上學。有時候我們為了節省時間,會開始「平行處理」,譬如說:我們一邊擠牙膏的時候,可能一邊開水龍頭把水裝滿,同時完成兩件事情,減少等待閒置的時間。這就是平行處理的一個例子。我們如果把工作分成兩部分,同時給兩台機器跑,那麼原來需要一小時的工作,現在就可以在半小時內完成了。以此類推,如果有n台機器,那麼就能以 n 倍的速度完成原來的工作。平行計算如此好,然而卻會遇到一些問題,同時也有新的問題會產生。
第一個問題是工作的完整性 (atomic) 和同步性 (synchronization) 的問題。譬如說餐廳的訂位系統,訂位的步驟有兩步:(1) 查詢現在剩下的位子 (2) 如果有位子的話,就把位子訂下來,否則回覆沒有位子。這個演算法非常簡單,只有兩個步驟。如果今天我們想把這個系統用平行計算來處理,達到節省時間的效果,會發生甚麼事情呢?

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Wednesday
還記得Mr. Wednesday先前介紹的那篇”資訊視覺化 - Digg Labs“嗎?最近,Digg Labs又推出新玩具了喔。這次是個叫做Digg Arc的新介面。

圖片來源:information aesthetics

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Saturday
大家都說一圖抵得千言萬語,也許對於學習數學的人來說,一個數學公式也是「一式抵得千言萬語」,我們這邊就拿 PageRank 這個演算法來講好了,PageRank 一直是搜尋引擎最佳化這個產業最為關注的焦點之一,那麼你的網頁 PageRank 是怎麼算出來的?請看以下的式子:

其中

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Wednesday
維基百科(Wikipedia)是一個自由的百科全書,由一群熱心的使用義務幫忙維護與更新。截至目前為止光是英文的條目就有高達180萬個,而且這個數字仍然持續在增加中。不知道大家是否有想過,在這浩瀚如海的知識庫裡,哪些條目的活動最熱烈,最具爭議,或者說更動最為頻繁?Bruce Herr與Todd Holloway兩位研究員最近完成了一個工作,將維基百科上的條目做了視覺化的呈現,他們稱之為”Power Struggle in Wikipedia“。如下圖所示。

圖片來源: A Beautiful WWW
(另外,高解析版本的圖片可從這裡下載,79MB,有點大,請耐心等候。高解析圖片來源:Net Sci 2007。)

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Saturday
最近 PTT 的八卦版有一些人在吵一個很有趣的問題:「寫程式究竟需不需要懂數學?」問題一出現之後,正反意見立刻於板上展開廝殺,有些跨入業界的人主張數學不是那麼 重要,最重要的是主管要你的 code,你能準時交出來就好了。也有的人主張數學很重要,寫程式一定要懂數學。我的想法是,數學對於程式設計的發展有著非常重要的角色,然而是不是每個學習程式的人都需要去學習數學,或著是學到某個程度,就是見仁見智。你不懂數學,但是把工具和程式語言用得好,並且能夠展現出軟體工程的素養,你是一個軟 體業界需要的重要人才。你懂了數學,可以打造出更有效率的演算法,對於 Google 這種愛計較搜尋效率和結果的公司,你還是一個重要的人才。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday & Mr. Saturday
(註:本篇文章有一點長,請耐心服用 XD)

想像一下,我剛才說了一句話,那句話是:「想像一下,我剛才說了一句話,那句話是:「想像一下,我剛才說了一句話,那句話是:……….」」,如此下去,就好像站在兩面平行擺設的鏡子中間,鏡子中的影像不斷的重複。再舉個例子,寫完一封信想要匿名保密,就署名「知名不具」。回信的人寫:「知 知名不具 具」。之後再回信的時候就變成:知知知名不具具具,加上括號可能比較清楚:(知(知(知名不具)具)具)。
遞迴就是類似這樣子,不斷的重複同樣的東西,只不過每次重複的是比較小的東西了。大家應該對數學歸納法不陌生,在使用數學歸納法時,我們首先確定 n=1 的時候某件事情是成立,然後在證明 n 到 n+1 的過程是正確的,就可以從 n=1 的例子,一路推論出第 n 項是甚麼東西。就像是推骨牌一樣,把第一張牌推倒了之後,剩下的骨牌自然就被前面的骨牌給推倒。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Friday
延續之前的話題. Winny自2002年由金子勇發表之後, 立刻快速榮登日本第一大P2P分享軟體. 然而人紅是非多, 沒多久(2003年8月)就出現一種專針對Winny而來的病毒Antinny, 會偷偷把使用者的資料洩漏到winny上, 連續造成多起日本軍警機密資料外洩; 加上Winny上所分享的多以版權物為主, 嚴重侵犯著作權, 因此引起日本政府的高度重視.
2003年11月28日, 日本警方宣稱破解了Winny的匿名機制, 並逮捕了兩名使用者, 分別是41歲的Yoshihiro Inoue與19歲的少年. 咦, 看到這裡大家一定覺得很奇怪, Winny不是承襲了Freenet的匿名機制, 為什麼還會被警方給破解了呢?

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Friday
上一篇提了Winny的運作原理, 現在讓我們來了解一下Winny這套軟體的緣起吧.
Winny作者金子勇(Isamu Kaneko), 原是日本東京帝大(經網友雞屁更正: 東京大學)的資工所研究助理, 也曾在日本自動化能源研究機構(Japan Atomic Enerygy Reserch Institue)待過一陣子. 他最初在2ch是以匿名身分發表文章的. 由於2ch鄉民對匿名者都直接以文章編號稱呼之(有點類似Ptt上常講的五樓), 因此他的網路化名就變成47號.
在2002年Winny出現之前, 日本本地最流行的P2P軟體是WinMX. WinMX使用與Napster相當類似的網路架構(Opennap). 使用者先連到一個伺服器(日文術語叫”鯖”), 然後才能與在同一個鯖的使用者交換檔案. WinMX有一個特點, 就是每個人能控制要把檔案分享給誰, 因此如果你高興的話, 可以讓某個人插隊 : 讓他優先從你電腦上下載他要的檔案. 這個特性進而衍生出一種交換機制: 要下載時, 得先請問對方願不願意讓你下載, 而對方往往是先看幾眼你電腦裡有哪些東西, 如果有他感興趣的, 則兩方才會進行下載. 換言之, WinMX的運作方式就像是回到貨幣還沒出現的時代, 古早人所採取的”以物易物”. 為了搏取對方的好感, WinMX使用者常被教導要”懂禮貌”: 手上的檔案要多, 要先把自己手上的檔案整理得一清二楚, 讓對方看你檔案清單時能快速找到他要的東西, 說話要客氣, 網路連線速度要開高一點…等等.
雖然WinMX在2002當時在日本就已經相當流行, 但金子勇顯然對它相當反感. 他曾經說過, WinMX只能算是”交換”軟體, 而不能算是”分享”軟體. 因此在2002年中他獨立以c++程式語言, 撰寫了Winny這套軟體. 從名字就可以看出Winny跟WinMX的關係 : [...]

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
上回和各位分享了KNN演算法。不過在演算法的歸類上,我錯把KNN歸類成非監督式學習,英文稱為unsupervised learning。在這邊我重新定義監督式/非監督式學習:監督式學習是說,我們把資料給機器學習的時候,資料會有label,也就是說,每一個資料對應的正確答案,都會給機器看。機器學完以後,會產生一個模型 (model),也就是他學習完的成果,之後遇到新的資料,他就用學習出來的模型來判斷新的東西,輸出新東西該有的正確答案。用之前判斷大頭照是男生或女生的例子,每一張照片給機器學習的時候,除了照片本身,還會讓機器知道每張照片的正確答案 (男生還是女生)。之後機器用他學出來的模型 (model) 來判斷新的照片,接著輸出答案 (男生或女生)。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Friday
從BT, IP-TV系列之後, 好一陣子沒有回到P2P主題上了. 一方面是因為懶(這類的題目要做功課啊…), 另一方面則是對這次的主題感到相當惶恐. 惶恐? 因為這次我要講的P2P軟體主題, 是在台灣不甚流行(其實也只有日本流行)的Winny. 由於我自己親身接觸Winny的經驗少之又少, 對日文又不了解, 只能從一些相關的中文新聞與討論看到旁枝末節, 因此接下來的文章如果有明顯謬誤的話, 還請各位不吝指正.
日本所流行的P2P軟體與世界其他各地非常不一樣. 根據去年12月的報導, 排名第一的Winny大約每日有40萬人次, 再來據說是WinMX, 第三是Share, 約有10~15萬人次. 聽慣BT和eMule的朋友一定覺得很奇怪, 日本人幹什麼偏偏要特立獨行, 別人在用eMulel你們偏偏愛用自己寫的Winny呢? 其實說起來也沒這麼奇怪, 早期的P2P軟體(像是Napster啦, Audiogalaxy等等)是只支援英文的, 想找其他語言的可麻煩了. 還記得以前我在Napster上打”faye”(王菲英文名), 跑出來一堆”chi_ai_mo_sen_ran”(只愛陌生人)…. 在這種情況下, 想用自己語言的日本人只好自己寫囉, 這套軟體後來大家用慣了, 也就不想改用eMule了. 這就是本系列的主角: Winny. (台灣人也自己寫過中文的P2P啊! 別忘了ezPeer與Kuro這兩套軟體)

Read Full Post »

KNN演算法

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
各位看到標題,如果沒有聽過KNN演算法,會不會覺得疑惑:KNN是甚麼呢?是不是CNN看久了,就變成DNN、ENN、最後變成KNN了呢?當然不是啦 XD!KNN全名是k-th nearest neighbor,中文意思是「第k位最接近的鄰居」。甚麼是「第k位最接近的鄰居」呢?假設在一個廣場上,有100個朋友,每位朋友都是你的鄰居,最接近你的鄰居,就是「第一位距離最近的鄰居」了,比第一位稍微遠一點的鄰居,就是「第二位距離最近的鄰居」了,以此類推,第10位距離最近的鄰居,就是k=10的時候了。
至於KNN演算法是甚麼,又有甚麼特別呢?之前提過了「人工智慧與機器學習」。KNN演算法就是一種機器學習的演算法。在進一步探討甚麼是KNN演算法之前,我們先介紹一下甚麼是演算法。演算法可以看成是一種「步驟」的集合。舉例來說:我們煮一道菜,第一步是先洗菜,第二步切菜,第三步放油,第四步快炒,第五步加點水悶幾分鐘,第六步再炒幾分鐘,最後第七步加鹽和味精,然後炒到菜煮熟為止。演算法就是這樣子,把工作分成詳細的步驟,有些步驟可能會重複執行,像是菜不夠鹹,就再加點鹽,一直到口味對了為止。有時候會依照情況的不同而有不同的步驟,像是過馬路的時候,如果是紅燈,我們重複「等待」的步驟,如果是綠燈,我們會進行「走路過斑馬線」的步驟。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
Web2.0還不夠,現在連自然觀測都來個2.0,UC Berkeley的工程教授Ken Goldberg最近開始了一個為期三年,有關自然觀測的實驗性計畫CONE SUTRO FOREST (Collaborative Observatory for Natural Environments),讓大家現在不用出門,上網路就可以賞鳥!當然看到這篇文章的標題寫著斗大的2.0,大家很快地就會意識到,這又是一個集眾人之力達成共享及創新的計畫。沒錯,這是一個大家可以上網隨便去玩的計畫。以下我們來了解一下這個計畫的背景和內容。

Read Full Post »

人與機器

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Thursday
在簡單介紹了人工智慧與機器學習之後,我們知道機器學習過程包括了訓練 (training) 和預測 (prediction) 的過程,學習 (learning) 方法從資料 (data) 裡面的特徵 (feature),建立起模型 (model),再用來預測 (prediction)。現在讓我們簡單比較一下人和機器的不同點。我們先用下面幾個面向來分析:生理、心理、工作效率、以及智力。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
你可曾想過,無人駕駛、無人遙控的一台無人休旅車可以自己橫越132 miles (相當於220公里) 的沙漠,從頭到尾以電腦系統自動控制不偏離道路,最後順利抵達終點?其實這項壯舉,早在兩年前就已經有人達成了。也意味著原本在霹靂遊俠李麥克才可以看到的智慧型汽車,不再是遙不可及的夢想。由史丹佛大學的年輕教授Sebastian Thrun領軍的電腦視覺團隊,在2005年的十月參加由美國國防部舉辦的DARPA (Defense Advanced Research Projects Agency) 挑戰計畫 (DARPA Grand Challenge),順利讓無人駕駛車Stanley (見左圖) 橫越沙漠,抱走兩百萬美金的賞金。這項挑戰計畫是由美國國防部的DARPA機構提出,該機構旨在促進美國國防部科技及工程上的研究發展,這次舉辦的無人車自動駕駛挑戰,也是在為美國國防部尋找千里馬的一個計畫。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Thursday
人工智慧(Artificial Intelligence)簡稱A.I.。在一些電影裡面,我們可能會看到具有智慧的機器人,和人類一樣可以說話,能夠幫忙人類工作,有時候還會出現統治人類的劇情。其實能夠創造出一部機器,具有人類的智慧,對我們來說即使不是最好的,至少也是好壞參半。有了人工智慧,一些比較枯燥乏味,卻又需要人類的能力才能完成的工作,就可以交給機器來處理。至於人工智慧衍生出來的失業問題、倫理問題、甚至人類將來安危的問題,雖然不容易解決,但是就現階段人工智慧的發展,也許要下一個世代,才需要煩惱這些問題了,目前人工智慧的產品還沒有到讓人類面臨危機的地步。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
在現在的全球資訊網上,網站與網站之間的連結主要來自於文字的超連結,就是大家所熟知的超文字連結hypertext,那麼有沒有文字之外的連結呢?可能不好想像,不過現在網路上最流行的連結方式,實際上早已經跳脫一般文字的連結了:那就是透過標籤(tag)來連結,現在YouTube或是很多social network或是social content的網站都讓使用者可以為自己的內容加入tag,作為內容的metadata,網站就根據該內容的標籤,來決定相關以及類似的其他內容提供給 使用者。這已經是一種跳脫於hypertext靜態連結的方式了,網路越來越聰明,越來越能透過這些metadata來提供有價值的動態連結給網民。 Google的AdWords和AdSense的人工智慧也是一個超脫於一般純文字連結的動態方式。不過這些技術呢,本質上還是透過文字來連結。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Saturday
寫程式的人都或多或少會有這種感覺,別人的code看起來總不是那麼地順眼,閱讀自己的code才是像閱讀好書一樣如行雲流水般順暢。其實寫code如寫書,不僅寫給自己看,同時也寫給別人看;開發軟體也往往有如打造一件工藝品,投入其中的巧妙心思及用心,會影響到最後呈現出來的結果。所以,寫程式本身可以是一種藝術,而不僅僅是一件耗費勞力的枯燥工作。這也是為什麼Knuth要把他的巨著取名為The Art of Computer Programming,他認為打造軟體是困難的,是一種複雜度以及最後呈現結果足夠作為一件藝術品的一種過程。當然以Mr. Saturday的觀點來看,要邁入如創造藝術品般地去打造軟體這樣的一個境界,實在不是我們這種實力淺薄之人一日可成的事。所以,我還是比較喜歡寫code如寫書這個切入點。

Read Full Post »

“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted by Mr. Friday
前幾篇BT系列文刊出之後迴響熱烈, 看來大家都有聽過BT的名頭, 或多或少也都曾經下載過 , 不過對於BT在各種層面的影響似乎沒有非常深的認識. 今天要來討論的主題顯然也是許多使用者長年以來的疑問: 為什麼BT沒有內建搜尋功能? 雖然真正的答案可能只有Bram Cohen才知道, 不過這裡將從P2P軟體設計及網站架設的困難度, 試著尋求合理的解釋.

Read Full Post »