“Blog 的新位置在 http://mmdays.com,本Blog將在 12/22 號之後,不同步更新。還請網友轉往新站留言:)”
Posted By Mr. Saturday
您可能已經覺得搜尋等於 Google,您也可能覺得搜尋市場早就已經成熟到不能再更熟了,實在是不知道對於一些想要在網路創業的人,搜尋還有什麼機會可言。但是事實是,專家都認為,現在存在於網路上的搜尋功能,其實只把搜尋的所有潛在能力開發了 5% 而已。是的,只有百分之五,簡直就是冰山一角,下面還有整座冰山等著我們去發掘。這座冰山的本體就是今天 Mr. Saturday 要來介紹的語意搜尋 (Semantic Search,也有人作語義搜尋)。
現在網路上的資訊和網頁都是設計給人看的,人們在網路上可以暢行無阻。比如說我今天可以上網想辦法四處收集「便宜的 iPhone」的資訊,也許我以 Google 為起點開始搜尋,或是我先上 eBay 找看看有沒有人開始在拍賣 iPhone 了,然後自己把相關的資訊彙整起來。又比如說我今天想要找「我家附近便宜又好吃的餐廳」,那我的第一步也許就是上去一些美食網看一看大家對於一些餐廳的評價,彙整起來之後再決定要去哪一家餐廳用餐。對於人來說,這些都是再簡單也不過的事情,但是對於電腦來說,這些動作卻極其困難,在沒有人類的輔助之下,我們的電腦現在還沒有聰明到可以幫我們自動完成以上的事情。
因此,Semantic Search 想要解決的問題就是,讓人們可以用自然語言的方式來指示電腦去幫我們完成指定的工作,以上面舉出的例子而言,我們可以直接對搜尋引擎下指令 「便宜的 iPhone」或是「我家附近便宜又好吃的餐廳」,然後電腦就開始自己跑去網路上幫我們匯集資訊,也許電腦看到我們的指令之後,還會聰明地進一步詢問「您所說的便宜是大概希望在什麼價位呢?」或是「您希望吃些亞洲的食物呢?還是西餐?還是沒差?」,然後跳出一個互動式的選單讓我進一步表達我的意見,而且這個意見我也可以用自然語言來輸入。
這樣的一個願景,想像起來很容易,但是實行起來卻相當不容易,有賴各方技術的成熟,首先我們考慮到的會是自然語言處理的問題,自然語言的 query 現在在搜尋引擎上並非主流,大家都知道現在主流的搜尋引擎都是以關鍵字 (keyword) 查詢為主,使用者輸入分開的幾個關鍵字,搜尋引擎幫我們找資料,有很少的機會我們會去輸入整個句子當作是 query。為什麼呢?因為自然語言的處理還有很大的改善空間,人們輸入的句子千奇百怪,電腦理解的能力還很有限。美國有一些 startup 主要就是在解決這方面的問題,其中做得比較好 (或是說跑得比較前面,因為這類技術距離令人滿意還有一大段距離) 的一家公司是 AskMeNow,這家公司也是做搜尋的,不過完全是作 mobile 手持裝置的搜尋,他們已經整合了一些自然語言處理的技術到他們的搜尋引擎裡面,在今年的 CTIA WIRELESS 2007 中亮相 demo 給大家看。不過他們的 Semantic Search 目前僅支援 directory、運動類、以及企業資料等特定領域的搜尋。這又告訴我們另外一件事情,那就是 domain knowledge 對於 Semantic Search 的重要性。
就如同先前所提到的,現在網路上的資訊主要是給人看的,如果想要讓電腦也能夠像人類這樣收集和瀏覽資訊,就有賴於一些另外的技術。我們都知道,網路上的資料都是以 HTML 的方式呈現,而不是用電腦可以理解的方式呈現,HTML 給我們的頂多就是一些資料的呈現方式 (formatting),對於電腦來說,夾在這些 HTML 標籤之間的內容完全沒有意義。當然我們可以用人工智慧的方式讓電腦去分析這些夾在標籤之間的內容,問題是這樣相當地耗費運算資源,分析結果恐怕也是差強人意,怎麼想都不是一個好方法,另一方面只有 HTML 的時候,網路上自動化的資料交換,也是一個大問題。後來為了資料交換的便利性,就有了 XML 的出現,XML 讓必須透過網路交換資料的實體有了統一資料格式的一個方法,讓交換資料的雙方可以制定相同的標籤來組織資料和決定資料的呈現方式。不過呢,讓電腦理解網路上的資料這件事情,還是沒有個譜。
於是乎 RDF (Resource Description Framework) 這個技術就出現了,目的就是為了讓大家有一套描述網路上內容的方法,賦予這些內容意義。讓電腦進一步可以透過人們使用 RDF 對於內容的註記,來對這些內容進行類似於人類的推論,像人類一般真正理解這些內容,產出 knowledge。RDF 其實說穿了,也就是 metadata 的一種,只是表達方式都是為了讓電腦能夠容易去進行自動化的處理和進行自動的邏輯推演。然而使用 RDF 這件事情,就會牽涉到人們對於同一個領域知識的理解往往是不同的,如此就會造成對於資料描述的不一致,進而影響電腦的理解。因此 AskMeNow 和其他在做 Semantic Search 的機構之所以會從一個一個領域的垂直搜尋開始一步一步去做,原因就是如此。不同於現在 general 的搜尋引擎主要是用演算法來進行搜尋,semantic search 會像垂直搜尋引擎一樣,直接牽涉到特定領域知識,因此處理起來棘手許多。
也因此,一個 universal semantic search engine 的出現,也意味著我們已經打造出了一個 semantic web,在這個 web 之中,所有的內容都被人類賦予了意義,電腦可以自動地在這些內容之間游走,透過人類賦予的意義組織和架構這些內容,並透過邏輯演繹的演算法產生出原本不存在的知識。這樣的願景,也代表著我們必須把 RDF 和 OWL 等等技術引進整個網路,逐漸地把現在網路上散亂的內容整合並且賦予意義。這不僅僅是技術上成不成熟的問題,更是時間上的問題,網路已經存在許久,大部分的內容都是毫無組織,打造出一個真正的 semantic web,難度不小。但是的確有為數不少的公司,已經開始著手處理 semantic search 的相關問題,除了以上提到的 AskMeNow 之外,Xerox 近日也宣稱他們已經打造出了一個 semantic search engine: 名為 FactSpotter,並且即將在明年推出,另外一方面,自然語言處理的相關技術在搜尋產業中,已經被廣泛地應用在提供自動廣告上 (像是 AdSense 等等)。至於 Google 這些大公司有沒有想要跨入這個未來的搜尋呢?大家當然會猜有,而事實上答案也是肯定的。
很多人在爭論 Web 3.0 的定義,但事實上 Tim Berners-Lee 早在 2001 年已經提出了 Semantic Web 這一個願景,至於最後 Web 3.0 會不會跟 Semantic Web 畫上等號呢?其實,好像也不是那麼重要。最重要的是,當有一天我們能夠以自然語言在網路上搜尋且暢行無阻時,毫無疑問這個網路絕對是新一代的網路。















台灣的 IQ網際智慧 公司,做這類自然語言查詢技術已經很久了。
這個的確很難,不過的確是個方向,連Xerox都說要開發semantic search engine了。
語意問題很有趣
也是人工智慧想達成的主要目標
但是就是不容易
就我看來,一方面是電腦只有文字input
近代才有多媒體的input
但是現在即使有比較多input,還是無法像人類一樣
可以隨著年齡的增長,學習到越來越多東西
————
我想1.自然語言(Natural Language Processing)
2.Tim Berners-Lee的Semantic Web(語意網)
(XML->RDF->OWL 可參考MIT HayStack in Oxygen Project)
3.Ontology(可參考Stanford Protege軟體)
以及4.邏輯推理引擎或是知識引擎
算是目前要解決語意問題所需要的四大方法
至於計算神經學有沒有辦法解決
這也就是我有興趣研究的部分了
————
目前我對語意的看法…比較理論上的看法
分類如下:
語意問題: 尋找”關係”(relation),
無論是概念(concept)的關係 或是字彙(word)的關係
關係的組成(Ontology->用人工建立(X),機器學習(尚待解決))
字彙關係: 一字多義 多字一義 多字多義(?)
關係的學習: 抽象化能力(abstraction)
關係的應用: 語意相似搜尋(similarity) 字辨(disambiguity) 了解意義(understand meaning)–>順道解決自然語言難題(NLP:Natural Language Processing)
語意的應用: 語意解決則很多問題可比較順利解決了,像是機器翻譯
————
參考中的理論:
categorical theory
manifolds(local vs. global properties–>it’s like semantic!)
automated ontology
knowledge base (可參考Daphne Koller: From Knowledge to Belief)
more: 文章中提到的vertical knowledge base
————
加油!
正巧我的論文也是做這方面的研究
應用了Ontology的概念,建置了音樂領域知識的語意搜尋
這一類的語意搜尋的知識,在國外有很多的文獻可以找到
不過語意搜尋目前還是有很多問題有待解決。
小弟最近才剛踏入 NLP 與 IR 的領域,
去年年底針對國內某 BSP 展開一些研究,
雖然蒐集了上千萬短句,可能使用的資料量卻是少之又少,
而 typo 與不正確的引述,亦影響了結果輸出的正確性。
這跟一開始想的都不一樣啊,啊啊。
就我來看,我覺得 Semetic Search 在短時間內,
大概只能在專業領域內獲得較佳的表現,
至於現行的 http://WWW.. 我想還是得仰賴工程師們讓電腦再聰明一點了 (遠)
[...] Mr. Saturday 曾經在「語意搜尋 (Semantic Search): 挖掘搜尋產業的整座冰山」一文中介紹過 Semantic Web [...]
“現在存在於網路上的搜尋功能,其實只把搜尋的所有潛在能力開發了 5% 而已”
請問一下,這5%的數字從哪裡得知的?THX
A conceptual architecture of search include crawling, indexing,
relevance, ranking, and input & output.
The “5%” isn’t solely contributed by lack of semantic search;
the crawler unable to reach the deep web is part of the problem.
With information overflow, ranking is another problem.
Semantics only takes care of the relevance issue. However, it does have
the potential to boost the precision and recall rates.
You should go deeper on the NLP, input, output, crawling, indexing,
relevance issues if you want to credit semantic search.
[...] To find more information from the source here [...]