電腦發明之初,就有人想用它來搜尋資料、下西洋棋、翻譯。其實,人類編製目錄、目次、索引來加速尋找資料,已經有4000年的歷史。直到1970年代初,才開始使用數位化的方式儲存、搜尋資料。起初,搜尋資料的需求不高,僅整批式的支援儲存、索引,可以集中查詢書目資料,包括書籍的標題、作者、主題、關鍵詞等。這門學問就叫做資訊檢索。直到1970年代末,才出現了執行分時作業系統的電腦,以及查詢內文的技術,也就是所謂的全文檢索。從此,全文檢索和資訊檢索兩門學問就被畫上等號。 1962年傳播大師麥克魯漢(Marshall McLuhan)在《古騰堡星際》書中使用了「世界村」一詞,也精確地預測了電子媒體將帶領我們進入通訊無障礙的世界,正如印刷術讓我們變成著重視力的「古騰堡人」。然而,即使麥克魯漢也無法想像,在1969年12月網際網路誕生後,世界村更進一步變成訊息完全導通的網路社會。接著1989年,伯納斯李(Tim Berners-Lee, 2004年英國風雲人物獎得主)發明全球資訊網(WWW)並將其捐出。他的捐獻,消除了網路發展最大的障礙。人類天生就有傳播本能,用HTML透過網頁公佈資訊又出奇簡單,諸多因素使網路上的資訊飛快增加。歷史學家麥克尼爾父子從WWW得到靈感,在2003年把文明發展歷程,寫成《人類文明網》。全書用「網路」的概念,貫通全世界的古代史、近代史,甚至今日的科技社會。 虛擬的網路上,我們更迫切需要4000年前那樣的索引。不久後,美國「迪吉多公司」的研究小組,在1995年發明了所謂的網路蜘蛛(Web spider)軟體,「網路資訊系統」於是焉誕生,名字就叫AltaVista。有別於先前的集中式書目資訊系統,AltaVista的蜘蛛會自動爬行於網頁間擷取網路資料。這個最早知名的搜尋引擎,在1995年12月15日正式上線後,到訪人次在三個禮拜之內,由每天30萬次,跳升為200萬次,其間服務的品質並沒有明顯降低。AltaVista成功地整合了網路蜘蛛的創新技術,和網路時代前的資訊檢索技術,包括字根處理、關鍵詞檢索、布林邏輯,以及透過向量空間模型(部份關鍵詞比對)的查詢排名(見『科學人雜誌3月號』莫斯塔法(Javed Mostafa)『比Google厲害的搜尋引擎』一文);見證了科技的革命性力量,從此搜尋引擎成為圖書館界的最大夢靨:資料隨手可查,大家會不會越來越不上圖書館? 電腦CPU的速度依照摩爾定律每10個月倍增;網路上的資料,也同樣持續以可怕的速度增長。英國布來頓大學的基加瑞夫(Adam Kilgarriff),在中央研究院2004年的暑期課程中指出,每隔10年,語言研究的語料庫就增大10倍。1998年時,NEC公司的勞倫斯(Steve Lawrence)在《科學》雜誌上撰文指出,由隨機取樣驗證的結果顯示,當時網路的大小約是3億2000萬個網頁,而AltaVista只抓到其中的一部份。許多人認為後來推出的搜尋引擎,如NorthernLight涵蓋範圍較大。於是,網友的三千寵愛不再,先行者AltaVista的優勢地位,被NorthernLight逐漸侵蝕。NorthernLight的風光日子也不長,今天大部份的人已不復記憶。滄海桑田,迪吉多公司早已經被康柏電腦併購,而康柏又被惠普併購。2003年初,AltaVista併入Overture,越來越無足輕重。 AltaVista引領一波波的網路明星。網路革命的浪潮也席捲全球,各國各種語言的搜尋引擎,紛紛出現,百家爭鳴。但是全球化的趨勢,讓侷限於單一地區的搜尋引擎,盛極而衰,歸於一宗。搜尋引擎的競賽,最後的贏家是布林和佩奇,兩個美國史丹佛大學博士班學生。他們放棄學業,專心自創公司,並傳奇式地經營出家喻戶曉的品牌Google——網際網路發明以來最革命性的典範。之後種種,已成歷史,大家想必都耳熟能詳。但是,或許知其然,而不知其所以然,以下容我們來解讀Google。

Google的顛覆與創造

Google的成功絕非偶然。它顛覆傳統的思考,改寫了資訊檢索的金科玉律,創造出新的價值。Google為網友創造的新價值在哪裡?Google又有哪些特色呢?首先,Google 是史上蒐集網頁最完整的。儘管有再多的人,警告大家網路資料雜亂不可靠,但莫瑟定律(Mercer’s Law)說:「資料多就是好」(more data is better data)。2005年2月16日,Google已收集整理了80多億個網頁,更精確的說80億5804萬4651頁。回想一下,七年前網路才只有三億個網頁!Google是如何做到這種其他搜尋引擎做不到的事?除了高科技外,還有密集資本!可以簡單用硬體處理的事情,Google就不費力於軟體上。因此,Google在2000年充份利用創投資金,裝了6000多部紅帽Linux伺服器(現在想必更多)。這些分散世界各地的螞蟻雄兵,以最有效的方式蒐集資訊、處理查詢。對近百億的網頁,Google能以少於1秒的反應時間篩選,要服務全世界每天上億、每秒上千次的查詢,這真的需要有點執行力。 Google的第二個特色,在於洞悉網路使用者迫切需要的是「精確性」的精髓。在資訊爆炸、節奏加快的網路時代,Google不用空間向量模型(容許部份比對符合的查詢結果),而用精確搜尋(完全符合)。這顛覆了傳統上重視齊全,而不重視搜尋結果精確的想法。同時也呼應「慢不如快」以及「資訊恆增」的兩個信條;研究也一再顯示,使用者通常只看回傳的一、兩頁,10~20筆資料而已,精確性和排名的重要性不言可喻。 Google查詢結果的首頁簡約,但有用的資訊幾乎都在第一頁的前幾名。Google顛覆搜尋,讓搜尋不再只是關鍵詞比對。透過專利的網頁排名(PageRank)技術,越多網頁所連結到的頁面,顯然越受重視,應該排名在前。網頁上一筆筆的超連結,就像一張張選票,票選出最有價值的網頁,體現了Google第四信條「網路民主」:越多網頁所連結到的網頁,其資訊越符合使用者的需求。「網頁排序」技術顛覆了傳統搜尋引擎依賴分析網頁內文字的排名方式,讓單一網頁的作者很難操弄網頁內的文字與超連結,影響自己網頁的重要性排名。 天下無難事,只怕有心人。2004年美國總統大選空前的激烈,有人拍紀錄片攻擊尋求連任的布希,有人就製造許多的網頁裡面寫著“miserable failure”,並且把超連結指向布希的官方網站,結果就是:用Google找“miserable failure”查詢結果,排名第一的果然就是白宮官網的布希介紹。在選舉期間,這成了世界性的一條大新聞。在2005年2月15日再次查詢(見圖一),排名第一的還是指向布希的傳記網站,第二名正是拍紀錄片911攻擊布希出了名的導演麥可摩爾的官網,第三名是BBC新聞對Google將“miserable failure”連到布希官網事件的報導,第四名連到著名的「搜尋引擎觀察」(Search Engine Watch)評論網站,這個網頁譏笑Google被整,說那才是Google的慘敗(miserable failure)。其實平心而論,這些都瑕不掩瑜,不妨害絕大多數人、絕大部份時間的查詢。這也解釋了為什麼Google放著“miserable failure”不理,讓它愛怎麼查詢就怎麼查詢,愛怎麼排名就怎麼排名! Google的另一個特色,是外表上的極簡主義與內涵上對核心價值的專注。過去搜尋引擎公司,都想要討好所有人,滿足各種的資訊需求,因此裝扮成像賣雜貨的「入口網站」。小小的網頁內塞滿新聞、雜誌、搜尋、廣告,五花十色的介面令人眼花撩亂,不知道要眼睛看哪裡,滑鼠點哪裡,鍵盤打什麼。Google獨樹一格的首頁極端簡約:白底、紅黃藍綠的公司標誌,加上輸入查詢的長條框框,幾乎就沒有別的東西了。首頁雖簡約,背後卻是專精於蒐集、整理近百億網頁的創新技術。 很多人不免要問:「Google這樣的免費服務,如何回收成本?」除了很多入口網站高價請Google代為提供搜尋服務外(誰說這些網站不是在養虎為患呢?),最近的「論字廣告」(AdWord)和「感知廣告」(AdSense)也為它進帳不少。論字廣告的創意在於將每天上億個回傳的畫面,以查詢字分組來賣廣告空間。邊欄的廣告低調不礙眼,提供非常簡單的付費機制,讓任何人只要有信用卡,就可以在Google邊欄刊登廣告。廣告費並不以時間或空間計算,而是以使用者點擊論字廣告多寡,論次計費。而感知廣告則是一種機制,能容許Google把自己網站的廣告,轉包給其他下游高流量合作夥伴的網站。若說「論字廣告」是三贏的網路廣告創舉,「感知廣告」更是Google、廣告主、廣告轉包商與使用者四贏的好點子。

Google的文化和次文化

Google的企業文化反映在它的任務和理念。Google自許的使命不小:組織全世界的資訊,為全世界所用。Google擁有10大信條(見表二),而最重要的核心價值是「為善棄惡」。在會計弊端、內線交易頻傳之際,這不啻是暮鼓晨鐘。我特別鍾意於第九信條「嚴肅不拘謹」,代表了Google的輕鬆、不拘泥、幽默感。這點從Google的首頁可以窺知一二,每逢節慶或特殊活動,Google的標誌,就變裝成應景的趣味圖案,令人會心一笑。《財富》雜誌對Google的專訪寫到,Google公司的氣氛就像美國大學校園的學生社團,有點亂,但瀰漫著不安的創造力。Google公司的政策更讓所有人每星期保留一天,在指定工作之外,做自己最想做的專案,如果證實可行,公司再把它列為正式專案全力推動。如此可避免抹煞個人的創意,也讓Google這樣的大公司,有股前衛、實驗味。最令人會心一笑的,是Google網站竟然有一則徵求人才廣告,工作地點,信不信由你:Google的月球研發中心。 Google對當代生活、社會的滲透,不容小覷。報載德國新編的辭典中,已經加入「google」,意思是「上Google網站查資料」。Google獨特的風格,自然引來一堆愛慕者,幾乎形成一種次文化現象。無數瘋狂的Google玩家和使用者製作Google的

部落格(blog)、新聞傳真,討論Google文件載明的功能和隱藏的功能,寫Google遊戲軟體(Google Whacking)。最好玩的是,美國加州大學聖地牙哥分校的Google安東尼(Antoni Chan)還花了一年的時間寫了2500行的CGI程式,讓Google的操作,完全顛倒,變成由右至左(見圖二)。Google竟然成了Elgoog(http://www.alltooflat.com/geeky/elgoog)。3連輸入也不例外,例如要查bank一字,你必須由右至左打入knab。美國歐萊禮出版社還把這些Google玩家的攻略及密笈,彙整成一本書,就叫做Google Hacks。 2004年11月18日Google推出了回饋學術界的Google Scholar搜尋引擎測試版,專攻學術與專業資料上的搜尋。搜尋內容取自論文、期刊、書籍、預行刊物(preprint)、技術報告等。配合研究人員的需求,搜尋結果依照文章的學術價值來排名.參考

因素包括內文、作者、出版者權威性、引用次數等,和原版Google的PageRank完全不同。例如,查詢“human genome”(人類基因組),Google原版會回傳約714萬筆結果,排名在前的幾筆都是機構首頁,包括美國能源部、國家衛生院、國立生物資訊中心等,到了第20名前後才出現刊登於《自然》、《科學》的相關文章。相對地,Google Scholar只回應39萬筆結果,而排名的前10名幾乎都是在著名的《自然》與《科學》上發表的文章。除文章連結外,Google Scholar並標示引用次數、引用者連結、網頁搜尋連結(可進一步搜尋作者、文章相關資訊)、圖書館搜尋連結(限書籍、書評),點擊就可以查詢目前所在位置附近,藏有此書最近的圖書館(目前限美加地區)。如此貼心的功能,我們夫復何求。

Google不斷擴充版圖,推出的服務與工具(見表一,幾乎個個都令人驚艷。Google在擴張的路上難免碰到一些石頭,但更多的是共生的合作夥伴。在搜尋服務上,Google自然會和雅虎以及微軟的MSN Search競賽。在數位典藏上,亞馬遜書店也是有企圖。連出版化學摘要書目資料庫的巨人:美國化學學會也告上Google一狀。耐吉不滿Google居然把“Nike”四個字母當成AdWord賣給其他人,也告上法庭。Google的大策略是併購與共生,目前已經併購了提供衛星影像的KeyHole公司,並和MapQuest、WiFinder多家公司、機構合作(見表三、表四)。 2004年,Google股票在萬眾期待下首度公開發行,在網路低迷的氣氛下,果然氣勢如虹,創出新的熱潮。為了要公開發行股票,Google聘請了施密特(Eric Schmidt)當執行長,任務是在股票上市前後,想辦法在搜尋引擎之外,讓公司獲利成長。施密特指出,過去很多人錯過了投資Yahoo!、eBay等等的機會,現在更多人錯過Google,這都是媒體沒有好好深入報導之過。他在接受《財富》雜誌的專訪時說:「全球許多公司有驚人的獲利實力,這完全是因為它們突然跳脫出局部的市場,一下身處全球的市場。Google服務的全球市場,是由很多這類小公司所構成的微型市場聚集而成。微型市場可以聚沙成塔,變成很大的市場,想想看全世界的GDP合起來的光景。」《財富》雜誌的記者很好奇,Google光靠許多小公司的廣告,能不能繼續發展。史密特透露Google的新策略也不放過名列《財富》雜誌前10、20、50、100大的這些公司,採取的方法就是把大公司內的許多小部門,全部抓到手。 Google的創新,不限於資訊技術,像論字廣告、感知廣告的創新商業模式也是可圈可點。Google的策略聯盟少了點企業界割喉氣息,多了點生態的共生與平衡。Google接下來的10個創舉是什麼?我們且拭目以待。(轉載自『科學人雜誌2005年03月號』)