利用Google收尋方法及技巧
1 Google成為目前最受歡迎的搜尋引擎
Google([url]WWW.Google.com[/url])是當今一個優秀的搜尋引擎,其功能強大、特點突出、技術先進和服務優良,它在業界評測中獲得多項大獎,各大引擎競相模仿其功能和特色。Google非中國本土公司,但它支援中文搜尋,其中文搜尋引擎是收集亞洲網站最多的搜尋引擎之一,國內使用其獨立搜尋引擎的人數急劇增長。
目前,全世界訪問量最大的4個網站中,3家採用了Google的搜尋技術,80%的互聯網搜尋是通過Google或使用Google技術的網站完成的。目前Google每個月接待來自世界各地的超過2800萬獨立訪問者,全球網民通過Google可以使用86種語系,搜尋30多億個網頁及其網頁快照,以及4億多張圖片,每個月Google被使用者使用的時間為1500萬小時左右。
據搜尋引擎觀察者網路雜誌統計結果顯示,至2002年10月份,網民使用Google的時間量每月達到1610萬小時;相比之下,雅虎只吸引了660萬小時,微軟 MSN僅有520萬小時[3]。
2 利用Google進行專題訊息檢索的方法和技巧
關鍵詞檢索功能是網路訊息檢索工具的基本檢索功能,也是Google最基本的檢索功能。關鍵詞屬於自然語系,靈活、不受詞表控制,但簡單的關鍵詞檢索方法,命中過多,查准率很低,Google為最佳化關鍵詞檢索效能,提供了按關聯度排序結果、布爾邏輯檢索,短語或是句子檢索、加權檢索和限制檢索等增強措施。
利用Google進行專題訊息檢索,為提高查准率,須認真分析課題,選取恰當的關鍵詞,掌握和運用Google檢索語法規則,準確設計表達需求的檢索式,反覆調整檢索策略,才能獲得高質量的檢索結果。
2.1 簡單專題訊息檢索,最直截了當就是在搜尋框內輸入一個關鍵詞,然後點擊下面的「Google搜尋」按鈕(或是直接Enter),結果就出來了。
若果檢索人員或使用者對查詢的領域熟悉,只想尋找某些專題網站,首先考慮用目錄檢索,Google根據其專業的「網頁層級」(PageRank)技術對目錄中登入的網站進行了排序,可以使檢索具更高效率,按所需主旨確定沿某類層層尋找網站,目錄分類明確,網站專題訊息集中,剔除了大量不關聯的訊息,不過對尋找中文訊息,Google的中文目錄太少,只有非常普通簡單的類目,可能很難滿足要求。
2.2 熟練掌握Google的基本搜尋:+,-,OR ,學會使用兩個關鍵字進行複雜專題訊息檢索
檢索複雜專題依靠單個關鍵詞查准率很低,要提高查全檢准率,需進行詳細的主旨分析,選取多個關鍵詞構造檢索式。要分清主要概念和次要概念,去掉被隱含了的概念,確定需要排除的某些概念和不宜選用的泛指概念,以便在制定檢索策略時有所側重,保證檢索提問的確切表達。
正確選取關鍵詞,各種類型的檢索課題對檢索的查全率和查准率有著不同的要求,可以增加上位概念或下位概念的方法來擴檢[4],若查准率要求較高,應使用專指性較強的概念或增加限制概念來縮小檢索範圍,還可通過對字段進行限定的模式來保證尋找的準確性。對於那些對查全率和查准率無特殊要求的使用者來說,也要針對不同的課題,制定相應的檢索策略。
對文獻量較大或屬於成熟學科的課題,應優先考慮查准率,從眾多的關聯文獻中選取針對性較強的文獻。對文獻較少或新興學科的課題,可適當放寬檢索範圍來保證查全率,以免遺漏重要的參考文獻。
選取正確的關鍵詞後,就要運用Google檢索語法規則構建檢索式。
Google無需用明文的「+」來表示邏輯「與」動作,只要空格就可以了。
示例:搜尋所有包括關鍵詞「易筋經」和「吸星大法」的中文網頁
搜尋式:「易筋經 吸星大法」(注意:文章中搜尋語法外面的引號僅起引用作用,不能帶入搜尋欄內。)
Google用減號「-」表示邏輯「非」動作。
示例:搜尋所有包括「易筋經」而不含「吸星大法」的中文網頁
搜尋式:「易筋經 -吸星大法」(注意:這裡的「+」和「-」號,是英文字元,而不是中文字元的「+」和「-」。此外,動作符與作用的關鍵字之間,不能有空格。比如「易筋經 - 吸星大法」,搜尋引擎將視為邏輯「與」動作,中間的「-」被忽略。)
Google用大寫的「OR」表示邏輯「或」動作( 注意:小寫的「or」,在查詢的時候將被忽略;這樣上述的動作實際上變成了一次「與」查詢)。但是,關鍵字為中文的或查詢似乎還有BUG,無法得到正確的查詢結果。
示例:搜尋包括布蘭妮「Britney」或是披頭士「Beatles」、或是兩者均有的中文網頁。
搜尋式:「britney OR beatles」
結果:已搜尋有關britney OR beatles的中文(簡體)網頁。共約有14,600項查詢結果,這是第1-10項。搜尋用時0.08秒。
搜尋式:「布蘭妮 OR 披頭士」
結果:找不到和您的查詢-布蘭妮 OR 披頭士-相符的網頁。
「+」和「-」的作用有的時候是相同的,都是為了縮小搜尋結果的範圍,提高查詢結果命中率。
例:查閱天龍八部具體是哪八部。
分析:若果光用「天龍八部」做關鍵字,搜尋結果有26,500項,而且排前列的主要與金庸的小說《天龍八部》關聯,很難找到所需要的訊息。可以用兩個方法減少無關結果。
( 1)、若果你知道八部中的某一部,比如阿修羅,增加「阿修羅」關鍵字,如「天龍八部 阿修羅」。搜尋結果就只有995項,可以直接找到全部八部。
( 2)、若果你不知道八部中的任何一部,但知道這與佛教關聯,可以排除與金庸小說關聯的記錄,如「天龍八部 佛教 -金庸」。查詢結果為1,010項,可以迅速找到需要的資料。
2.3 熟悉Google的輔助搜尋方法:關鍵字、大小寫、句子、忽略字元以及強制搜尋 [5]
Google不支援關鍵字,如「*」、「?」等,只能做精確查詢,關鍵字後面的「*」或是「?」會被忽略掉。
Google對英文字元大小寫不敏感,「GOD」和「god」搜尋的結果是一樣的。
Google的關鍵字可以是詞群組(中間沒有空格),也可以是句子(中間有空格),但是,用句子做關鍵字,必須加英文引號。
示例:搜尋包括「long, long ago」字串的頁面。
搜尋式:「「long, long ago「」
結果:已向英特網搜尋「long, long ago「. 共約有28,300項查詢結果,這是第1-10項。搜尋用時0.28秒。
注意:和搜尋英文關鍵字串不同的是,Google對中文字串的處理並不十分完善。比如,搜尋「「啊,我的太陽「」,我們希望結果中含有這個句子,事實並非如此。查詢的很多結果,「啊」、「我的」、「太陽」等詞語是完全分開的,但又不是「啊 我的 太陽」這樣的與查詢。
Google對一些網路上出現頻率極高的詞(主要是英文單詞),如「i」、「com」,以及一些符號如「*」、「.」等,作忽略處理,若果使用者必須要求關鍵字中包括這些常用詞,就要用強制語法「+」。
示例:搜尋包括「Who am I ?」的網頁。若果用「「who am i ?「」,「Who」、「I」、「?」會被省略掉,搜尋將只用「am」作關鍵字,所以應該用強制搜尋。
搜尋式:「「+who +am +i「」(注意:英文符號(如問號,句號,逗號等)無法成為搜尋關鍵字,加強制也不行 )
結果:已向英特網搜尋「+who +am +i「. 共約有362,000項查詢結果,這是第1-10項。搜尋用時0.30秒。
2.4 瞭解Google的進階搜尋語法:site,link,inurl,allinurl,intitle,allintitle
「site」表示搜尋結果局限於某個具體網站或是網站頻道,如「sina.com.cn」、「edu.sina.com.cn」,或是是某個域名,如「com.cn」、「com」等等。若果是要排除某網站或是域名範圍內的頁面,只需用「-網站/域名」。
示例:搜尋中文教育科研網站(edu.cn)上所有包括「金庸」的頁面。
搜尋式:「金庸 site:edu.cn」
示例:搜尋包括「金庸」和「古龍」的中文新浪網站頁面,
搜尋式:「金庸 古龍 site:sina.com.cn」
結果:已在sina.com.cn搜尋有關金庸 古龍的中文(簡體)網頁。共約有869項查詢結果,這是第1-10項。搜尋用時0.34秒。
注意:site後的冒號為英文字元,而且,冒號後不能有空格,否則,「site:」將被作為一個搜尋的關鍵字。此外,網站域名不能有「http」以及「www」前綴,也不能有任何「/」的目錄後綴;網站頻道則只局限於「頻道名.域名」模式,而不能是「域名/頻道名」模式。諸如「金庸 site:edu.sina.com.cn/1/」的語法是錯誤的。
使用「link」語法,將搜尋到所有連結到某個URL位址的網頁。
示例:搜尋所有含指向華軍軟體園「[url]www.newhua.com[/url]」連結的網頁。
搜尋式:「link:[url]www.newhua.com[/url]」
注意:「link」不能與其他語法相混合動作,所以「link:」後面即使有空格,也將被Google忽略。
使用inurl語法,返回的網頁連結中包括第一個關鍵字,後面的關鍵字則出現在連結中或是網頁文件中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或是網頁名稱中,比如「MP3」、「GALLARY」等,於是,就可以用INURL語法找到這些關聯資源連結,然後,用第二個關鍵詞確定是否有某項具體資料。INURL語法和基本搜尋語法的最大區別在於,前者通常能提供非常精確的專題資料。
示例:尋找MIDI曲「滄海一聲笑」。
搜尋式:「inurl:midi 滄海一聲笑」
結果:已搜尋有關inurl:midi 滄海一聲笑的中文(簡體)網頁。共約有14項查詢結果,這是第1-10項。搜尋用時0.01秒。
示例:尋找微軟網站上關於windows2000的安全課題資料。
搜尋式:「inurl:security windows2000 site:microsoft.com」
結果:已在microsoft.com內搜尋有關 inurl:security windows2000的網頁。共約有198項查詢結果,這是第1-10項。搜尋用時0.37秒。
注意:「inurl:」後面不能有空格,Google也不對URL符號如「/」進行搜尋。Google對「cgi-bin/phf」中的「/」當成空格處理。
使用allinurl語法,返回的網頁連結中包括所有查詢關鍵字,這個查詢的對象只集中於網頁的連結字串。
示例:尋找可能具有PHF安全漏洞的公司網站。通常這些網站的CGI-BIN目錄中含有PHF腳本程式(這個腳本是不安全的),表現在連結中就是「域名/cgi-bin/phf」。
搜尋式:「allinurl:「cgi-bin「 phf +com」
結果:已向英特網搜尋allinurl:「cgi-bin「 phf +com. 共約有40項查詢結果,這是第1-10項。搜尋用時0.06秒。
allintitle和intitle的用法類似於上面的allinurl和inurl,只是後者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題,就是HTML標示語系title中之間的部分。網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語系表示在網頁標題中。因此,只查詢標題欄,通常也可以找到高關聯率的專題頁面。
示例:尋找日本明星籐原紀香的照片集。
搜尋式:「intitle:籐原紀香 寫真」
結果:已搜尋有關intitle:籐原紀香 寫真的中文(簡體)網頁。共約有284項查詢結果,這是第1-10項。搜尋用時0.03秒。
2.5 Google的罕用進階搜尋語法:related,cache,info
related用來搜尋結構內容方面相似的網頁。例:搜尋所有與中文新浪網主頁相似的頁面(如網易首頁,搜狐首頁,中華網首頁等),「related:[url]www.sina.com.cn/index.shtml[/url]」。
cache用來搜尋Google伺服器上某頁面的快取,這個功能同「網頁快照」,通常用於尋找某些已經被刪除的死連結網頁,相當於使用普通搜尋結果頁面中的「網頁快照」功能。
info用來顯示與某連結關聯的一系列搜尋,提供cache、link、related和完全包括該連結的網頁的功能。
示例:尋找和新浪首頁關聯的一些資訊。
搜尋式:「info:[url]www.sina.com.cn[/url]」
3 Google的其他重要功能介紹
目錄服務 若果不想搜尋網頁,而是想尋找某些專題網站,可以訪問Google的分類目錄[url]http://directory.Google.com/[/url]」,中文目錄是[url]http://directory.Google.com/Top/World/Chinese_Simplified/[/url]」。不過由於Google的目錄由志願者服務,而GOOGLE在國內名氣相對比較小,因此中文目錄下收錄站台很少[6]。
工具條 為了方便搜尋者,Google提供了工具條,整合於瀏覽器中,使用者無需開啟GOOGLE主頁就可以在工具條內輸入關鍵字進行搜尋。此外,工具條還提供了其他許多功能,如顯示頁面PageRank、設定攔截跳出廣告等。最方便的一點在於使用者可以快捷的在Google主頁、目錄服務、新聞群組搜尋、進階搜尋和搜尋設定之間切換。目前Google主頁已提示下載安裝Google工具條。
新聞群組(USENET)搜尋 新聞群組中有大量的有價值訊息,DEJA一直是新聞群組搜尋引擎中的佼佼者。2001年2月份,Google將DEJA收購併提供了所有DEJA的功能。現在,除了搜尋之外,Google還支援新聞群組的WEB模式瀏覽和張貼功能。輸入[url]http://groups.Google.com/[/url]」後,便進入Google新聞群組界面。可惜現在還沒有中文界面。新聞群組進階搜尋界面提供對關鍵字、新聞群組、主旨、作者、帖子序號、語系和發佈日期的條件搜尋。其中作者項指作者發帖所用的唯一識別號電子信箱。比如要在alt.chinese.text內搜尋著名老牌網路寫手圖雅的帖子,可以用下列指令「group:alt.chinese.text author:
[email protected]」。不過一般而言,更推薦使用圖形搜尋界面,方便而且直觀。
搜尋結果翻譯 曾經為那些你不懂的法文、西班牙文頁面煩惱麼?現在,Google支援一項搜尋結果翻譯功能,可以把非英文的搜尋結果翻譯成英文!!目前只支援有限的拉丁語、法語、西班牙語、德語和葡萄牙文。只能在英文狀態Google下實現這個功能。進入Google的設定頁面[url]http://www.Google.com/preferences[/url],有一個「BETA: Enable translation of search results into your interface language. 」的選項,把它選中,就OK了。
搜尋結果過濾 網路上的成人內容浩如煙海,而且很多站台具有欺騙或是其他不良企圖,瀏覽者很容易掉入其中的陷阱。為此,Google新設立了成人內容過濾功能,見Google的設定頁面[url]http://www.Google.com/preferences[/url],最底下有一個選項SafeSearch Filtering。不過,中文狀態下的Google尚沒有這個功能。
PDF文件搜尋 Google提供對PDF文件內文的檢索。目前Google檢索的PDF文件大約有2500萬左右。PDF是ADOBE公司開發的電子文件格式,現在已經成為互聯網的電子化出版標準。PDF文件通常是一些圖文並茂的綜合性文件,提供的資訊一般比較集中全面。
示例:搜尋關於電子商務(ECOMMERCE)的PDF文件。
搜尋式:「inurldf ecommerce」
下面是某項搜尋結果:
[PDF] [url]www.usi.net/pdf/outsoucing-ecommerce.pdf[/url] Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin, Product Marketing Professonial (PMP) Implementation Manager, Web Engineering ... 一般文字檔 - 類似網頁
可以看到,Google在PDF檔前加上了[PDF]的標示,而且,Google把PDF檔案轉換成了文字檔,點擊「一般文字檔」,可以粗略的檢視該PDF文件的大致內容。當然,PDF原有的圖片以及格式是沒有了。
圖像文件搜尋 Google提供了Internet上圖像檔案的搜尋功能!!位址是「images.Google.com」。你可以在關鍵字欄位內輸入描述圖像內容的關鍵字,如「劉德華」。 Google給出的搜尋結果具有一個直觀的縮略圖,以及對該縮略圖的簡單描述,如圖像檔案名稱,以及大小等。點擊縮略圖,頁面分成兩禎,上禎是圖像之縮略圖,以及頁面連結,而下禎,則是該圖像所處的頁面。螢幕右上角有一個「移除欄框」的按鈕,可以把框架頁面迅速切換到單禎的結果頁面,非常方便。Google還提供了對成人內容圖像的限制功能,可以讓搜尋者免受不必要的騷擾。
4 Google特殊套用搜尋案例介紹:
關鍵詞的選取在搜尋中起到決定性的作用,所有搜尋技巧中,關鍵詞選取是最基本也是最有效的。
4.1 搜尋之前先思考 搜尋引擎本事再大,也搜尋不到網上沒有的內容,而且,有些內容雖然存在網上,卻因為各種原因,而成為漏網之魚。所以在你使用搜尋引擎搜尋之前,應該先花幾秒種想一下,我要找的東西網上可能有嗎?網頁上會含有哪些關鍵字?
例一:尋找《鏡花緣》一書中淑士國酒保的酸話原文。
分析:若果按照一般的思路,找某部小說中的具體段落,就需要用搜尋引擎先找到這本書,然後再翻到該段落。這樣做當然可以,但是效率很低。若果瞭解目的訊息的構成,用一些目的訊息所特有的字詞,可以非常迅速的查到所需要的資料。也就是說,高效率的搜尋,關鍵字不一定就是目的訊息的主旨。在上面的例子中,酒保談到酒的濃淡與貴賤的關係時,之乎者也橫飛。因此,可以用特定的詞語一下子找到目的資料。
搜尋:「酒貴賤之」,OK,找到的第一條訊息就是鏡花緣的這一段落:「先生聽者:今以酒醋論之,酒價賤之,醋價貴之。因何賤之?為甚貴之?真所分之,在其味之。酒昧淡之,故而賤之;醋味厚之,所以貴之。...」 以上的關鍵字選取技巧可以謂之「特定詞法」。
例二:「黃花閨女」一詞中「黃花」是什麼意思。
分析:「黃花閨女」是一個約定的俗語,若果只用「黃花閨女 黃花」做關鍵詞,搜尋結果將浩如煙海,沒什麼價值,因此必須要加更多的關鍵詞,約束搜尋結果。選取什麼關鍵詞好呢?備選的有「意思」、「含義」、「來歷」、「由來」、「典故」、「出典」、「淵源」等,可以猜到的是,類似的資料,應該包括在一些民俗介紹性的文字裡,所以用諸如「來歷」、「由來」、「出典」等詞彙的概率更高一些。
搜尋式:「黃花閨女 黃花 由來」,查到「黃花」原來出典於《太平御覽》,與南朝的壽陽公主關聯。若果想獲得第一手資料,那就可以用「太平御覽 壽陽公主」做搜尋了。 以上的關鍵字選取技巧可以謂之「近義詞法」。
例三:劉德華的胸圍是多少。
分析:非常直接的搜尋是,「劉德華 胸圍」,但事實上,這麼搜尋出來的結果,儘是一些諸如「劉德華取笑莫文蔚胸圍太小」之類的八卦新聞,無法快速得到所需要的資料。可以想到的是,需要的資料應該包括在劉德華的全面介紹性文字中,除了胸圍,應該還內含他的身高,體重,生日等一系列關聯訊息。OK,這樣就可以進一步的增加其他約束性關鍵詞以縮小搜尋範圍。
搜尋式:「劉德華 胸圍 身高」,沒有料到的情況發生了,網上炙手可熱的痞子蔡《第一次親密接觸》裡居然含有這樣關鍵字,阿泰「改編自劉德華《忘情水》的變態歪歌」、「用身高體重三圍和生日來加以編號」。好辦,把這部小說去掉,「劉德華 胸圍 身高 -阿泰」,OK,結果出來了,華仔胸圍84cm。說明一下,為什麼用「阿泰」而不用「第一次親密接觸」呢?這是因為小說的名字被轉載的時候可能有變動,但裡面角色的名字是不會變的。
以上的關鍵字選取技巧可以謂之「關聯詞法」。
4.2 其他常用搜尋個案
例一:找人 分析:一個人在網上揭示的資料通常有:姓名,網名,性別,年齡,畢業學校,工作單位,外號,住址,電話,信箱,BP,手機號碼,ICQ號,OICQ號等等。所以,若果你要瞭解一下你多年沒見過的同學,那不妨用上述訊息做關鍵字進行查詢,也許會有大的收穫。
例二:找軟體 分析一:最簡單的搜尋當然就是直接以軟體名稱以及版本號為關鍵字查詢。但是,僅僅有軟體名稱和目的網站,顯然還不行,因為搜尋到的可能是軟體的關聯新聞。應該再增加一個關鍵字。考慮到下載頁面上常有「點擊此處下載」或是「download」的提示語,因此,可以增加「下載」或是「download」為關鍵字。
如, 搜尋式:「winzip 8.0 下載」
分析二:很多網站設有專門的下載目錄,而且就命名為「download」,因此,可以用INURL語法直接搜尋這些下載目錄。
搜尋式:「winzip 8.0 inurl:download」
在互聯網上隨意的下載軟體是不安全的,因為供下載的軟體有可能帶有病毒或是捆綁了木馬,所以,對下載網站作一個限定,是一個穩妥的思路。可以用SITE語法達到這個目的。
共享軟體下載完之後,使用的時候,軟體總跳出警示框,或是軟體的功能受到一定限制。由於中國的網民多是人,所以應該再找一個註冊碼。找註冊碼,除了軟體的名稱和版本號外,還需要有諸如「serial number」、「sn」、「序號」等關鍵字。現在,來搜尋一下winzip8.0的註冊碼。
搜尋式:「winzip 8.0 sn」
結果:已向英特網搜尋winzip 8.0 sn. 共約有777項查詢結果,這是第1-10項。搜尋用時0.30秒。
例三:找圖片 除了Google提供的專門圖片搜尋功能,還可以群組合使用一些搜尋語法,達到圖片搜尋之目的。
分析一:專門的圖片集合,提供圖片的網站通常會把圖片放在某個專門目錄下,如「gallary」、「album」、「photo」、「image」等。這樣就可以使用INURL語法迅速找到這類目錄。現在,試著找找小甜甜布蘭妮的照片集。
搜尋式:「「britney spears「 inurlhoto」
結果:已向英特網搜尋「britney spears「 inurlhoto. 共約有2,720項查詢結果,這是第1-10項。搜尋用時0.23秒。
分析二:提供圖片集合的網頁,在標題欄內通常會註明,這是誰誰的圖片集合。於是就可以用INTITLE語法找到這類網頁。
搜尋式:「intitle:「britney spears「 picture」
結果:已向英特網搜尋intitle:「britney spears「 picture. 共約有317項查詢結果,這是第1-10項。搜尋用時0.40秒。
分析三:明星的FANS通常會申請免費個人主頁來存放他們偶像的靚照。於是用SITE語法指定某免費主頁提供站台,是個迅速找到圖片的好辦法。
搜尋式:「「britney spears「 site:geocities.com」
結果:已在geocities.com內搜尋有關「britney spears「的網頁。共約有5,020項查詢結果,這是第1-10項。搜尋用時0.47秒。