搜索引擎在未來(lái)的互聯(lián)網(wǎng)中,將起到非常重要的作用google,baidu,iask,sogou,zhongsou,yisou(現(xiàn)在已經(jīng)沒(méi)有了)我個(gè)人非常喜歡用一搜,他搜索出來(lái)的結(jié)果非常準(zhǔn)確我想知道搜索引擎的原理,知道的朋友請(qǐng)回答,謝謝

熱心網(wǎng)友

摘自落伍,原文鏈接:   在浩如煙海的Internet上,特別是其上的Web(World Wide Web萬(wàn)維網(wǎng))上,不會(huì)搜索,就不會(huì)上網(wǎng)。網(wǎng)蟲(chóng)朋友們,你了解搜索引擎嗎?它們是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。   一、搜索引擎的分類  獲得網(wǎng)站網(wǎng)頁(yè)資料,能夠建立數(shù)據(jù)庫(kù)并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。  全文搜索引擎的數(shù)據(jù)庫(kù)是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過(guò)網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁(yè)信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。  分類目錄則是通過(guò)人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的,比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家”(   全文搜索引擎和分類目錄在使用上各有長(zhǎng)短。全文搜索引擎因?yàn)橐揽寇浖M(jìn)行,所以數(shù)據(jù)庫(kù)的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長(zhǎng)補(bǔ)短,現(xiàn)在的很多搜索引擎,都同時(shí)提供這兩類查詢,一般對(duì)全文搜索引擎的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,比如Google的全文搜索(   在網(wǎng)上,對(duì)這兩類搜索引擎進(jìn)行整合,還產(chǎn)生了其它的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:  ⒈元搜索引擎(META Search Engine)。這類搜索引擎一般都沒(méi)有自己網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫(kù),它們的搜索結(jié)果是通過(guò)調(diào)用、控制和優(yōu)化其它多個(gè)獨(dú)立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒(méi)有“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”,也無(wú)獨(dú)立的索引數(shù)據(jù)庫(kù),但在檢索請(qǐng)求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜索引擎”(   ⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通過(guò)網(wǎng)絡(luò)技術(shù),在一個(gè)網(wǎng)頁(yè)上鏈接很多個(gè)獨(dú)立搜索引擎,查詢時(shí),點(diǎn)選或指定搜索引擎,一次輸入,多個(gè)搜索引擎同時(shí)查詢,搜索結(jié)果由各搜索引擎分別以不同頁(yè)面顯示,比如“網(wǎng)際瑞士軍刀”(   二、搜索引擎的工作原理  全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。它為保證采集的資料最新,還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè),還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。  和全文搜索引擎一樣,分類目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢信息三部分,只不過(guò)分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò),分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地址,而不是具體的頁(yè)面。分類目錄就像一個(gè)電話號(hào)碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁(yè)的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。  一個(gè)好的搜索引擎,不僅數(shù)據(jù)庫(kù)容量要大,更新頻率、檢索速度要快,支持對(duì)多語(yǔ)言的搜索,而且隨著數(shù)據(jù)庫(kù)容量的不斷膨脹,還要能從龐大的資料庫(kù)中精確地找到正確的資料。  ⒈提高搜索引擎對(duì)用戶檢索提問(wèn)的理解。為了提高搜索引擎對(duì)用戶檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言。為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。用戶可以輸入簡(jiǎn)單的疑問(wèn)句,比如“如何能殺死計(jì)算機(jī)中的病毒”,搜索引擎在對(duì)提問(wèn)進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問(wèn)的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問(wèn)題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢,多半人會(huì)用“病毒”這個(gè)詞來(lái)檢索,結(jié)果中必然會(huì)包括各類病毒的介紹,病毒是怎樣產(chǎn)生的等等許多無(wú)用信息,而用“如何能殺死計(jì)算機(jī)中的病毒”檢索,搜索引擎會(huì)將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。  ⒉垂直主題搜索引擎有著極大的發(fā)展空間。網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以驚人的速度增長(zhǎng),一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來(lái),垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強(qiáng)了檢索的針對(duì)性。  ⒊元搜索引擎,能夠提供全面且較為準(zhǔn)確的查詢結(jié)果。現(xiàn)在的許多搜索引擎,其收集信息的范圍、索引方法、排名規(guī)則等都各不相同,每個(gè)搜索引擎平均只能涉及到整個(gè)Web資源的30-50%,這樣導(dǎo)致同一個(gè)搜索請(qǐng)求在不同搜索引擎中獲得的查詢結(jié)果的重復(fù)率不足34%,而每一個(gè)搜索引擎的查準(zhǔn)率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請(qǐng)求發(fā)送到多個(gè)獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個(gè)性化搜索功能的設(shè)置和用戶檢索界面的友好性上,查全率和查準(zhǔn)率都比較高。  四、主要的搜索引擎介紹  這里介紹的是在國(guó)內(nèi)外影響比較大的主要的一些搜索引擎和分類目錄站點(diǎn),由于現(xiàn)在的站點(diǎn)一般都同時(shí)提供全文搜索和分類目錄兩種服務(wù),所以我們按照其自有的技術(shù)進(jìn)行分類和介紹。  ㈠主要的全文搜索引擎  ⒈Google(   ⒉百度(   ⒊中國(guó)搜索(   ㈡主要分類目錄  ⒈雅虎中國(guó)分類目錄(   ⒉新浪分類目錄(   ⒊搜狐分類目錄(   ⒋網(wǎng)易分類目錄(   實(shí)際上,搜索引擎的眾多技術(shù)都是高度保密的,以是僅僅是筆者的一些愚見(jiàn),不足之處,還請(qǐng)眾大蝦批評(píng)指正。