核心技術
熱心網友
搜索引擎起源于傳統的信息全文檢索理論。它包括3個主要過程:1)搜集Web信息:發現、搜集Web上的網頁信息。需要有高性能的搜集器自動的在Web中搜索信息。Web信息搜集器是下載Web上網頁的程序。它順著網頁之間的鏈接移動,自動地下載所經過的網頁。給定起始URL集合S,Web搜集器不停的從S中移除URL,下載相應的網頁,解析出網頁中的超鏈接URL,將未訪問過的URL加入集合S。Web搜集器也稱作Web機器人或Web蜘蛛。搜集器把所獲得的信息保存下來以備建立索引庫,供用戶檢索。2)索引庫的建立:對搜集到的Web信息提取和組織,建立索引庫。這關系到用戶能否迅速地找到準確、廣泛的信息。對搜集器抓來的網頁信息快速地建立索引,通常采用倒排表技術。如果在建立索引庫的過程中對用戶在檢索端搜索的查詢串進行跟蹤,并對查詢頻率高的查詢串建立Cache,可以在檢索端請求時,加快索引庫的響應速度。3)檢索端的查詢:根據用戶輸入的查詢字串,在索引庫中快速檢索出文檔。采用基于網頁內容分析和基于超鏈分析相結合的方法進行相關度評價,客觀地對檢索出的網頁進行排序,從而盡量保證搜索出的結果與用戶的查詢串相一致。然后將輸出的結果返回給用戶。為了加快檢索端的響應速度,可以根據最近用戶查詢信息建立檢索端Cache。針對你的問題:看來你是沒有建索引文件,關鍵詞來了現到數據庫匹配,當然慢。索引文件是不需要數據庫保存的,利用倒排表建好每個詞的索引網頁,查詢的時候幾乎是一下命中,當然在秒級下完成了。。