網絡爬蟲是什麽,有哪些結構組成呢?工作原理又是什麽呢?不太了解搜索引擎抓取原理的用戶會有這樣一個疑問,接下來逐鹿帶領大家了解一下:
網絡爬蟲是什麽?
網絡爬蟲又稱爲搜索引擎蜘蛛,是一種按照一定的規則自動抓取互聯網上網頁内容的程序或腳本。那麽腳本又是什麽呢?腳本是一種編程語言,用來控制軟件的應用程序,通常是以文本保存的,隻在被調用時進行解釋或者編譯。
搜索引擎基本結構包括哪些?
搜索引擎基本結構一般包括:搜索器、索引器、檢索器、用戶接口等四個功能模塊。
1、搜索器
搜索器也叫網絡蜘蛛,是搜索引擎用來爬行和抓取網頁的一個自動程序,在系統後台不停歇地在互聯網各個節點爬行,在爬行過程中盡可能快的發現和抓取網頁。
2、索引器
它的主要功能是理解搜索器所采集的網頁信息,并從中抽取索引項。
3、檢索器
其功能是快速查找文檔,進行文檔與查詢的相關度評價,對要輸出的結果進行排序。
4、用戶接口
它爲用戶提供可視化的查詢輸入和結果輸出的界面。
搜索引擎的工作原理是什麽?
搜索引擎的原理,可以看做三步:從互聯網上抓取網頁 → 建立索引數據庫 → 在索引數據庫中搜索排序。
1、從互聯網上抓取網頁
利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,并沿着任何網頁中的URL爬到其它網頁,重複此過程,并把爬過的所有網頁收集回來。
2、建立索引數據庫
由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面内容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量複雜計算,得到每一個網頁針對頁面内容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引數據庫。
3、在索引數據庫中搜索排序
當用戶輸入關鍵詞搜索後,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因爲所有相關網頁針對該關鍵詞的相關度早已算好,所以隻需按照現成的相關度數值排序,相關度越高,排名越靠前。最後,由頁面生成系統将搜索結果的鏈接地址和頁面内容摘要等内容組織起來返回給用戶。
搜索引擎蜘蛛訪問抓取最頻繁的是首頁,有内容更新時,一定要在首頁體現出來并建立鏈接,便于蜘蛛最快抓取到,增加抓取機會、提升網站收錄。
關閉
Hi,
認真聆聽您的需求
是我們最重要的工作之一...