搜索引擎的(de)蜘蛛是如(rú)何爬的(de),如(rú)何吸引蜘蛛來抓取頁面
搜索引擎的(de)蜘蛛是如(rú)何爬的(de),如(rú)何吸引蜘蛛來抓取頁面
搜索引擎的(de)工作過程大體可(kě)以分成三個階段:
(1)爬行和(hé)抓取:搜索引擎蜘蛛通過跟蹤鏈接發現和(hé)訪問頁面,讀取頁面HTML代碼,存到數據庫。
(2)預處理(lǐ):索引程序對抓取來的(de)頁面數據進行文字提取、中文分詞、索引、倒排索引等處理(lǐ),以備排名程序調用。
(3)排名:用戶輸入查詢詞(關鍵詞)後,排名程序調用索引數據,計算相關性,然後按一(yī)定格式生成搜索結果頁面。
爬行和(hé)抓取是搜索引擎工作的(de)第一(yī)步,完成數據收集的(de)任務。搜索引擎用來抓取頁面的(de)程序被稱為(wèi)蜘蛛(spider)
一(yī)個合格的(de)SEOer,要想讓自(zì)己的(de)更多頁面被收錄,就要想法設法吸引蜘蛛來抓取。
蜘蛛抓取頁面有幾方面因素:
(1)網站和(hé)頁面的(de)權重,質量高(gāo)、時間長(cháng)的(de)網站一(yī)般被認為(wèi)權重比較高(gāo),爬行深度也會比較高(gāo),被收錄的(de)頁面也會更多。
(2)頁面的(de)更新頻率,蜘蛛每次爬行都會把頁面數據儲存起來,如(rú)果第二次,第三次的(de)抓取和(hé)第一(yī)次的(de)一(yī)樣,說明沒有更新,久而久之,蜘蛛也就沒有必 要經常抓取你的(de)頁面啦。如(rú)果內(nèi)容經常更新,蜘蛛就會頻繁訪問頁面,來抓取新的(de)頁面。
(3)導入鏈接,不管是內(nèi)部鏈接還是外部鏈接,要想被蜘蛛抓取,就必須有導入鏈接進入頁面,否則蜘蛛就不會知道(dào)頁面的(de)存在。
(4)與首頁的(de)點擊距離(lí),一(yī)般網站上權重最高(gāo)的(de)是首頁,大部分外部鏈接都會指向首頁,那麽蜘蛛訪問最頻繁的(de)頁面就是首頁,離(lí)首頁點擊距離(lí)越近,頁 面權重越高(gāo),被爬行的(de)機會越大。
如(rú)何吸引蜘蛛來抓取我們的(de)頁面?
堅持有頻率的(de)更新網站內(nèi)容,最好是高(gāo)質量的(de)原創內(nèi)容。
主動向搜索引擎提供我們的(de)新頁面,讓蜘蛛更快的(de)發現,如(rú)百度的(de)鏈接提交、抓取診斷等。
搭建外部鏈接,可(kě)以和(hé)相關的(de)網站做(zuò)友情鏈接交換,可(kě)以去(qù)别的(de)平台發布高(gāo)質量的(de)文章(zhāng)指向自(zì)己的(de)頁面,內(nèi)容要相關。
制作網站地(dì)圖,每個網站都應該有一(yī)個sitemap,網站所有的(de)頁面都在sitemap中,方便蜘蛛抓取。
編輯:--ns868