欧美亚洲综合图区在线|天天射天天干国产成卜|99久久免费国产精精品|国产的欧美一区二区三区|日韩中文字幕无码不卡专区|亚麻成人aV极品一区二区|国产成人AV区一区二区三|成人免费一区二区三区视频网站

當(dāng)前位置：首頁 > 軟件開放 > 正文內(nèi)容

網(wǎng)頁設(shè)計導(dǎo)航欄代碼(網(wǎng)頁設(shè)計導(dǎo)航欄代碼介紹)

軟件開放3個月前 (10-04)358

深度了解蜘蛛spider抓取原理-專業(yè)SEO技術(shù)教程（12）

盡管搜索引擎在不斷地升級算法，但是終究其還是程序，因此我們在布局網(wǎng)站結(jié)構(gòu)的時候，要盡可能地讓搜索引擎蜘蛛看得懂。每個搜索引擎蜘蛛都有自己的名字，在抓取網(wǎng)頁的時候，都會向網(wǎng)站表明自己的身份。搜索引擎蜘蛛在抓取網(wǎng)頁的時候會發(fā)一個請求，這個請求中有一個字段為user-agent，用于標(biāo)示此搜索引擎蜘蛛的身份。那么，今天就和大家一起來深度了解蜘蛛spider抓取原理。

例如Google搜索引擎蜘蛛的標(biāo)識為Googlebot，百度搜索引擎的標(biāo)識為baidu spider,yahoo搜索引擎蜘蛛的標(biāo)識為inktomi slurp。如果在網(wǎng)站上有訪問日志記錄，網(wǎng)站管理員就能知道，哪些搜索引擎的搜索引擎蜘蛛過來過，什么時候過來的，以及讀了多少數(shù)據(jù)等。如果網(wǎng)站管理員發(fā)現(xiàn)某個蜘蛛有問題，就通過其標(biāo)識來和其所者聯(lián)系。

搜索引擎蜘蛛進(jìn)入一個網(wǎng)站，一般會訪問一個特殊的文本文件robots.txt。這個文件一般放在網(wǎng)站服務(wù)器的根目錄下，網(wǎng)站管理員可以通過robots.txt來定義哪些目錄搜索引擎蜘蛛不能訪問，或者那些目錄對于某些特定的搜索引擎蜘蛛不能訪問。例如，有些網(wǎng)站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎到，那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。robots.txt語法也很簡單，如果對目錄沒有任何限制，可以用以下兩行來描述。

user-agent*

Disallow：

當(dāng)然，robots.txt只是一個協(xié)議，如果搜索引擎蜘蛛的設(shè)計者不遵循這個協(xié)議，網(wǎng)站管理員也無法阻止搜索引擎蜘蛛對于某些頁面的訪問。但一般的搜索引擎蜘蛛都會遵循這些協(xié)議，而且網(wǎng)站管理員還可以通過其他方式來拒絕搜索引擎蜘蛛對某些網(wǎng)頁的抓取。

搜索引擎蜘蛛在下載網(wǎng)頁的時候，會去識別網(wǎng)頁的HTML代碼，在其代碼的部分，會有meta標(biāo)識。這些標(biāo)識可以告訴搜索引擎蜘蛛本網(wǎng)頁是否需要被抓取，還可以告訴搜索引擎蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如，表示本網(wǎng)頁不需要被抓取，但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面地抓取自己的網(wǎng)站的網(wǎng)頁，因為這樣可能讓更多的訪問者通過搜索引擎能找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到，網(wǎng)站管理員可以建立一個網(wǎng)站地圖，即sitemap。許多搜索引擎蜘蛛會把sitemap，htm文件作為一個網(wǎng)站網(wǎng)頁爬取得入口，網(wǎng)站管理員可以把網(wǎng)站內(nèi)容內(nèi)部所有網(wǎng)頁的鏈接放在這個文件里面，那么搜索引擎蜘蛛可以很方便地把整個網(wǎng)站抓取下來，避免遺漏某些網(wǎng)頁，也會減小服務(wù)器的負(fù)擔(dān)（Google專門為網(wǎng)站管理嚴(yán)提供了XML的Sitemap）。

展開全文

搜索引擎建立網(wǎng)頁索引，處理的對象是文本文件。對于搜索引蜘蛛來說，抓取下來網(wǎng)頁包括各種格式，包括HTML、圖片、doc、PDF、多媒體、動態(tài)網(wǎng)頁極其他格式。把這些文件抓取下來后，需要把這些文件中的文本信息提取出來。準(zhǔn)確提取這些文檔的信息，一方面對搜索引擎的搜索引擎準(zhǔn)確性有重要的作用，另一方面對于搜索引擎蜘蛛正確跟蹤其他鏈接有一定影響。

對于doc、PDF等文檔，這種由專業(yè)廠商提供的軟件生成的文檔，廠商都會提供相應(yīng)的文本提取接口。搜索引擎的搜索只需要調(diào)用這些插件的接口，就可以輕松地提取文檔中的文本信息和文件的其他相關(guān)的信息。

HTML等文檔不一樣，HTML有一套自己的語法，通過不同的命令標(biāo)識符來標(biāo)識不同的字體、顏色、位置等，提取文本信息時需要把這些標(biāo)識符都過濾掉。過濾標(biāo)識符并非難事，因為這些標(biāo)識符都有一定的規(guī)則，只要按照不同的標(biāo)識符取得相應(yīng)的信息即可。但在識別這些信息的時候，需要同步記錄許多版式信息。

除了標(biāo)題和正文以外，會有許多廣告鏈接以及公共的頻道鏈接。這些鏈接和文本正文一點關(guān)系也沒有，在提取網(wǎng)頁內(nèi)容的時候，也需要過濾這些無用的鏈接。例如，某個網(wǎng)站有“產(chǎn)品介紹”頻道，因為導(dǎo)航條在網(wǎng)站內(nèi)每個網(wǎng)頁都會搜索到，無疑會帶來大量垃圾信息，過濾這些無效鏈接需要統(tǒng)計大量的網(wǎng)頁結(jié)構(gòu)規(guī)律，抽取一些共性，統(tǒng)一過濾；對于一些重要而結(jié)果特殊的網(wǎng)站，還需要個別處理。這就需要搜索引擎蜘蛛的設(shè)計有一定的擴(kuò)展性。

以上就是對深度了解蜘蛛spider抓取原理的介紹，感謝收看與關(guān)注，明天繼續(xù)更新，還望朋友們多多關(guān)注。