• 公告3
  • 关注

    关于时代 更多优惠活动等您来拿!
    宝鸡网络公司微信 扫一扫关注——微信公众号 时代手机浏览 扫一扫立即手机浏览
  • 关闭
  • 顶部
  • 宝鸡网站建设公司

    跟踪链接

    时间:2012-04-02 10:09 来源:未知
          为了抓取晚上尽可能多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。

    整个互联网是由相互链接的网站和页面组成的。从理论上说,蜘蛛从任何一个页面触发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能爬行网上所有页面。

    最简单的爬行策略分为两种,一种是深度优先,一种是广度优先。

    所谓深度优先,指的是蜘蛛沿着发现的链接一直向前爬行。直到页面再也没有其他链接,然后返回到第一个页面,沿着另一个页面再一直向前爬行。

    广度优先是指:蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬行一遍,然后再沿着第二层页面上发现的链接爬向第三层。

    从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页面。实际上最大的搜索引擎也只能爬行和收录了互联网的一小部分。

    深度优先个广度优先,通常是混合使用的,这样既可以照顾到尽可能多的网站,也能照顾到一部分网站的内页。