RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:00-17:30
你可能遇到了下面的问题
关闭右侧工具栏

技术支持

相关阅读
详解搜索引擎收录网页的四个阶段
  • 作者:TT SEOer
  • 发表时间:2023-12-14 18:03
  • 来源:未知
  PageRank算法

       第一阶段:大小通吃
  搜索引擎的网页抓取都是采取大小通吃的策略,也就是把网页中能发现的链接逐一加入到待抓取的URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果非常好,这也是为什么有蜘蛛来访问,却没有收录的原因。
  第二阶段:网页评级
  PageRank算法是比较出名的一种链接分析算法,可以用来衡量网页的重要性,站长们可以用PageRank算法的思路来对URL进行排序,也就是发外链。要知道,搜索引擎蜘蛛的目的就是去下载网页,但PageRank算法是比较全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,那在抓取阶段是无法获得可靠的PageRank得分。
  第三阶段:OCIP策略
  OCIP策略更像是PageRank算法的改进,在算法开始前,每个网页都给予相同的现今,每当想下载某个页面A后,A将自己的现今平均分给页面中包含的链接页面,把自己的现金清空,这也是为什么导出的链接越少,权重会越高的原因之一。
  而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。
  第四阶段:大站优先策略
  大站有限的思路很直接,以网站为单位来衡量网页的重要性看,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接,其本质思想是“倾向于优先下载大型网站URL”,因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但也有一定的依据。
  总结:这个算法虽然简单粗暴,但却能收录高质量网页,具有非常好的效果,这也就是为什么有很多网站的内容被转载后,大站却能排到你前面的关键原因之一。
  • 上一篇:没有了
  • 下一篇:没有了