圣莉雅兰网络科技沧州网络公司专业从事沧州网站建设,沧州网站优化!!! 建站报价典型案例联系我们

百度是如何抓取网页的白条鸡理论

发布时间:2012-12-07 11:56  
更多
 白条鸡的理论是我总结的一个计算过程,实际就是经过白条鸡的计算,获得一个主题明确,关键字列表准确的页面。也就是搜索的第二步计算过程,在该过程中,搜索引擎把提取回来的页面形成AD存入数据库,在此处调出,分成链接和文本进行深入的“褪毛”。

  该内容的学习需要有几个概念大家理解一下:

  一、网页消噪(净化):就是识别和清除网页内的噪音部分的东西,使得主题干净。像推了毛的白条鸡。

  二、网页消重:去除已经收集的网页集合中,内容重复的网页。这样就可以做到,用户查询是不会出现大量相同的页面。

  三、粒度:最小单元的意思。一般指关键字。

  这个大家可以有同感的,大量的广告、导航、页脚、非主题文本、非主题列表等等噪音会使得主题漂移,实际的一个页面的主题,浏览者用肉眼是很容易区分的,但是程序却不是太容易。

  这里不做深入的分析了,该处的计算过于复杂,形成了标签树,特征标签,相关度,权重传递等等,总之,调用了相关的很多的模块,最后实现 第一:去除噪音,确立的主题,第二:依据主题,形成了相关的关键字列表,第三:依据关键字列表为最终的排序创造了必备的条件。

  当你问别人问题后,应该考虑到SEO都很忙,没有回复你可能正在处理事,哪怕迟些再礼貌的问下之前的问题有没收到,也不要下“这人牛X,不带理人,有什么了不起”的结论。你愤然离去,对方并未损失什么,而你,可能失去很快搞懂问题的机会。

  本文由http://www.qingxianweb.com站长供稿!

除非注明,文章均为沧州网络公司原创,转载请注明本文地址,谢谢。

本站地址:http://www.qingxianweb.com/

本文地址:http://www.qingxianweb.com/cangzhouwangzhanyouhua/1411/

  • 上一篇:PR值算法原理是什么?
  • 下一篇:没有了