百度是如何抓取网页的白条鸡理论
发布时间:2012-12-07 11:56
白条鸡的理论是我总结的一个计算过程,实际就是经过白条鸡的计算,获得一个主题明确,关键字列表准确的页面。也就是搜索的第二步计算过程,在该过程中,搜索引擎把提取回来的页面形成AD存入数据库,在此处调出,分成链接和文本进行深入的“褪毛”。
该内容的学习需要有几个概念大家理解一下:
一、网页消噪(净化):就是识别和清除网页内的噪音部分的东西,使得主题干净。像推了毛的白条鸡。
二、网页消重:去除已经收集的网页集合中,内容重复的网页。这样就可以做到,用户查询是不会出现大量相同的页面。
三、粒度:最小单元的意思。一般指关键字。
这个大家可以有同感的,大量的广告、导航、页脚、非主题文本、非主题列表等等噪音会使得主题漂移,实际的一个页面的主题,浏览者用肉眼是很容易区分的,但是程序却不是太容易。
这里不做深入的分析了,该处的计算过于复杂,形成了标签树,特征标签,相关度,权重传递等等,总之,调用了相关的很多的模块,最后实现 第一:去除噪音,确立的主题,第二:依据主题,形成了相关的关键字列表,第三:依据关键字列表为最终的排序创造了必备的条件。
当你问别人问题后,应该考虑到SEO都很忙,没有回复你可能正在处理事,哪怕迟些再礼貌的问下之前的问题有没收到,也不要下“这人牛X,不带理人,有什么了不起”的结论。你愤然离去,对方并未损失什么,而你,可能失去很快搞懂问题的机会。
本文由http://www.qingxianweb.com站长供稿!
除非注明,文章均为沧州网络公司原创,转载请注明本文地址,谢谢。
本站地址:http://www.qingxianweb.com/
本文地址:http://www.qingxianweb.com/cangzhouwangzhanyouhua/1411/


