百度搜索引擎工作原理系列-第八章哪些网页无法建入引索库

上一篇(第七章百度优先建重要库的原则)优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:
        1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
        2, 主体内容空短的网页
        1)有些内容使用了百度spider无法解析的技术,如JSAJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
        2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
        3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
        3, 部分作弊网页

原创文章,作者:Da Zhuang,如若转载,请注明出处:https://www.lidazhuang.cn/seo/baidu_spider/516.html

(0)
上一篇 2015年7月15日
下一篇 2015年7月15日

相关推荐

联系我