伟泽青岛SEO优化提供-青岛企业网站优化排名服务,站内诊断分析,青岛网站外链建设,SEO优化技术分析等。博主微信:17862341787
当前位置:首页 > SEO基础知识 > 正文
百度搜索引擎工作原理

百度搜索引擎排名收录抓取流程

 
 
举例说明如下:
 
1.新站排名流程:首先是将网站提交百度或者是通过发外链,让百度蜘蛛抓取到网站链接,放进百度临时数据库中,然后进行筛选,百度认为有价值的页面就会放进索引库中,没有价值的就不要,然后在进行比对评分,页面评分高或者说质量高的,百度就给予收录,放进收录库中,百度再根据网站页面的质量得分高低进行排序,最终,就可以在百度搜索中得到结果了。
 
(新站索引量大于收录,是因为,百度索引的时候把抓来的网站里的很多链接是临时放进索引库中的,而收录只是收录部分百度经过比对排序,得分高质量好的链接放进收录库中,所以收录小于索引量。)
 
2.老站一般会有索引量小于收录,有2种情况:
 
第一种数据不准确,因为百度全国每个地方都有服务器,而且每个地方服务器的抓取时间都不一样,服务器响应速度和时间也有差异;
第二种情况,就是数据不准确,是因为,出现不同的百度快照。

Spider抓取系统的基本框架
 
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。
 
Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
 
下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
百度搜索引擎工作原理图示

版权保护: 转载请保留链接: http://www.seo899.com/seojczs/103.html