搜索引擎是现代人从网络世界中获取信息的重要工具,无论你有什么问题,都可以在网上搜索出答案。比如百度搜索引擎那句很有名的slogon:百度一下,你就知道。然而,关于搜索引擎的工作原理,相信没几个人能说出来。今天,小编就来以百度搜索为例,从页面抓取、筛查过滤、建立索引、评分排序以及搜索展出几个方面,为大家好好科普一下搜索引擎的基本工作原理。
百度搜索引擎的工作原理
1、页面抓取
一旦发现有新的数据信息出现,不管是老站更新,还是新站上线,百度蜘蛛会以很快的速度精准找到你的网站,然后将你网站的所有数据和信息直接打包带回家给百度搜索引擎。当然,为了能够让百度蜘蛛一开始就抓取网站信息,很多网站也会主动提交信息数据给百度搜索引擎。
2、筛查过滤
当百度蜘蛛把抓取的数据信息带回来以后,百度搜索引擎会对带回来的信息数据进行一个基本的筛选,也是搜索引擎的基本工作原理之一。比如黄赌毒,还有特殊词汇信息和数据都会筛掉。那么什么信息和数据会被屏蔽过滤呢?比如说我国管控的物品,或禁止的一些服务,再比如办退伍证、出售警服、军火器械等等。还有少儿不宜、有参赌性质、或者与毒品相关的内容都是不被允许的。另外,还有一点大家要注意,没有价值,不能为用户提供帮助的垃圾数据信息,比如抄袭的文章、大量采集的文章、镜像的站点等等,也属于会被屏蔽过滤的内容。
而优质的页面,有信誉或者有威望的网站则直接通过筛选进入下一环节。如果百度蜘蛛抓取的页面信息是原创度高,用户体验度高的内容就会被很快通过筛选。百度搜索引擎还有一个白名单,这类被百度直接信任的数据信息一旦有更新,会被马上抓取,然后建库索引,直接参与排名。包括一些大型的站点,对社会有用的站点也会受到这样的优待。
3、建立索引
通过筛选页面这个环节过后,所有留存下来的信息基本都被判定为优质内容,然后进入建库索引环节。在这个环节搜索引擎对信息数据进行分门别类。比如:购物网站归为一类,培训网站归为一类,美食网站归为一类等等海量的数据信息一一分类入库。搜索引擎每天都要分类海量(按亿计算)的各种信息数据,这些数据来自各行各业,但在分类的过程中,搜索引擎会把性质相同的信息数据分到一个库里。不会出现乱套,杂乱的分类。所谓建库索引也可以理解为登记造册,然后准备输入档案库,等用户搜索相关信息是,搜索引擎就会用正排索引和倒排索引技术到档案库里去调用符合要求的内容给用户,这就是建立索引的意义所在,也是百度搜索引擎的基本工作原理之一。
4、评分排序
评分排名的标准有三点,网站权重、网站与内容相关联程度、内容的实用性;站内细节优化、网站本身的构架与相应速度。
(1)网站权重:自来源于哪些网站,然后看下他们网站的年龄。网站年龄越大,百度搜索引擎给予网站的信任分越高。
(2)网站与内容相关联程度:网站的内容否与网站主题定位相关,不相关扣分,相关就加分。像挂羊头卖狗肉,就会严重影响用户体验。
(3)内容的实用性:如果内容对有用户有价值的分,如果不实用,不加分。评判实用的标准有:内容原创度、内容真实度、阅读量、转发收藏、用户停留时间等等。
(4)站内细节优化:站内优化细节评分,这一环节是重中之重。包括首页,栏目页;网页的URL地址化;图片Alt属性、站内的内链建设;站外的外链建设;还有其它各种的小细节。
(5)网站自身的结构:好的结构导致网站本身的打开率高。相反JS代码太多就会扣分,服务器不行也会扣分、图片上经常不写标识也要扣分,URL经常带不开也扣分。
在分析评分阶段,百度搜索引擎根据它的评分机制,评分项,算法机制来对页面给一个初始评分,这个评分有一个标准,每个行业的评分标准是不一样的。一般来讲,行业竞争越激烈需求越大的网站,评分标准越高。低于评分标准线的不能进入site库,但是会建立索引,等到它超过这个分数线以后,就可以进入site库,参与排名了。高于评分标准线的进入site库,并且直接参与排名。
5、搜索展出
当用户在百度搜索栏输入关键词并搜索的时候,百度会根据刚说的评分标准一一展示网站的排名。不过这个排名也不是一直固定的,所有的排名都会变动。不过有的网站因为本身的权重很高,网站内的每个页面的初始分值也很高,因此排名自然也十分稳固。百度把这类网站放入白名单中,白名单中的网站排名基本上不会收到影响。因此,从这个角度来说,任何网站优化的基本准则都必须遵循搜索引擎的评分机制,做好站内优化,站外优化,用户体验,网站的基本架构配置。只要做好这些,你才能通过搜索引擎的排名机制得到高的页面初始评分值,评分越高,越容易被收录,有了收录,才能有好的排名。
百度搜索引擎的基本工作原理就讲到这里了,希望本文能为想要在海量的索引库中取得优先排名的SEO从业者,提供一些启发和帮助。随着搜索引擎的发展和进化,规则算法变得越来越复杂了。不过搜索引擎的评分机制与评分项其核心并没有改变。总的来说,讨好搜索引擎与提升用户体验是SEO中不变的并驾齐驱的课题。