百度SEO:百度搜索的工作原理

05-23 08:30 好宝宝网站收录 2

搜索引擎是根据用户需求,运用特定策略从互联网海量数据中提取对用户有价值内容的一种技术。对资源生产方而言可以简化为三步:从互联网抓取网页、建立索引数据库、将索引库中数据展现给用户。

网站抓取:在互联网中发现、搜集网页信息;

建立索引:对信息进行提取和组织建立索引库;

结果呈现:用户输入的查询关键字,在索引库中快速检出文档进行文档与查询的相关度评价,对将要输出的结果进行排序并将查询结果返回给用户。

一.网站抓取

Spider抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做Spider。例如我们常用的几家通用搜索引擎蜘蛛被叫做:Baiduspider、Googlebot、Sogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,它从一些重要的种子URL开始通过页面上的超链接关系不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型Spider系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此还要对Spider过去抓取过的页面保持更新。

当Baiduspider无法正常抓取时,会出现 抓取异常 。对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在 用户体验 上的缺陷并降低对网站的评价,抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量;

抓取过程中Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整 抓取频次 。如果搜索引擎对站点抓取超过服务压力,网站可以通过抓取频次工具进行调节。如果有不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分,可以进行Robots设置;同时为了提升 百度蜘蛛 抓取数据的效率,我们可以通过收录工具将资源主动提交给百度;

二.建库索引

前面Spider进行了一轮筛选之后,数据量依然巨大。这时候由索引系统对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算得到页面内容中及超链中每一个关键词的相关度或重要性信息,然后利用这些相关信息建立网页索引数据库,将有价值的资源保存下来。

2.1新站的站长常常会遇到整站未被索引的情况,这种怎么解决?

站点内容页面需要经过搜索引擎的抓取和层层筛选后方可在搜索结果中展现给用户。Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库即我们常说的“建库”。众所周知搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库,低级库展现的机会较小。

2.2那么哪些网页可以进入优质索引库呢?

其实总的原则就是一个:对用户的价值。包括不限于:

1、领域垂直聚焦:当内容生产者在输出内容时,涉及的领域不应该过杂,不应该浪费精力去生产堆砌不熟悉的内容。应在专业领域内生产专业的内容,聚焦并把最擅长的内容做好,有利于持续满足用户的同类型需求。

2、内容质量高:表述清晰阅读顺畅 ,文笔用词用句舒适,行文严谨考究,能体现这个行业的专业性,实操性强。

3、高价值原创:百度把原创定义为需花费一定成本、大量经验积累提取后形成的文章。

4、体验舒适使用流畅:排版布局合理,考虑用户体验,不能阻塞用户的顺畅浏览,减少不必要的阅读权限设置等。

具体更多的内容可以参照优质内容规范以及百度APP移动搜索 落地页 体验白皮书5.0

同时互联网上有一部分网站根本没有被百度索引,可能存在以下原因:

1、重复内容的网页:互联网上已有的内容,百度没有必要再索引

2、主体内容空短的网页

3、违规作弊站点等

最后我们可以通过索引量工具查看站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量数据。

三、结果呈现

用户输入关键词进行检索,百度搜索引擎在排序环节需要做两方面的事情,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括不限于以下几个维度,具体可以通过优质内容规范了解;

1、相关性:网页内容与用户检索需求的匹配程度

2、权威性:用户喜欢有一定权威性网站提供的内容,相应的百度搜索引擎也更相信优质权威站点提供的内容

3、时效性:时效性结果指的是新出现的网页且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要

4、内容质量高:表述清晰阅读顺畅 ,文笔用词用句舒适,行文严谨考究,能体现这个行业的专业性,实操性强

以上便是百度搜索引擎决定搜索结果排序时考虑的一些原则,同时我们可以通过资源平台-【搜索服务】下工具,如站点子链,站点属性,及网站改版等工具提升网站的展示效果。

免责声明

任何关于疾病的建议都不能替代执业医师的面对面诊断,请谨慎参阅。本站不承担由此引起的法律责任。

本站上所有内容均出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

热门网站
  • 百度网盘
    百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间。
  • 网易体育
    体育,体育频道,包含体育新闻,NBA,CBA,英超,意甲,西甲,冠军杯,体育比分,足彩,福彩,体育秀色,网球,F1,棋牌,乒羽,体育论坛,中超,中国足球,综合体育等专业体育门户网站
  • 中国财经网
    以“中国财经”、“中国财经APP”、中国财经双微等为核心业务平台,实现多屏互动,重点关注宏观经济、金融、证券、上市公司、房产、科技等领域,为用户提供时效、专业、全面的财经信息及综合类服务。
  • 简书
    简书是一个优质的创作社区,在这里,你可以任性地创作,一篇短文、一张照片、一首诗、一幅画……我们相信,每个人都是生活中的艺术家,有着无穷的创造力。
  • 武汉大学
    武汉大学(Wuhan University),简称武大(WHU),位于湖北省武汉市,是教育部直属的综合性全国重点大学, 中央直管高校,国家首批“双一流”、“985工程”、“211工程”重点建设高校。入选“101计划”、英才计划、国家建设高水平大学公派研究生项目,为医学“双一流”建设联盟、欧亚-太平洋大学联盟、中英高等教育人文联盟成员,长江中游城市群“双一流”高校联盟理事长单位。 武汉大学溯源于1893年清末湖广总督张之洞奏请清政府创办的自强学堂,历经传承演变,1928年定名为国立武汉大学,是近代中国第一批国立大学。 1960年被确定为全国重点综合性大学,1995年被确定为国家“211工程”重点建设高校。2000年武汉大学与武汉水利电力大学、武汉测绘科技大学、湖北医科大学合并组建新的武汉大学,2001年进入国家“985工程”重点建设高校行列,2017年入选国家“双一流”建设高校。
  • 301解放军总医院
    中国人民解放军总医院(301医院)创建于1953年,是集医疗、保健、教学、科研于一体的大型现代化综合性医院,直属于中国人民解放军联勤保障部队。医院是中央重要保健基地,承担军委、总部等多个体系单位、官兵的医疗保健和各军区、军兵种转诊、后送的疑难病诊治任务。医院同时又是解放军医学院,以研究生教育为主,是全军唯一一所医院办学单位。
  • 厚大法考
    厚大法考隶属于北京厚大轩成教育科技股份公司,是一家集司法考试培训、法硕培训、律所、律师培训等相关法律培训服务的机构。厚大法考从成立之初凭借免费模式,各友商效仿引入免费模式,让法考行业实现对学员的教育资源共享 。2016年,厚大股份挂牌上市。2017年,随着多位名师的加入,以及厚大各职能部门的协作,厚大组成了行业学院派名师阵容。厚大罗翔老师在2020年出圈,掀起了全民法律热。截止到2023年,厚大法考图书发行量已经突破一千万册,免费课件播放量达一亿次 。
手机号码吉凶查询网