robots文件分析及具体写法介绍

06-06 08:00 好宝宝网站收录 0

作为搜索引擎一定要遵从robots协议来对网站进行抓取,尤其是一些涉及到网站的用户资料站点,更是会屏蔽一些重要的信息,以防出现数据泄露。当然,在现今的互联网也不乏很多平台屏蔽百度等搜索引擎,不让其抓取优质内容。

在SEO优化过程中,robots文件是不得不分析的,因为有些屏蔽出现错误导致网站整体抓取,从而影响收录和排名,下面我们就robots文件分析及具体写法介绍下。

【什么是robots】

robots。txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。

robots。txt是一个协议,而不是一个命令。robots。txt是搜索引擎中访问网站的时候要查看的第一个文件。robots文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

【robots。txt文件的作用】

robots。txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots。txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。

当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots。txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。

通常搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。

【robots。txt禁止收录协议写法】

User-agent:**代表所有搜索引擎,也可指定搜索引擎

如指定百度,User-agent:BaiduspiderDisallow:/a/这里定义是禁止抓取a目录下面的所有内容

Disallow:/cgi-bin/*。htm禁止访问

/cgi-bin/目录下的所有以”。htm”为后缀的URL(包含子目录)

Disallow:/*?*禁止访问网站中所有包含问号(?)的网址

Disallow:/。jpg$禁止抓取网页所有的。jpg格式的图片

Disallow:/ab/adc。html禁止爬取ab文件夹下面的adc。html文件。

Allow:/cgi-bin/a/这里定义是允许爬寻cgi-bin目录下面的a目录

Allow:/tmp这里定义是允许爬寻tmp的整个目录

Allow:。htm$允许访问以”。htm”为后缀的URL

Allow:。gif$允许抓取网页和gif格式图片

Sitemap:网站地图,告诉爬虫这个页面是网站地图

User-agent:*

Disallow:/i*/

Disallow:/a*d/

Disallow:/*。php

Disallow:/*/*。php

Disallow:/*/list*。html

Allow:/img/

Sitemap:https://域名/sitemap。xml

免责声明

任何关于疾病的建议都不能替代执业医师的面对面诊断,请谨慎参阅。本站不承担由此引起的法律责任。

本站上所有内容均出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

热门网站
  • 百度网盘
    百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间。
  • 网易体育
    体育,体育频道,包含体育新闻,NBA,CBA,英超,意甲,西甲,冠军杯,体育比分,足彩,福彩,体育秀色,网球,F1,棋牌,乒羽,体育论坛,中超,中国足球,综合体育等专业体育门户网站
  • 中国财经网
    以“中国财经”、“中国财经APP”、中国财经双微等为核心业务平台,实现多屏互动,重点关注宏观经济、金融、证券、上市公司、房产、科技等领域,为用户提供时效、专业、全面的财经信息及综合类服务。
  • 简书
    简书是一个优质的创作社区,在这里,你可以任性地创作,一篇短文、一张照片、一首诗、一幅画……我们相信,每个人都是生活中的艺术家,有着无穷的创造力。
  • 301解放军总医院
    中国人民解放军总医院(301医院)创建于1953年,是集医疗、保健、教学、科研于一体的大型现代化综合性医院,直属于中国人民解放军联勤保障部队。医院是中央重要保健基地,承担军委、总部等多个体系单位、官兵的医疗保健和各军区、军兵种转诊、后送的疑难病诊治任务。医院同时又是解放军医学院,以研究生教育为主,是全军唯一一所医院办学单位。
  • 武汉大学
    武汉大学(Wuhan University),简称武大(WHU),位于湖北省武汉市,是教育部直属的综合性全国重点大学, 中央直管高校,国家首批“双一流”、“985工程”、“211工程”重点建设高校。入选“101计划”、英才计划、国家建设高水平大学公派研究生项目,为医学“双一流”建设联盟、欧亚-太平洋大学联盟、中英高等教育人文联盟成员,长江中游城市群“双一流”高校联盟理事长单位。 武汉大学溯源于1893年清末湖广总督张之洞奏请清政府创办的自强学堂,历经传承演变,1928年定名为国立武汉大学,是近代中国第一批国立大学。 1960年被确定为全国重点综合性大学,1995年被确定为国家“211工程”重点建设高校。2000年武汉大学与武汉水利电力大学、武汉测绘科技大学、湖北医科大学合并组建新的武汉大学,2001年进入国家“985工程”重点建设高校行列,2017年入选国家“双一流”建设高校。
  • 厚大法考
    厚大法考隶属于北京厚大轩成教育科技股份公司,是一家集司法考试培训、法硕培训、律所、律师培训等相关法律培训服务的机构。厚大法考从成立之初凭借免费模式,各友商效仿引入免费模式,让法考行业实现对学员的教育资源共享 。2016年,厚大股份挂牌上市。2017年,随着多位名师的加入,以及厚大各职能部门的协作,厚大组成了行业学院派名师阵容。厚大罗翔老师在2020年出圈,掀起了全民法律热。截止到2023年,厚大法考图书发行量已经突破一千万册,免费课件播放量达一亿次 。
手机号码吉凶查询网