如何编写网站robots.txt文件

Robots协议全称是网络爬虫排除标准”(Robots Exclusion Protocol),叫爬虫协议或机器人协议,也可戏称萝卜丝协议,用户告诉搜索引擎爬虫网站哪些页面可以被抓取,哪些页面禁止抓取。

Robots协议全称是网络爬虫排除标准”(Robots Exclusion Protocol),叫爬虫协议或机器人协议,也可戏称萝卜丝协议,用户告诉搜索引擎爬虫网站哪些页面可以被抓取,哪些页面禁止抓取。


Robots.txt文件:

 Robots文件是以robots.txt文件形式存在于网站主机服务器上,编辑robots.txt文件可以使用windows系统的txt文本编辑器进行创建和编辑。若网站有制作和上传robots.txt文件,搜索引擎爬虫会第一时间访问这个文件并根据文件内的指令进行工作。请注意,robots.txt是一个协议,而不是一个命令。

Robots写法:

 User-agent:*      *是一个通配符,表示所有的意思,这里指允许所有搜索引擎爬取

Disallow:/123/     禁止爬寻123目录下面的目录

Disallow:/123/*.htm 禁止访问/123/目录下的所有以”.htm”为后缀的URL(包含子目录)

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/123/123.html禁止爬取123文件夹下面的123.html文件。

Allow:/123/ 这里定义是允许爬寻123目录下面的目录

Allow:/123 这里定义是允许爬寻123的整个目录

Allow:.htm$ 仅允许访问以”.htm”为后缀的URL。

Allow:.gif$ 允许抓取网页和gif格式图片

Sitemap:网站地图 告诉爬虫这个页面是网站地图

等等,总体分为allow和disallow两种形式

查看网站robots.txt:

      以我的博客站为例,域名是https://www.yunglobe.com,手动在域名后面输入robots.txt,如:https://www.yunglobe.com/robots.txt,  之后回车即可访问该网站的robots.txt文件


本文标题:如何编写网站robots.txt文件
作者:为主的祥助    转载请保留页面地址: https://www.yunglobe.com/robots.html ‎
更多跨境平台运营技术干货,请关注公众号:跨境E站(GlobalSEO)    
一个有灵魂的公众号,专注更新外贸领域跨境电商平台的运营操盘和数据优化,独立站搭建,Google SEO和SEM Marketing等优质内容

给TA打赏
共{{data.count}}人
人已打赏
产品优化

运用表格宏对阿里国际站关键词库进行分组

2020-1-30 17:52:39

前端开发知识

5种优化方法提升HTTP/2下的页面加载速度

2019-9-30 11:05:50

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
Download
Aicomce-阿里国际站运营必备软件
数据优化,市场分析,选品辅助,黑科技项
x