Google蜘蛛抓取协议robots文件的正确写法

现在全球的各大搜索引擎，不管是Google还是百度，亦或是必应和没落的雅虎，都在遵循统一的robots协议，所以我们在写robots文件的时候，只需要针对Google去写就可，其他搜索引擎也一样适用。那robots文件是什么，它的正确写法又该是怎样的呢？根据以往的谷歌SEO经验，我们会将其撰写技巧分享给大家。

一、什么是robots文件

robots文件也称为蜘蛛协议文件，通常用记事本的格式将其创建在网站的根目录，即robots.txt。robots是用来告诉搜索引擎蜘蛛，网站什么地方可以抓取，什么地方不能抓取。搜索引擎蜘蛛在进入网站后通常首先会访问robots文件，然后再根据文件里所规定抓取范围去抓取，但是也有极少数情况，蜘蛛可能并不会百分百遵守robots蜘蛛协议。

二、robots的正确写法

robots文件有很多命令是用代码表示，具体如下：

通配符＊：代表全部

User-agent：蜘蛛名称

disallow：不允许抓取

Allow：允许抓取

$：表示某一类型文件后缀，如.html$ .jpg$

Google蜘蛛：Googlebot

百度蜘蛛：BaiduSpider

robots文件撰写示例：

User-agent: Googlebot

disallow: /wp-includes/

disallow: /*?*

Allow: .html

Sitemap: https://www.dustSEO.com/sitemap.xml

以上示例的意思为：针对谷歌蜘蛛，禁止其抓取wp-includes文件夹的内容；禁止抓取网站中带“？”参数的链接；允许抓取后缀为.html的链接；告诉蜘蛛网站地图的路径，引导其抓取Sitemap网站地图。

要注意的是，robots文件中使用的冒号是英文格式，即“:”，而且冒号后面记得加上空格，指令的首写字母也必须为大写，否则不符合robots的书写规范。

三、robots的作用

robots的作用主要是给搜索引擎蜘蛛一个清晰的网站可抓取范围，让搜索引擎蜘蛛更有效率地抓取网站，减少服务器资源的消耗。如果站长们有什么文件是不想搜索引擎抓取的（例如用户数据等机密），可以使用robots进行屏蔽；如果有想让蜘蛛快速发现并抓取的（例如网Sitemap站地图），可写入robots文件。

四、关于谷歌蜘蛛

既然说到robots，那也补充一下关于谷歌搜索引擎蜘蛛的相关知识，常见的谷歌蜘蛛有两种：

一种是谷歌搜索引擎用的，叫做Googlebot，它会访问抓取网页，收集该网页上的链接，而且会顺着这些链接抓取其他的网页，然后收录进谷歌系统的数据库中，建立网页索引。

另外一种叫做Mediabot，这种蜘蛛也是谷歌的，它的目的是抓取网页来匹配与Google Ads相关广告的。

对于SEO排名来说最重要的还是Googlebot这种蜘蛛，不过有做Google Ads的网站，如果网页里有放Google Ads广告代码，那么Mediabot抓取网页内容会补充给谷歌搜索引擎，这些网页的收录会更加快。

总结

书写正确的robots，能让谷歌搜索引擎更有效率抓取你的网站，如果网站长时间不被谷歌收录，记得第一时间检查robots文件是否有错误，是否屏蔽了谷歌搜索引擎蜘蛛的抓取。

Google蜘蛛抓取协议robots文件的正确写法

一、什么是robots文件

二、robots的正确写法

三、robots的作用

四、关于谷歌蜘蛛

总结

相关推荐