网站SEO必会的robots设置

原创 David  2017-03-04 12:49  阅读 1,810 次
>明月合作型SEO

一.什么是robots

1.robots是网站和搜索引擎之间的一个协议
搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。
robots.txt是一个简单的纯文本文件(记事本文件),是和各大搜索引擎沟通的一份协议文件。搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。
各大搜索引擎的协议文件

二.robots是干嘛用的

屏蔽无用的无关的和重复的内容,就是告诉搜索引擎说:以下文件夹的内容是不允许你看的!类似网站大门口的一个告示牌。
如下面的robots:
User-agent: *
Disallow: /admin/
Disallow: /old/love/
Disallow: /007.html
这就是告诉搜索引擎:admin文件夹、old下面的love文件夹、和007.html文件,请不要去收录;

三.怎么写robots?

1.robots.txt格式和形式具体解析
User-agent: *用户代理,定义搜索引擎类型,该值用户描述搜索引擎robots的名字。
Disallow: 不希望被访问的一组URL,定义禁止抓取的地址
Allow:希望被访问的一组RUL。
Disallow:/*.php$ (屏蔽PHP文件)
Disallow:/php/   (屏蔽PHP文件夹)
$ :结束字符,
*:通配符,代表0个或者多个字符。
2.使用方法:
(1)编写好自己网站的robots.txt文件;
(2)将编写好的这个robots.txt文件,通过FTP软件上传到自己网站的根目录。
3.参考用法,也可以作为考试题两个:
(1)网站所有的PHP文件不想让百度抓取,但是允许让谷歌蜘蛛抓取应该怎么写robots?
 User-agent:Baiduspider
 Disallow:/*.php$
(2)网站做了伪静态,所以现在网站只让蜘蛛抓取静态的URL,禁止抓取动态的URL,怎么写robots?
User-agent:*
Disallow:/*?*

四.为什么要写robots?

有以下几种情况:
(1)安全性
这些内容涉及机密,比如说网站的后台登陆地址;后台,数据,模板,插件等文件。
(2)个人意愿
一些公司的老文件,不想被客户看到,但是也不想删除掉;
(3)集中网站权重
放置了伪静态就屏蔽动态。不然两种页面路径(动态和静态)指向的是同一种页面内容,就是一种重复现象,两个链接就会互相分散权重。
除了重复内容还有,空内容,错误内容,中文链接,错误链接,死链接等都需要屏蔽或者提交处理。避免重复,错误,无内容等几个方面的低质量页面。最终提高页面质量得分,利于SEO优化。
这个是robots.txt的主要功能
(4)最猛的是第四种:跟百度有仇。
当然,这是以前的事情了,曾经淘宝屏蔽百度。淘宝网的robots.txt,就有以下代码
User-agent: BaiduspiderDisallow: /
User-agent: baiduspider
Disallow: /
淘宝网全面封杀百度蜘蛛,就是以上的写法了。这个仅供开开眼。
对于淘宝屏蔽百度的robot,百度并没有完全遵守,为什么?品牌问题,不敢不收录。
大的品牌网站,百度不得不考虑收录。比如淘宝,兰亭集势。不收录就会让百度也损失用户。
百度工程师曹政说过:SEO最高境界是做品牌。

总的来说,robots用处就是哪个文件夹你不想搜索引擎看到,就在disallow后面加上。编写好robots.txt文件后,FTP上传到网站根目录即可。

能不能直接给个robots.txt文件写好的参考模板

如果你不想知道原理,就直接照抄别人的写法即可。找不到地方抄?明月SEO,特此给你总结了WordPress和dedecms系统网站的robots写法参考模板

请移步:

WordPress网站编写robots.txt文件的参考案例

dedecms系统专业robots.txt参考模板和详细的设置方法教程

 

本文地址:https://www.rrdsyy.com/298.html
关注我们:请关注一下我们的微信公众号:扫描二维码 号名称暂无
版权声明:本文为原创文章,版权归 明月SEO 所有,欢迎分享本文,转载请保留出处!
西安网站制作

发表评论


表情