【站长的必修课】如何设置“robots.txt”文件-聊城网络公司
总机热线:0635-2928568
十年专注各类网站建设、SEO优化服务

【站长的必修课】如何设置“robots.txt”文件

       通过前面一篇文章,聊城SEO站长给站长朋友介绍了“如何分析网站日志

       今天,我们接着学习如何设置“robots.txt”文件。

       robots.txt文件,其实就是我们常说的“robots协议”

网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

写到这里,相信大家对robots协议会有一个初步的了解。

怎么查看网站的robots协议呢?其实很简单,大家在网址中输入http://www.mayuya.com/robots.txt就可以直接看到聊城SEO网站的robots协议。

———————————————-
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /jiage
Disallow: /zhanghao
Disallow: /*?replytocom=
Disallow: /lqlxyy
Disallow: /blog
———————————–

通过分析上面的robots,可以看到,上面多次出现了“Disallow”,下面详细为大家分析一下:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。 
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 
Allow: /tmp 这里定义是允许爬寻tmp的整个目录 
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。 
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

看到这里,大家应该能看懂http://www.mayuya.com/robots.txt 文件了吧!

        我们可以试着分析一下,淘宝网站是如何屏蔽百度蜘蛛的:

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

其实很简单,就是运用了“Disallow: /”

懂得了上面这些之后,我们可以试着分析一些其他网站,当然,关于一些黑客攻击或盗取别人信息,robots.txt文件也是一个很好的途径!
当然,网站还有很多网站日志分析工具,比如:站长工具就有这个功能,还有其他一些工具可以在网上查一下。

       SEO小常识:

       做SEO是需要耐心的,这段时间百度变化比较频繁,作为有一名经验的SEOer,应该已经了解这种规律了,一定要淡定!网站排名下降不可怕,下降后多去分析一下,如果自己没有做违反搜索引挚规定的事项,那就要去观察一下同行的网站,是不是也遇到这种情况了?在自己的网站中没有找到原因,可以借助同类的网站去分析啊!

未经允许不得转载:聊城网络公司 » 【站长的必修课】如何设置“robots.txt”文件

分享到:更多 ()
网站建设及网站优化精典案例展示

评论 抢沙发

评论前必须登录!

(始于2009年)专注网站建设、SEO优化推广,电话:0635-2928568

网站SEO案例联系我们