我们怎么写网站的robots.txt来限制搜索引擎抓取

yibin 2015-02-07 网站运营 541

 做网站当然希望搜索引擎抓取我们网站内容,但我们做SEO优化 href="http://www.seowindows.com/" target=_blank>SEO优化时候并不希望所有的信息都公布于众,比如后台隐私,或者其它一些杂七杂八的信息。
 
那么这时候我们就可以能过robots.txt 文件来控制站在搜索引擎中的展示,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎 robots 访问的部分。
 
如果你还不太了解 robots.txt,可以先看看SEO教程 href="http://www.seowindows.com/" target=_blank>免费SEO教程网 robots.txt的写法。
 
先来看看带“*”的一种写法:
----------------------------------------------------------------------------------------
User-agent: *
Disallow: /ad*
Allow: /ad/img/
Disallow: /*.php$
Disallow: /*.jsp$
Disallow: /*.css$
----------------------------------------------------------------------------------------
这种写法允许所有蜘蛛访问,但会限制以“ad”开头的目录及文件,并限制抓取.php文件、.jsp文件和.css文件。其中 Disallow: /ad* 会连同附件目录(即你上传的图片软件等)一起限制抓取,如果想让搜索引擎抓取img目录中的内容,需要将写上第三行“Allow: /ad/img/“。
 
再来看来较合理的一种写法:
----------------------------------------------------------------------------------------
User-agent: *
Disallow: /admin
Disallow: /content/plugins
Disallow: /content/themes
Disallow: /includes
Disallow: /?s=
Sitemap: http://www.seowindows.com/SiteMap/Article1.htm
----------------------------------------------------------------------------------------
采用这种写法允许所有搜索引擎抓取,并逐一列举需要限制的目录,同时限制抓取网站的搜索结果,最后一行代码是你网站的 Sitemap 路径,大多数搜索引擎都会识别它。
 
如果对自己写的robots.txt不放心,建议你使用 Google管理员工具中的“工具 -> 测试 robots.txt”来对你的 robots.txt进行测试,确保你的修改正确。

扫码添加微信

13013082126 扫描微信 建站咨询 优化咨询