robots.txt详细的写法

        Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。而Robots协议的使用方法就是在网站的根目录下新建一个名为robots.txt的文本文件。有一点要注意,如果你希望控制或不希望搜索引擎收录你网站上的内容时,才需要使用robots.txt协议。如果你希望搜索引擎收录网站上所有内容,请不要使用robots.txt协议。

        那么关于robots.txt的写法,已经用代码加注释给出了:

        1. 禁止所有搜索引擎收录你网站的任何内容

User-agent: * 
Disallow: /

        2.允许所有搜索引擎收录你网站的任何内容

User-agent: *
Allow: /

        3. 禁止百度收录你网站的任何内容

User-agent: Baiduspider
Disallow: /

        4.只允许百度收录你的网站的内容

User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /

        5.只允许百度以及谷歌收录你网站的内容

User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

        6.禁止所有搜索引擎收录特定目录中的内容

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

        7.只允许所有搜索引擎收录特定目录中的内容

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

        8.禁止所有搜索引擎收录特定目录中的htm文件

User-agent: *
Disallow: /cgi-bin/*.htm

        9.只允许所有搜索引擎收录网站上的htm文件

User-agent: *
Allow: /*.htm$
Disallow: /

        10.禁止所有搜索引擎收录网站url上带?的链接

User-agent: *
Disallow: /*?*

        11.禁止百度抓取网站上所有图片

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

        12.只允许百度抓取网页和.gif格式图片

User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

        13.仅禁止百度抓取.jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

        14.适合Wordpress最简单的严格写法

User-agent: *
Disallow: /wp-*
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

        15.在线生成robots.txt

http://tool.chinaz.com/robots/

        16.更多参考资料

http://baike.baidu.com/view/9274458.htm