仅当您的网站里面含有不期望被搜索引擎网站收录的内部实质意义时,才需求运用robots.txt文件。假如您期望搜索引擎网站收录网站上全部内部实质意义,请勿树立robots.txt文件。
查缉该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中开创一个robots.txt,在文件中声明 该网站中没想到被搜索引擎网站收录的局部还是指定搜索引擎网站只收录特别指定的局部。
例1.严禁全部搜索引擎网站过访网站的不论什么局部 下载该robots.txt文件User-agent:* Disallow:/
例2.准许全部的robot过访 (还是也可以建一个具文件"/robots.txt")User-agent:* Allow:/
例3.仅严禁Baiduspider过访您的网站User-agent:Baiduspider Disallow:/
例4.仅准许Baiduspider过访您的网站User-agent:Baiduspider Allow:/ User-agent:* Disallow:/
例5.仅准许Baiduspider以及Googlebot过访User-agent:Baiduspider Allow:/ User-agent:Googlebot Allow:/ User-agent:* Disallow:/ 例6.严禁spider过访特别指定目次 在这个例子中,该网站有三个目次对搜索引擎网站的过访做了限止,即robot不会过访这三个目次。需求注意的是对每一个目次务必分开声明,而不可以写成"Disallow:/cgi-bin//tmp/"。User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/
例7.准许过访特别指定目次中的局部urlUser-agent:* Allow:/cgi-bin/see Allow:/tmp/hi Allow:/~joe/look Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/
例8.运用"*"限止过访url 严禁过访/cgi-bin/目次下的全部以".htm"为后缀的URL(里面含有细目录)。User-agent:* Disallow:/cgi-bin/*.htm
例9.运用"$"限止过访url 仅准许过访以".htm"为后缀的URL。User-agent:* Allow:/*.htm$ Disallow:/
例10.严禁过访网站中全部的动态页面User-agent:* Disallow:/*?*
例11.严禁Baiduspider抓取网站上全部图片 仅准许抓取网页,严禁抓取不论什么图片。User-agent:Baiduspider Disallow:/*.jpg$ Disallow:/*.jpeg$ Disallow:/*.gif$ Disallow:/*.png$ Disallow:/*.bmp$
例12.仅准许Baiduspider抓取网页和.gif款式图片 准许抓取网页和gif款式图片,不准许抓取其它款式图片User-agent:Baiduspider Allow:/*.gif$ Disallow:/*.jpg$ Disallow:/*.jpeg$ Disallow:/*.png$ Disallow:/*.bmp$
例13.仅严禁Baiduspider抓取.jpg款式图片User-agent:Baiduspider Disallow:/*.jpg$
robots常见用处
站长基础交流之13个实用的robots文件常见用法说明 站长必备
2017-12-11 00:45 点击:52