专注于深圳企业建站,深圳做网站首选建站公司收藏本站|设为首页

您现在的位置: 网站首页 > 网站专题 > 网站SEO优化 > 详细内容

如何巧妙利用robots

2010-11-8 9:33:38 来源: 云梯科技 www.wangzhan114.com [ ]

如何巧妙利用robots

我们经常说robots文件,但是它到底是什么呢?robot文件搜索引擎自动访问互联网上的网站并获取网页信息,当搜索引擎来抓取我们这个网站的时候,搜索引擎首先会找到robot文件,看看我们里面是怎么写的,写些了那些命令。然后它根据我们描述的要求对我们的网站进行相对应的处理,该抓取哪里,不改抓取哪里,这里大家就会想,robot是不是就只要这个作用呢?只是定义搜索引擎改访问、不改访问那些目录或页面呢?其实你就只猜对了一半,robot里面还可以写别的信息。如:作者的版权信息,公司的信息,网站程序信息等等很多信息。我想这点大多数的SEOer是没用利用的。robot在一个网站里面起到的很重要的最好。有了这个文件不能说想对我们的网站为所欲为吧,但是可以很方便的对网站的结构信息进行合理化。就想我在我优化的这个www.jiankan13.com一生健康网的robot文件里面加上了我的个人信息,为什么呢?因为在我找工作的时候,别人会问我有没有成功案例,我说有,我打上网址让人家看,这样很难让人家相信,是不是真的是你做的。但是如果打开robot文件一看。里面的信息是我的。这样也算对自己劳动成果的保护吧,接下来我说一下robot文件的格式:
User-agent:      这里是定义搜索引擎的类型
Disallow:    这里是定义禁止搜索引擎收录的地址
Allow:   这里是定义允许搜索引擎收录的地址
我们常用的搜索引擎类型有:
google蜘蛛: googlebot   
百度蜘蛛:baiduspider   
yahoo蜘蛛:slurp   
alexa蜘蛛:ia_archiver   
msn蜘蛛:msnbot   
altavista蜘蛛:scooter   
lycos蜘蛛: lycos_spider_(t-rex)   
alltheweb蜘蛛: fast-webcrawler   
inktomi蜘蛛: slurp
以上是我们常用的搜索引擎类型。下面我们说下标准写法的格式:
User-agent: *     这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/       这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/    这里定义是禁止爬寻require目录下面的目录
Disallow: /require/   这里定义是禁止爬寻require目录下面的目录   
Disallow: /ABC     这里定义是禁止爬寻ABC整个目录 
Disallow: /cgi-bin/*.htm  禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?*    禁止访问网站中所有的动态页面
Disallow: .jpg$   禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html  禁止爬去ab文件夹下面的adc.html所有文件
User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp        这里定义是允许爬寻tmp的整个目录
Allow: .htm$        仅允许访问以".htm"为后缀的URL。
Allow: .gif$     允许抓取网页和gif格式图片