(网络营销新观察,http://www.01ad.cn)
  有些网站连robots.txt文件都没有,以至于有些不该被访问的网页被搜索引擎抓取了。所有这一点,请站长们不要偷懒。 
什么是robots.txt? 
答:robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
  当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
 
  
robots.txt放在网站的哪个位置?文件名需要大写还是小写? 
答:必须放在网站的根目录下,文件名必须小写。如: 
网址:http://www.w3.org/ robots.txtu位置:http://www.w3.org/robots.txt
  网址:http://www.w3.org:80/ robots.txtu位置:http://www.w3.org:80/robots.txt 
  
robots.txt的基本语法是怎样的? 
答:robots.txt的语法是很简单的,一般常用为三个命令:User-agent,Disallow,Allow 
User-agent:描述搜索引擎的名字,如果该项的值设为*,则该协议对任何机器人均有效; 
Disallow:拒绝搜索引擎访问的URL; 
Allow:允许搜索引擎访问的URL。 
  
请举出robots.txt的写作实例: 
答:User-agent: *  # (俺的站还是小站,当然希望越多的搜索引擎爬虫来爬我的网站了,^_^) 
Disallow: /dede    #以下开始对所有的文件或文件夹进行搜索引擎访问权限设置。 
Allow: /html 
Allow: /include 
Disallow: /member 
Allow: /plus 
Allow: /special 
Allow: /templets 
Allow: /upimg 
Allow: /weblog 
Disallow: /Article   #由于网站改版,以下为删除搜索引擎收录的网页 
Disallow: /article 
Disallow: /Brand 
Disallow: /DownLoad 
Disallow: /ReSearch 
Disallow: /Soft 
Disallow: /epaper 
Disallow: /Faq.asp 
Disallow: /edit_userinfo.asp 
Disallow: /projects.asp 
Disallow: /success.asp 
  
如何删除被搜索引擎收录的网页? 
答:当网页改版或更新网页文件时,一些文件就要删除,那么如何删除被搜索引擎收录的网页呢?之前就要写信给搜索引擎,或在搜索引擎提供的删除提交网页一页页的提交。 
其实如何掌握了robots.txt,那么删除失效网页就会变得轻而易举。Disallow命令就是删除收录网页的,它可以是文件夹下所有的文件,也可以单一网页。例如"Disallow:/help"是将help文件夹下的所有文件都删除收录,而"Disallow:/ help.html "则只删除网站根目录下的help.html单个网页文件。如果只想把help下的部分网页文件删除,则要分别一一指定。 
  
有哪些常见搜索引擎机器人Robots名字? 答:名称搜索引擎            URL Baiduspider               http://www.baidu.com Scooter                    http://www.altavista.com ia_archiver                http://www.alexa.com Googlebot                 http://www.google.com Inktomi Slurp             http://www.yahoo.com FAST-WebCrawler       http://www.alltheweb.com Slurp                       http://www.inktomi.com MSNbot                   http://search.msn.com 
  
如何测试我写的robots.txt文件的有效性? 
答:截至目前为止,我觉得google是最为规范的搜索引擎,googlebot完全按照robots协议来抓取网页。而且现在google提供功能强大的网站管理员工具,可以在线测试robots的有效性。大家可以在www.google.cn上去申请。 
  
(龙啸:网络营销新观察网站站长,网络营销实践者,从事搜索引擎营销,email营销,电子商务,网络广告等领域的研究,欢迎交流。联系方式:241258977 MSN:tgzg@hotmail.com)  |