robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。举例来说,当spider访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在 http://www.abc.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范 围。
就算已经被Google和Yahoo收录,也还是有必要用SiteMap的,这是为什么呢?有以下两大原因:
c)用SiteMap有利于搜索引擎更加友好的对网站进行收录,不要让网站的收录有些漏洞或者收录不全。有了SiteMap可以很好的在这方面发挥作用。
d)有了SiteMap并提交给搜索引擎之后,方便你在以后进行下一步的工作,比如对网站的外部链接和内链错误进行更好的调整,这些都要用到SiteMap的提交功能。
因此,SiteMap的整个作用是不容忽视的。如果你的网站属于下列情况,那么,使用SiteMap会特别实用:
A.网站含动态内容。
B.网站有不容易被发现的页面,如有大量富 AJAX 或 Flash 内容的页面。
C.网站为新网站且指向网站的链接不多。
D.网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。
E.网站上网页的更改频率。
F.各网页上次修改的日期。
G.您网站上各网页的相对重要性。
如果你的网站出现上面介绍的情况,那么,你就需要创建SiteMap了