当前位置: 博客首页 >> Google优化 >> 怎样向百度提交站点地图文件?robots.txt写法详解 rss

怎样向百度提交站点地图文件?robots.txt写法详解

成都网站优化 在 2010-07-27 发表,评论(0),阅读(0)

怎样向百度提交站点地图文件?
 
我们知道可以通过Google 网站管理员工具向 Google 提交站点地图 Sitemap,雅虎/MSN都有相应的网站管理员工具以提交站点地图,具体请查询:各大搜索引擎网站站长管理员工具详解:GOOGLE管理员工具-YAHOO管理员工具-BING管理员工具 http://www.sw996.com/seoblog/article45.html 
 
而百度还没有相应的网站管理员工具以供提交站点地图,有待完善.那么如何向百度搜索引擎提交站点地图Sitemap文件?

搜索引擎都遵循一样的 Sitemap 协议,baidu Sitemap 内容和形式可以和 Google Sitemap 完全一样。但因为百度还没开通类似 Google 网站管理员工具的提交后台,所以,我们需要采用以下方式提交"baidu Sitemap" 。

我们可以通过在 robots.txt 文件中添加以下代码行来告诉搜索引擎 Sitemap 的存放位置。包括 XML Sitemap 和 文本形式的 Sitemap。

Sitemap:<sitemap_location>

<sitemap_location> 填写 Sitemap 的完整网址

如:Sitemap: http://www.sw996.com/sitemap2010.xml 
 

如果有很多个.xml 或 .txt 文件,则你可以先建立一个索引文件,把这些.xml 或 .txt 文件的完整网址列在其中。<sitemap_location> 中填写完整的该索引文件的网址。

以下是思为网络网站http://www.sw996.com 的robots.txt 文件:

*****************************
允许所有搜索引擎收录所有页面
添加网站站点地图文件
*****************************

User-agent: *
Allow: /
Sitemap:
http://www.sw996.com/sitemap2010.xml

什么是robots.txt?

  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
  语法:最简单的 robots.txt 文件使用两条规则:

  • User-Agent: 适用下列规则的漫游器
  • Disallow: 要拦截的网页

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

例如:

允许所有的搜索引擎蜘蛛robot访问

User-agent: *
Allow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的images/inc/目录)

User-agent: *
Disallow: /images/
Disallow: /inc/

禁止某个搜索引擎的访问(例如:禁止百度收录)

User-agent: Baiduspider
Disallow: /

只允许某个搜索引擎的访问(例如只允许百度收录)

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

常见搜索引擎蜘蛛

百度蜘蛛: Baiduspider

GOOGLE蜘蛛:Googlebot

GOOGLE ADWORDS右侧推广蜘蛛:adsbot-google

有道蜘蛛:youdaobot

微软蜘蛛:msnbot

Yahoo雅虎蜘蛛:yahoo-mmcrawler

Alexa 蜘蛛:alexa robot

www.dotnetdotcom.org蜘蛛:dotbot

www.exabot.com蜘蛛:exabot

Survey蜘蛛:survey

openbot 蜘蛛:openbot

inktomi 蜘蛛:inktomi

网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

讨论:通过robots.txt列出限制搜索引擎进行目录抓取,这样会将网站管理后台及一些重要的文件目录暴露出来,这将给网站攻击者以入口,为了保证网站的安全,思为网络认为这种写法不是很可取,可以变更为:允许搜索引擎抓取指定的文件夹,如果有新的目录生成,则需要修改robots.txt文件来完善.如果是企业网站,个人建议还是允许抓取所有目录.

 如果大家有更好的方法,欢迎与我们联系,共同交流学习!本文原创,转载请注明出处!

Tags:站点地图robots搜索引擎

思为网络腾讯企业微博,请关注我们:
已有位网友对“怎样向百度提交站点地图文件?robots.txt写法详解”发表评论。

 

www.sw996.com/seoblog/