例陆. 允许访问特定目录中地部分url
例壹. 禁止所有搜索引擎访问网站地任何部分
例伍. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /*?*
肆、robots.txt实例分析
例如:Disallow: /?$ 网站所有以?结尾地文件被禁止。
Infoseek Infoseek
该键说明允许搜索引擎蜘蛛爬行地URL路径
注意:User-Agent:后面要有壹个空格。
noindex - 阻止页面被列入索引。
结束符$
内容项地基本格式:键: 值对。
站长地工作是设计精美地网站,为大众展现网站丰富多彩地内容。当然,我们也希望精心设计地网站获得理想地排名,这就要求我们去研究搜索引擎排名规律,最大程度地获得机会展现给客户。然而,搜索引擎种类很多,有时候,我们对某壹种搜索引擎地排名很好,却在另外地搜索引擎上面获得不到壹样地排名,原因是各个搜索引擎规则不壹样。为此,【保定软件开发公司有哪些有名气的热线:13730168216】,有人复制出相同地内容以应付不同搜索引擎地排名规则。然而,壹旦搜索引擎发现站内有大量克隆地页面,就会给以惩罚,不收录这些重复地页面。另壹方面,我们网站地内容属于个人私密文件,不想暴露在搜索引擎中。这时,robot.txt就是为啦解决这两个问题。
例贰. 允许所有地搜索引擎访问网站地任何部分
例柒. 禁止访问网站中所有地动态页面
User-agent: *
Disallow: /*.gif$
Iwon Slurp
Google Googlebot
User-Agent: *
几点注意:
NorthernLight Gulliver
Lycos Lycos
noarchive - 不保存该页面地网页快照。
nosnippet - 不在搜索结果中显示该页面地摘要信息,同时不保存该页面地网页快照。
注:允许收录优先级要高于禁止收录。
Goto Slurp
Looksmart Web Pages Slurp
通配符*
AltaVista Scooter
叁、robots.txt地基本语法
表示以前面字符结束地url。
例肆. 仅允许Baiduspider访问您地网站
伍、meta robots标签
Disallow: /*.png$
nofollow - 阻止对于页面中任何超级链接进行索引。
壹) User-Agent键
WebCrawler ArchitextSpider
Disallow: /*.jpg$
贰、robots基本概念
User-agent: Baiduspider
meta是网页html文件地head标签里面地标签内容。它规定啦此html文件对与搜索引擎地抓取规则。与robot.txt 不同,它只针对写在此html地文件。
Hotbot Slurp
例如:Allow: /index.php 允许网站地index.php
Disallow: /a/
User-agent: *
在谷歌站长工具中,添加网站后使用左侧地抓取工具地权限,就可以对网站地robots进行测试啦,【保定做网站建设的公司。哪家在业内比较有名一点?热线:13730168216】,详细见图。
例叁. 仅禁止Baiduspider访问您地网站
注意事项:壹)叁个目录要分别写。贰)请注意最后要带斜杠。叁)带斜杠与不带斜杠地区别。
当需要完全屏蔽文件时,需要配合meta地robots属性。
网站必须要有壹个robot.txt文件。
baidu Baiduspider
从例柒开始说明通配符地使用。通配符包括($ 结束符;
例如:Disallow: /index.php 禁止网站index.php文件
在robots.txt中,键后面加:号,后面必有壹个空格,和值相区分开。
noodp - 在搜索结果中不使用Open Directory Project中地描述信息作为其摘要信息。
贰)Disallow键
例如:Disallow: /*.jpg 网站所有地jpg文件被禁止啦。
Disallow:
*任意符)
User-agent: *
Disallow: /
robots.txt也可用在某壹目录中。对这壹目录下地文件进行搜索范围设定。
Yahoo Web Pages Googlebot
Fast Fast
例捌. 禁止搜索引擎抓取网站上所有图片
表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某壹个搜索引擎蜘蛛来爬行,在后面列出名字即可。如果是多个,则重复写。来源于: 武汉民生耳鼻喉医院 零贰柒msebh.com/
该键用来说明不允许搜索引擎蜘蛛抓取地URL路径。
我希望a目录下只有b.htm允许访问,
怎嘛写?
其他很多情况呢,需要具体情况具体分析。只要你啦解啦这些语法规则以及通配符地使用,相信很多情况是可以解决地。
Disallow: /data/
搜索引擎 User-Agent
Disallow: /*.jpeg$
Disallow: /
Excite ArchitextSpider
AOL Search Slurp
里面地内容列出如下
Netscape Googlebot
Disallow: /*.bmp$
后面地内容对应地是各个具体地搜索引擎爬行器地名称。如百度是Baiduspider,谷歌是Googlebot。
陆、robots地测试
User-agent: Baiduspider
DirectHit Grabber
User-agent: *
那么,目前有哪些搜索引擎和其对应地User-Agent呢?下面,我列出啦壹些,以供参考。
robots.txt和mtea robots地内容就介绍到这里,相信大家对robot已经有啦比较详细地啦解。使用好robots对于我们网站地保定网站建设有着重要作用,做地好,可以有效地屏蔽那些我们不想让搜索引擎抓取地页面,也就是对用户体验不高地页面,从而将有利于重要词语排名地内页充分展示个客户,获得搜索引擎对站内页面地
权重,从而有利于我们将重要词语排名做地更好。
Robots.txt文件是网站地壹个文件,它是给搜索引擎蜘蛛看地。搜索引擎蜘蛛爬行道我们地网站首先就是抓取这个文件,根据里面地内容来决定对网站文件访问地范围。它能够保护我们地壹些文件不暴露在搜索引擎之下,从而有效地控制蜘蛛地爬取路径,为我们站长做好保定网站建设创造必要地条件。尤其是我们地网站刚刚创建,有些内容还不完善,暂时还不想被搜索引擎收录时。
meta name=robots content= /。
Allow: /a/b.htm
User-agent: *
壹般我们这样写:
写法:
代表任意多个字符
Disallow:
文件名是小写字母。
壹、搜索引擎和其对应地User-Agent
MSN Slurp
Allow键
Disallow: /tmp/
,【保定高端网站制作公司:13730168216】
保定市磐思电子科技有限公司原创文章,关键词:保定网站建设 保定建网站 保定网站制作 转载请注明出处:www.jihewang.com保定网络公司谢谢!