robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(RobotsExclusionProtocol),网站经过Robots协议通知查找引擎哪些页面可以抓取,哪些页面不能抓取
是查找引擎的一部分来定位和索引互联网上的每个可能答复查找恳求的网页,一般只在评论robots的HTML标签或许robots.txt文件的时分运用。
Public @ 2010-10-17 15:26:25
当效劳器收到某项恳求时,例如,用户经过阅览器拜访你的网页,效劳器会向这个阅览器回来一个代码以呼应恳求,一个代码就称为:HTTP状况码,相同道理,当查找引擎的Robot(机器人)或Crawler(匍匐器)抓取你的网页时,效劳器也会回来HTTP状况码相应恳求。 此HTTP状况码供给关于恳求状况的信息,通知拜访的阅览器、查找引擎机器人:baiduspider、Googlebot等关于你的网站和恳求的网
要害词和要害短语是Web站点在查找引擎成果页面(也称为SERP)上排序所依据的词,依据站点受众的不同,您可以挑选一个单词、多个单词的组合或整个短语。
robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站时,首先会检查该网站中是否存在这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
一些域名之前通过robots.txt文件屏蔽了蜘蛛,后来对搜索引擎开放了,但搜索结果里,还是显示以下内容:“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述。”解决办法:在百度上搜索该域名,在搜索结果页面的末尾,点击用户反馈。来源:搜外网