robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(RobotsExclusionProtocol),网站经过Robots协议通知查找引擎哪些页面可以抓取,哪些页面不能抓取
是查找引擎的一部分来定位和索引互联网上的每个可能答复查找恳求的网页,一般只在评论robots的HTML标签或许robots.txt文件的时分运用。
Public @ 2010-10-17 15:26:25
超文本是用超链接的办法,将各种不同空间的文字信息安排在一起的网状文本,超文本更是一种用户界面范式,用以显现文本及与文本之间相关的内容,现时超文本遍及以电子文档办法存在,其间的文字包含有可以链结到其他方位或许文档的连接,答应从当前阅览方位直接切换到超文本连接所指向的方位,超文本的格局有许多,现在最常运用的是超文本符号言语(规范通用符号言语下的一个使用)及富文本格局。
链接到一个网页的超链接,而没有相应链接回到正本的网页。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(RobotsExclusionProtocol),网站经过Robots协议通知查找引擎哪些页面可以抓取,哪些页面不能抓取 是查找引擎的一部分来定位和索引互联网上的每个可能答复查找恳求的网页,一般只在评论robots的HTML标签或许robots.txt文件的时分运用。
我不确定你所指的“robots非标准扩展协议”是什么,因为Robot协议是Web爬虫标准协议之一,旨在告诉Web爬虫哪些页面可以爬取和哪些页面不应该被爬取。它是一个标准协议,而不是扩展协议。 如果您能提供更多信息,我可以尝试提供更详细的回答。