Categories


Tags


360搜索对Robots协议的扩展

  360搜索对Robots协议的扩展

整理自网络ChatGPT产生之内容,文本内容不具备参考意义,程序内容及代码片段有且仅有借鉴意义。

  360搜索对Robots协议进行了扩展,增加了以下几个指令:

1. User-Agent:用于指定搜索引擎访问网站时使用的用户代理字符串,可以设置多个User-Agent。

2. Crawl-delay:用于指定搜索引擎访问网站时的延迟时间,单位为秒。可以设置针对不同的User-Agent的延迟时间。

3. Sitemap:用于指定网站的sitemap文件的地址,搜索引擎将通过该文件获取站点的所有URL。

4. Host:用于指定网站的主机名,可以避免因为DNS变化导致搜索引擎爬虫无法访问网站。

5. Clean-param:用于指定需要从URL中移除的参数,搜索引擎在访问网站时会忽略URL中包含的这些参数。

6. Noindex-nofollow:用于指定不需要被搜索引擎收录或链接的页面。

这些指令的使用可以让网站管理员更加灵活地控制搜索引擎爬虫的访问行为,以达到更好的SEO效果。

Public @ 2023-05-29 17:00:02 整理自网络ChatGPT产生之内容,文本内容不具备参考意义,程序内容有且仅有借鉴意义。

robots.txt语法教程

用几个最常见的情况,直接举例说明:1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。2. 禁止所有SE收录网站的某些目录:User-agent: *Disallow: /目录名1/Disallow: /目录名2/Disallow: /目录名3/3. 禁止某个SE收录本站,例如禁止百度:User-agent: BaiduspiderDisallow: /4. 禁止所有SE收录

Public @ 2017-12-16 16:09:16

robots.txt文件的格式

robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:"<field>:<optional space><value><optionalspace>"在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常

Public @ 2012-09-17 16:08:56

更多您感兴趣的搜索

0.572719s