Categories


Tags


常见的robots.txt文件用法实例

常见的robots.txt文件用法实例:

1、禁止所有搜索引擎抓取网站的任何部分

User-agent: *

Disallow: /

这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时,有的会先屏蔽所有蜘蛛抓取。

2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)

User-agent: *

Allow: /

这是允许所有搜索引擎抓取网站的任何部分,既然是允许所有文件被抓取,可以不用创建robtos.txt文件,即默认全部允许抓取。

3、禁止spider抓取特定目录

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。

4、禁止spider抓取搜索结果页面

User-agent: *

Disallow: /so_article?*

如果你网站的搜索结果页面URL格式如:/so_article?keyword=搜索关键字,则按以上格式进行屏蔽,注意最后带了一个星号*,代表屏蔽so_article?带头的所有URL。

对于大部分网站,常用的就是以上4种情况。

来源:搜外网


Public @ 2010-05-21 16:09:23

关于URL组成部分的指南

URL是Uniform Resource Locator的缩写,它指定了用于访问某个资源的方式。 URL包含以下几个组成部分: 1. 协议(protocol):指定了访问资源需要使用的协议,例如HTTP、HTTPS、FTP等。 2. 域名(domain name):也称为host,指定了要访问的服务器的域名或IP地址。例如,www.google.com就是一个域名。 3. 端口号 (port

Public @ 2023-03-28 06:50:19

301设置:一定要做的集中权重的方法

| 什么是网站301?● 不带www的域名301到带www的域名● 老的链接301给新的链接| 为什么做网站301?● 权重集中● 权重传递| 如何做网站301?● 服务器上,宝塔面板● 服务器技术操作● IDC服务器面板上实现● 网站程序后台实现注:index不用301给主域名;动态URL不用301给伪静态链接。(搜外网)

Public @ 2017-01-20 16:09:38

百度搜索robots协议全新升级公告

Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。9月11日,百度搜索robots全新升级。升级后robots将优化对网站视频URL收录抓取情况。仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。如您

Public @ 2017-06-06 16:09:00

robots里这样写,就能避免蜘蛛爬这个“index.htm”这个首页?

要避免搜索引擎蜘蛛爬取某个页面,可以在robots.txt文件中添加如下指令: User-agent: * Disallow: /index.htm 这样,所有搜索引擎蜘蛛都不会爬取网站的index.htm首页页面。注意,这并不代表该页面会从搜索结果中彻底移除,因为即使没有被索引,用户仍然可以在搜索结果中找到该页面。

Public @ 2023-06-09 00:50:07

更多您感兴趣的搜索

0.709764s