为什么我的网站已经加了robots.txt，还能在百度搜索出来？_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

为什么我的网站已经加了robots.txt，还能在百度搜索出来？

威海Spider 威海Baiduspider
2571

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。

如果您的拒绝被收录需求非常急迫，也可以通过投诉平台反馈请求处理。

Public @ 2020-06-13 15:56:47

sogou spider 访问我的网站过快怎么办？

威海Spider 威海sogou spider
2522

sogou spider 对于同一个 IP 地址的服务器主机，只建立一个连接，抓取间隔速度控制在几秒一次。一个网页被收录后，最快也要过几天以后才会去更新。如果持续不断地抓取您的网站，请注意您的网站上的网页是否每次访问都产生新的链接。如果您认为 sogou spider 对于您的网站抓取过快，请与我们联系，最好能提供访问日志中sogou spider 访问的部分。点此投诉spider抓取过快

Public @ 2021-02-27 15:38:58

屏蔽百度爬虫的方法

威海Spider 威海Baiduspider
2355

1. 在 Robots.txt文件中添加屏蔽百度爬虫代码。 User-agent: Baiduspider Disallow: / 2. 在HTTP请求头里加入User-Agent字段 User-Agent:123 3. 使用IP段黑名单来屏蔽来自百度的爬虫拒绝127.0.0.1 - 127.255.255.255

Public @ 2023-02-25 16:24:10

Baiduspider的user-agent是什么？

威海Spider 威海Baiduspider
2796

Baiduspider的user-agent为：Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)。

Public @ 2023-05-29 23:00:04

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

威海Spider 威海Baiduspider
3742

在网站根目录下的 robots.txt 文件可以用来告诉搜索引擎蜘蛛（包括百度蜘蛛）哪些页面可以访问，哪些页面不可访问。通过设置 robots.txt 文件，可以控制蜘蛛的爬取范围，减少不必要的流量消耗。以下是一个提供给百度蜘蛛的 robots.txt 示例： ``` User-agent: Baiduspider Disallow: /path/to/disallowed/page.htm

Public @ 2023-07-28 12:00:44

Categories

Tags