apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取（适用vps云主机服务器）_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取（适用vps云主机服务器）

威海Spider 威海Spider
2461

如果是正常的搜索引擎蜘蛛访问，不建议对蜘蛛进行禁止，否则网站在百度等搜索引擎中的收录和排名将会丢失，造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器（不限流量）。更多详情请访问： http://www.west.cn/faq/list.asp?unid=626

1. 使用网站管理助手环境：http://www.west.cn/faq/list.asp?unid=650 参考此说明启用设置伪静态组件

2. windows2003+iis手工建站环境：http://www.west.cn/faq/list.asp?unid=639 参考此说明加载伪静态组件

3. 然后在配置文件中按以下系统规则配置

Linux下规则文件.htaccess(手工创建.htaccess文件到站点根目录)

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]

RewriteRule !(^robots\.txt$) - [F]

</IfModule>

windows2003下规则文件httpd.conf

#Block spider

RewriteCond %{HTTP_USER_AGENT} (SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu) [NC]

RewriteRule !(^/robots.txt$) - [F]

windows2008下 web.config

<?xml version="1.0" encoding="UTF-8"?>

<system.webServer>

<rules>

</conditions>

</rule>

</rules>

</rewrite>

</system.webServer>

</configuration>

Nginx对应屏蔽规则

代码需添加到对应站点配置文件server段内

{

return 444;

}

注：规则中默认屏蔽部分不明蜘蛛，要屏蔽其他蜘蛛按规则添加即可

附各大蜘蛛名字：

google蜘蛛：googlebot

百度蜘蛛：baiduspider

百度手机蜘蛛：baiduboxapp

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

bing蜘蛛：bingbot

altavista蜘蛛：scooter

lycos蜘蛛：lycos_spider_(t-rex)

alltheweb蜘蛛：fast-webcrawler

inktomi蜘蛛：slurp

有道蜘蛛：YodaoBot和OutfoxBot

热土蜘蛛：Adminrtspider

搜狗蜘蛛：sogou spider

SOSO蜘蛛：sosospider

360搜蜘蛛：360spider

来源：西部数码

Public @ 2018-06-02 16:22:26

我不想我的网站被Baiduspider访问，我该怎么做？

威海Spider 威海Baiduspider
1923

1. 在robots.txt文件内添加一行禁止Baiduspider访问的指令：User-agent: Baiduspider；Disallow: / 2. 添加http协议头，指示不要访问网站的任何网页：X-Robots-Tag: noindex，noarchive，nosnippet，nofollow 3. 将任何和Baiduspider相关的IP地址拉黑。

Public @ 2023-02-24 17:36:11

sogou spider 如何反应我网站上页面的更新？

威海Spider 威海sogou spider
2758

sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间，更新已经抓取过的页面

Public @ 2010-09-06 15:38:57

如何提高spider抓取网站？提高spider抓取策略（2）

威海Spider 威海Spider
2472

1. 增加抓取频率：可以通过减少抓取的时间间隔来提高 spider 的抓取频率，但需要注意不要过度频繁抓取，否则会给网站带来过大的访问压力。 2. 使用代理 IP：使用代理 IP 可以帮助 spider 绕过网站的访问限制，提高抓取成功率。 3. 模拟人工操作：模拟人工操作可以让 spider 更像真实用户，例如浏览网页、点击链接等，可以提高抓取成功率。 4. 优化抓取路径：优化抓取路径可以

Public @ 2023-06-18 20:00:26

网站抓取了一些不存在的目录跟页面?

威海seo问答威海Spider
2277

网站抓取了一些不存在的目录跟页面，本站倒是一个都不抓取是怎么回事？微信悬赏网站抓取了一些不存在的目录跟页面，本站倒是一个都不抓取是怎么回事？要如何做才能让百度来抓取本站页面，一个多页了啥都没抓取，谜一样。。。以下抓取页面都不存在，另外网站例如新闻页面生成的文章在根目录是没有的，应该是动态的，这是否导致都不抓取了呢？回答：你确定蜘蛛是真的百度蜘蛛吗？99.99%的概率是假蜘蛛，不是真的！来源：A5

Public @ 2010-05-17 16:05:02

Categories

Tags