Categories


Tags


利用百度蜘蛛referer找到报错页面入口

大家应该都知道百度已经全站https并取消referer关键词显示了,那么“百度蜘蛛referer”又是什么?有什么妙用吗?艺龙SEO负责人刘明发现通过百度蜘蛛referer可以快速定位部分站内url的报错(4xx或者5xx)原因。随后社区版主飞鹰正义也对文章做了补充修正,现推荐给各位同学们。

什么是百度蜘蛛的referer

百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时候,在HTTP头中带的Referer字段。请注意,这个定义和百度最近声明去除Referer中关键词数据没有任何关系。这次讲的是spider发起的HTTP请求,百度而去除的是用户发起的。如果百度蜘蛛抓取百度首页的logo,会发起这样的请求:

上面Referer字段很明确的表示了他是从www.baidu.com这个页面上发现并抓取了www.baidu.com/img/bd_logo1.png。而大家在服务器访问日志中也应该能看到相应的记录。目前发现只有当百度抓取一个网页的同时,又抓取了网页中的:img、js和css才会带上referer字段。这部分额外的抓取量,应该不会占用百度分配的抓取配额,属于“买1送1”。

对于站长的意义

如果你发现有一批URL(仅限于img,js,css)报错(4xx或者5xx),但是一直找不到入口在哪,也就是说你不明白百度蜘蛛是从哪里发现这些错误URL的。这个字段可以帮助你迅速定位。

举个例子

比如我们的SEO日志分析系统中可以看到,符合下面这种URL Pattern的路径每天有6万到10万的抓取而且全部报404。

从发现问题至今过了1个月,查遍整个网站我也没找到入口。今天偶然仔细查了一下日志,想起了百度蜘蛛的referer,马上就能定位问题了。这些404的URL来自于一套没人维护也没人关注的页面(往往是这样)。收录流量都不错。由于最近公司图片系统更新,图片的URL全部更改了,但这套页面并没有跟着更新。

如果站点没有记录referer怎么办

iis请在这里勾选“cs(Referer)”:

apache请参考:

apache log配置“Combined Log Format”章节

apache log配置的官方链接

Nginx请参考:

nginx log配置

nginx log配置的官方链接

结束语

· 很多SEO问题并不是立即致命的,所以没有及时解决。流量就像蚂蚁啃大象一样一点一点啃掉了。

· 系统性的知识积累还是会在关键时刻发挥作用的。

· 感谢飞鹰对本文的修正。

至此文章虽然结束但是讨论可以继续,大家可以到[学堂同学汇] 《利用百度蜘蛛referer找到报错页面入口》讨论帖,与作者刘明进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2012-04-14 15:38:46

网站劫持问题排查指南

为了让站长能够更好的排查网站存在的劫持风险,在烽火算法上线前完成自查和整改,我们整理了网站劫持指南,希望能对你有所帮助!本文主要包括以下内容,请各位对号入座:1. 两个真实案例教你如何排查劫持2. 排查劫持三步走秘籍3. 利用劫持手段将用户留在站内也是不允许的4. 小结“我真的没有做劫持,为什么会收到劫持的站内信提醒?”你的网站可能是被第三方广告劫持了。案例1:站点A成功找出存在劫持的第三方广告站

Public @ 2013-10-08 15:37:35

HTTPS改造全流程常见Q&;A

改造前(1)   Q:站点是否一定要做HTTPS?A:从网站安全和用户体验上来讲,HTTPS站点更为安全优质,而百度搜索在索引的时候会考虑优先展现用户体验较好的页面;预计在2018年下半年,HTTPS将作为优质特征之一影响搜索排序。如果您的条件允许,百度建议您做HTTPS,以便于网站获取更多流量。(2)   Q:HTTPS改造的优点是什么?A:HTTPS是公

Public @ 2021-04-12 15:35:46

遇Baiduspider抓取,反馈时间多久合适

进入移动时代,同学们肯定会发现,百度官方和各知名SEO大拿们都在不断强调一个词:速度!最重要的莫过于,从用户点击搜索结果到页面完全加载完毕,不可超过3秒,否则有可能被限制展现(因为百度做过测试,当页面在3秒以上还无法打开的话,用户会选择关闭该网页)。于是大家各种针对速度的问题也多了起来,在深圳VIP大讲堂中,我们看到了这样一个简单的对话:同学问:站点遇到百度蜘蛛抓取,应该在多长时间内给出反馈?时间

Public @ 2015-11-08 15:38:40

利用百度蜘蛛referer找到报错页面入口

大家应该都知道百度已经全站https并取消referer关键词显示了,那么“百度蜘蛛referer”又是什么?有什么妙用吗?艺龙SEO负责人刘明发现通过百度蜘蛛referer可以快速定位部分站内url的报错(4xx或者5xx)原因。随后社区版主飞鹰正义也对文章做了补充修正,现推荐给各位同学们。什么是百度蜘蛛的referer百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时候,在HTTP头

Public @ 2012-04-14 15:38:46

更多您感兴趣的搜索

0.472260s