如何查看网站被百度抓取的情况？_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

如何查看网站被百度抓取的情况？

威海Spider 威海Spider
3029

百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛，我们查看网站被百度抓取的情况主要是分析，网站日志里百度蜘蛛Baiduspider的活跃性：抓取频率，返回的HTTP状态码。

如何查看网站被百度抓取的情况？

查看日志的方式：

通过FTP，在网站根目录找到一个日志文件，文件名一般包含log，下载解压里面的记事本，这即是网站的日志，记录了网站被访问和操作的情况。

因为各个服务器和主机的情况不同，不同的主机日志功能记录的内容不同，有的甚至没有日志功能。

日志内容如下：

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

分析：

GET /bbs/thread-7303-1-1.html 代表，抓取/bbs/thread-7303-1-1.html 这个页面。

200 代表成功抓取。

8450 代表抓取了8450个字节。

如果你的日志里格式不是如此，则代表日志格式设置不同。

很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。

抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字，我们一般通过多日的日志对比来判断。当然，我们希望百度蜘蛛每日抓取的次数越多越好。

在网站出现问题的情况下，通过查看网站日志，查看网站的HTTP返回值是否正常。

来源：搜外网

Public @ 2022-04-18 16:22:33

sogou spider 如何反应我网站上页面的更新？

威海Spider 威海sogou spider
1975

sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间，更新已经抓取过的页面。

Public @ 2010-06-23 15:38:49

【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）

威海Spider 威海院长帮帮忙
2731

在【院长帮帮忙】栏目露过面的站点是编织汇（www.bianzhihui.com），该站点通过反馈中心反馈页面内容迟迟不被抓取，经百度工程师追查，原来是因为页面上的无用时间信息——没有想到是不是？同学们快来看看这个案例吧。也想让院长帮助追查吗？快来看看这里！站点求助：现象编织汇网站内容发布后几个礼拜都未曾收录。案例如下：http://www.bianzhihui.com/t/6717（教程详细页面举

Public @ 2015-07-21 15:22:04

Google爬行缓存代理（crawl caching proxy）

威海Spider 威海Spider
3474

前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应，对这种现象做了进一步解释。简单来说，Google在完成大爸爸数据中心升级后，各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页，而是由一个爬行缓存代理crawl caching proxy抓取网页，然后不同的蜘蛛从这个缓存中获取内容，从而节省了带宽。Matt C

Public @ 2019-08-28 16:22:27

蜘蛛程序（spider）

威海Spider 威海Spider
2651

蜘蛛也称为机器人，指的是查找引擎运行的核算机程序，沿着页面上的超链接发现和匍匐更多页面，抓取页面内容，关入查找引擎数据库。　　蜘蛛程序就是匍匐程序，是查找引擎的一部分，担任在互联网上定位和收这样可以呼应查找者的恳求，成功的查找引擎营销取决于爬的网页。

Public @ 2019-05-11 16:22:38

Categories

Tags