【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）

威海Spider 威海院长帮帮忙
2733

在【院长帮帮忙】栏目露过面的站点是编织汇（www.bianzhihui.com），该站点通过反馈中心反馈页面内容迟迟不被抓取，经百度工程师追查，原来是因为页面上的无用时间信息——没有想到是不是？同学们快来看看这个案例吧。也想让院长帮助追查吗？快来看看这里！

站点求助：现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下：

http://www.bianzhihui.com/t/6717（教程详细页面举例）

http://www.bianzhihui.com/u/12306 （用户页面举例）

http://www.bianzhihui.com/h/154 （编织花样页面举例）

我们已将这些url放入sitemap，并使用了百度统计的集成的JS推荐，但是未曾有改善。

站点求助：自查

根据反馈中心的回复，使用抓取异常工具诊断：未发现异常

院长出手，内部追查

工程师结论： spider抓取很及时，但因为该网站没有设置内容产出时间，网站底部却有个老旧时间日期，导致spider误以为网页内容老旧（具体策略较复杂，在此不做赘述）。建议增加页面内容产生时间，去掉没有必要的时间信息

*以上为旧页面截图，“2014年9月9日”对时间识别造成干扰。

站点总结：

1，网页上切忌勿乱加时间，如我们网站的（始于2014年9月9日）这种时间是一个大忌

2，网页内容尽可能加上产出时间，也就是发布时间

3，百度site的结果时间和权重并无太多关系

4，跟百度沟通的时候，一定要条例清晰，证据确凿。自身的问题一定要先排查准确。

来源：百度搜索资源平台百度搜索学堂

Public @ 2015-07-21 15:22:04

什么是模拟蜘蛛抓取

威海Spider 威海Spider
3009

模拟蜘蛛抓取是指通过计算机程序对蜘蛛行为进行模拟，实现自动化抓取网页内容的过程。蜘蛛抓取通常用于搜索引擎、数据挖掘、网络爬虫等应用，通过模拟蜘蛛的方式，可以自动遍历互联网上的网页，提取其中的信息，例如网页的标题、正文内容、链接等。模拟蜘蛛抓取的过程通常分为以下几个步骤： 1. 初始URL列表：确定起始的URL列表，作为开始抓取的入口。 2. 发送HTTP请求：程序向目标URL发送HTTP请求，

Public @ 2023-07-24 01:00:31

360搜索蜘蛛IP段及蜘蛛ip被拦截的问题解决方法

威海Spider 威海360Spider
2254

360搜索蜘蛛的IP段为： - 180.153.225.0/24 - 180.153.234.0/24 - 180.163.220.0/24 - 180.163.221.0/24 如果你发现这些IP被拦截了，你可以按照以下步骤解决问题： 1. 检查防火墙设置，是否在阻止这些IP的访问。 2. 检查网站的IP黑名单设置，是否将这些IP列为黑名单。 3. 如果使用了CDN，检查CDN的设置，是否

Public @ 2023-06-15 11:50:11

《院长帮帮忙》栏目开始运营以后受到了广大站长欢迎，院长每天都会收到各种问题求助。为了更多站长获得收益，我们从中选取了最具有代表性的问题展现给大家。项目背景：和讯网参加星火计划2.0内测，按照站长平台主动提交技术说明代码，共提交两次，均返回报错。下面我们分享下整个case的排查过程：一、提交执行过程首先，按照链接主动提交的技术标准进行提交，具体内容参照《主动链接提交》。1、第一次提交代码curl -

Public @ 2017-05-18 15:22:02

【院长帮帮忙】移动适配不稳定、不生效，可能是这些原因造成的！（第五期）

在移动适配过程中，不稳定和不生效的问题常常出现，这会导致用户在使用移动设备访问网页时出现显示问题或不良体验。以下是可能导致移动适配不稳定和不生效的原因： 1. CSS写法不合理：CSS在移动适配的过程中起到关键作用，但是如果CSS写法不合理，就会导致移动适配不稳定和不生效。应该使用@media查询，优先级要高于其他样式。 2. 布局使用fixed元素：当使用fixed元素布局时，可能会发生适配

Public @ 2023-06-18 13:50:24

Categories

Tags