Categories


Tags


【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取(第一期)

在【院长帮帮忙】栏目露过面的站点是编织汇(www.bianzhihui.com),该站点通过反馈中心反馈页面内容迟迟不被抓取,经百度工程师追查,原来是因为页面上的无用时间信息——没有想到是不是?同学们快来看看这个案例吧。也想让院长帮助追查吗?快来看看这里!

站点求助:现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下:

http://www.bianzhihui.com/t/6717(教程详细页面举例)

http://www.bianzhihui.com/u/12306 (用户页面举例)

http://www.bianzhihui.com/h/154 (编织花样页面举例)

我们已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。

站点求助:自查

根据反馈中心的回复,使用抓取异常工具诊断:未发现异常

院长出手,内部追查

工程师结论: spider抓取很及时,但因为该网站没有设置内容产出时间,网站底部却有个老旧时间日期,导致spider误以为网页内容老旧(具体策略较复杂,在此不做赘述)。建议增加页面内容产生时间,去掉没有必要的时间信息

*以上为旧页面截图,“2014年9月9日”对时间识别造成干扰。

站点总结:

1,网页上切忌勿乱加时间,如我们网站的(始于2014年9月9日)这种时间是一个大忌

2,网页内容尽可能加上产出时间,也就是发布时间

3,百度site的结果时间和权重并无太多关系

4,跟百度沟通的时候,一定要条例清晰,证据确凿。自身的问题一定要先排查准确。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2015-07-21 15:22:04

百度搜索Spider3.0升级对站点有什么好处

近期百度搜索最大的动作应该就是百度Spider3.0升级了,简单的概括下升级的特点就是:抓取更实时,收录效率更快,对原创优质内容更青睐。此次升级是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!『抓取、建库更快—提交的内容更容易被抓取』链接发现方面:如今sipder每天发现的新链接在500亿左右的量级,说明啥?

Public @ 2022-05-29 15:56:39

【院长帮帮忙】资讯页不收录,原来是抢发惹的祸(第四期)

里约奥运会结束了,资讯站点的小编们终于可以松口气了,可有些SEOer却高兴不起来:编辑辛苦抢先制作的原创稿件,百度却不!收!录!院长奥运会期间接到了四五起这样的反馈,经追查,原来是站点的抢发行为不够友好,导致spider抓取失败。结论:1,页面制作完成后再放到spider可以发现的地方,这样才能达到最好的抓取效果。2,页面未对外公开之前,千万不要通过工具推送给百度呀。接到站长反馈后,院长联系了sp

Public @ 2009-06-13 15:22:04

【院长帮帮忙】资讯页不收录,原来是抢发惹的祸(第四期)

尊敬的用户,您好! 根据您提供的信息,您似乎遇到了一些关于资讯页不收录的问题。根据您所描述的情况,问题可能是由于抢发引起的。在这种情况下,我建议您采取以下几个步骤来解决问题: 1. 静下心来进行审视:首先,您需要仔细审视您的资讯页内容。确保内容的质量和独特性,以及与网站的相关性。如果您的内容不符合这些标准,可能会导致资讯页不被收录。 2. 优化资讯页:进行一些基本的优化措施,如合理使用关键词

Public @ 2023-07-27 13:00:31

更多您感兴趣的搜索

0.415207s