Categories


Tags


通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀

通过网站日志分析,会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀,如:.php、.asp、.aspx等。

搜外网站后台日志分析结果如下图:

image.

搜外主站实际上不存在php后缀的URL地址。

可通过robots.txt文件禁止蜘蛛抓取不存在的后缀,减少出现404返回值。

在robots.txt文件填写屏蔽规则如下:

Disallow: /*.asp$

Disallow: /*.php$

Disallow: /*.aspx$

注意前面一个*,后面一个$,代表后缀。

参考搜外的robots.txt文件写法,点击这里

来源:搜外网


Public @ 2015-07-18 16:09:24

网站URL显示品牌名字怎么弄

要让网站URL显示品牌名字,可以使用以下几种方法: 1. 使用品牌名命名域名,例如: YourBrand.com 2. 在网站标题中使用品牌名字,例如: "Your Brand - Home"。 3. 在URL中使用品牌名字,例如: YourBrand.com/about-us。 4. 在meta标签中使用品牌名字,例如: 。 这些方法可以帮助建立品牌知名度,并让访问者更容易记住和识别品牌。

Public @ 2023-04-15 11:50:12

URL静态化还是不静态化?

数据库驱动的网站需要将URL静态化,一直以来都是SEO最基本的要求,可以算是个常识性的东西。现在恐怕也没有不是数据库驱动的网站了吧。近几年SEO行业一致认为,URL中带2-3个问号不是问题,搜索引擎通常都能收录,尤其是权重高点的域名,更多几个问号也不是问题。但无论如何一般还是建议URL静态化。2008年9月份,Google站长博客发表了一篇讨论动态网址还是静态网址的帖子,却颠覆了这个说法。在这篇帖

Public @ 2015-11-12 16:11:04

哪些网站的目录需求运用robots.txt文件制止抓取

以下是一些可能需要使用robots.txt文件制止抓取的网站目录: 1. 敏感网站:包括医疗机构、政府机构、银行和其他敏感机构的网站。 2. 私人网站:包括个人博客、论坛和社交媒体账号。 3. 用户数据:包括个人信息、照片、视频和其他敏感数据。 4. 搜索引擎排除页面:包括不想在搜索引擎结果中出现的页面。 5. 网站目录:包括一些不需要搜索引擎索引的目录,如网站的管理员和内部页面。 6

Public @ 2023-06-13 02:50:20

搜索引擎的Robots协议

robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。对于Google来说,使用robots也未必能阻止Google将网址编入索

Public @ 2018-04-08 16:09:21

更多您感兴趣的搜索

0.444436s