robots.txt概念和10条注意事项_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

robots.txt概念和10条注意事项

robots.txt概念

如果我们网站内有某些特殊的文件不让搜索引擎收录，那怎么办？

答案是：使用一个叫做robots.txt的文件。

robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取，哪些不允许抓取。

搜索引擎蜘蛛访问网站任何文件之前，需先访问robots.txt文件，然后抓取robots.txt文件允许的路径，跳过其禁止的路径。

总结：robots.txt是一个简单的.txt文件，用以告诉搜索引擎哪些网页可以收录，哪些不允许收录。

关于robots.txt文件的10条注意事项：

1、如果未创建robots.txt文件，则代表默认网站所有文件向所有搜索引擎开放爬取。

2、必须命名为：robots.txt，都是小写，robot后面加"s"。

3、robots.txt必须放置在一个站点的根目录下。

通过如https://www.seowhy.com/robots.txt 可以成功访问到，则说明本站的放置正确。

4、一般情况下，robots.txt里只写着两个函数：User-agent和 Disallow。

5、空格换行等不能弄错，可复制这个页面并修改为自己的。点击

6、有几个禁止，就得有几个Disallow函数，并分行描述。

7、至少要有一个Disallow函数，如果都允许收录，则写: Disallow:

如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。

8、允许有多个User-agent，如果对所有爬取蜘蛛生效，则用“*”星号表示。

9、robtos.txt文件内可以放上Sitemap文件地址，方便告诉搜索引擎Sitemap文件地址。

10、网站运营过程中，可以根据情况对robots.txt文件进行更新，屏蔽一些不要搜索引擎抓取的文件地址。

举例两个常见屏蔽规则：

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: /search.html 说明 https://www.seowhy.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php? 说明类似这样的页面https://www.seowhy.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

来源：搜外网

Public @ 2019-12-20 16:09:22

nofollow标签的作用有重大变化

nofollow标签的作用主要是告诉搜索引擎不要跟进某个链接。最初，它的主要目的是阻止链接操纵，这是一种非法的搜索引擎优化技术，通过在许多网站中添加低质量或垃圾链接来提高目标网站的排名。但是，随着时间的推移，nofollow标签已经被广泛应用于其他目的，例如： 1. 防止广告链接滥用：使用nofollow标签告诉搜索引擎某个链接是广告链接，这有助于避免被视为违反搜索引擎的广告政策。 2. 控制

Public @ 2023-06-20 15:50:19

新手如何掌握制作和提交网站地图？

如果你是一个新手，以下是建议： 1. 了解什么是网站地图(Sitemap) 网站地图(Sitemap)是指一份关于网站上页面、内容和其他重要信息的清单。它可以帮助搜索引擎更好地了解并索引您的网站。 2. 确定您的网站地图的结构通过选择您的网站地图结构，您可以确定哪些页面是最重要的，并确定它们的层次结构。一旦你确定了这个结构，你可以依次列出所有这些页面。 3. 制作网站地图一旦你确定

Public @ 2023-04-20 17:50:29

robots非标准扩展协议

我不确定你所指的“robots非标准扩展协议”是什么，因为Robot协议是Web爬虫标准协议之一，旨在告诉Web爬虫哪些页面可以爬取和哪些页面不应该被爬取。它是一个标准协议，而不是扩展协议。如果您能提供更多信息，我可以尝试提供更详细的回答。

Public @ 2023-04-12 04:00:37

【Robots简介】robots.txt是一个协议，是搜索引擎访问网站时第一个要查看的文件，它存在的目的是告诉搜索引擎哪些页面能被抓取，哪些页面不能被抓取。当spider访问一个站点时，会首先检查该站点根目录下是否存在robots.txt，如果存在，spider会按照文件中的内容来确定访问的范围；如果该文件不存在，所有的spider将能够访问网站上所有没有被口令保护的页面。【具体介绍】1、User

Public @ 2017-02-13 16:09:19

Categories

Tags