通过robots协议屏蔽搜索引擎抓取网站内容

文章编号:1614 2024-04-22 robots文件 sitemap文件

有时候有些页面访问消耗性能比较高不想让搜索引擎抓取,可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。

Robots协议 (也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

通过robots协议屏蔽搜索引擎抓取网站内容

Robots协议写法说明

User-agent: 这里的 代表的所有的搜索引擎种类,*是一个通配符;

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录;

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录;

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录;

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录);

Disallow: /禁止访问网站中所有包含问号 (?) 的网址;

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;

Disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件;

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;

Allow: /tmp 这里定义是允许爬寻tmp的整个目录;

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL;

Allow: .gif$ 允许抓取网页和gif格式图片;

Sitemap: 网站地图地址 告诉爬虫这个页面是网站地图;

Robots协议举例

例1. 禁止所有搜索引擎访问网站的任何部分:

User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”):

User-agent: *
Allow: /

例3. 禁止某个搜索引擎的访问:

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问:

User-agent: Baiduspider
Allow:/

更多写法请参考:

robots文件介绍、作用及写法

在接手一个网站时,无论做什么诊断分析,都少不了检查robots文件,为什么有的网站天天发文章却未见收录,很有可能因为被robots文件里的规则屏蔽搜索引擎抓取所导致的。那么什么是robots文件,对于一个网站它的作用的什么?本文白天为你详细介绍robots文件并教你robots文件正确的写法。 一、robots文件简介 简单来说就是一个以robots命名的...

robots文件 sitemap文件

原创文章,作者:白天,如若转载请注明出处: 通过robots协议屏蔽搜索引擎抓取网站内容


如何屏蔽蜘蛛抓取

如何禁止搜索引擎爬虫抓取网站页面

下面是一些阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全网站屏蔽,尽可能屏蔽主流搜索引擎的所有爬虫(蜘蛛)。

1.被文件阻止

可以说文件是最重要的渠道(可以和搜索引擎建立直接对话),给出以下建议:

用户代理:Baiduspider

不允许:/

用户代理:Googlebot

不允许:/

用户代理:谷歌机器人手机

不允许:/

用户代理:谷歌机器人图像

不允许:/

用户代理:Mediapartners-Google

不允许:/

用户代理:Adsbot-Google

不允许:/

用户代理:Feedfetcher-Google

不允许:/

用户代理:雅虎!大声地吃

不允许:/

用户代理:雅虎!啜饮中国

不允许:/

用户代理:雅虎!-广告爬虫

不允许:/

用户代理:有道机器人

不允许:/

用户代理:Sosospider

不允许:/

用户代理:网络蜘蛛

不允许:/

用户代理:网络网络蜘蛛

不允许:/

用户代理:MSNBot

不允许:/

用户代理:ia_archiver

不允许:/

用户代理:番茄机器人

不允许:/

用户代理:*

不允许:/

2.按元标签屏蔽

将以下语句添加到所有网页头文件中:

3.通过服务器的配置文件来设置(比如Linux/nginx)

直接过滤蜘蛛/机器人的IP段。

SEO优化图片有哪些方法?

图片优化要做上alt属性

图片大小要统一

图片的水印处理

要上传清晰的图片

没有必要优化你网站上的所有的图片。比如模板中使用的图片、导航中的图片还有背景图片等等,我们不用为这些图片添加ALT标签,我们可以把这些图片放在一个单独的文件夹里。并通过设置robots文件设置来阻止蜘蛛抓取这些图片。

如何不让google抓取我的网站

如果不希望 Google抓取网站内容,就需要在服务器的根目录中放入一个 文件,其内容如下:User-Agent: *Disallow: / 这是大部份网络漫游器都会遵守的标准协议,加入这些协议后,它们将不会再漫游您的网络服务器或目录。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

在线制作网站如何禁止蜘蛛收录网站在线制作网站如何禁止蜘蛛收录网站信息

我如何设置一个网站被禁止被爬虫收录?

网站建好之后,当然希望搜索引擎收录的页面越多越好,但是有时候我们也会遇到网站不需要被搜索引擎收录的情况。

比如启用一个新域名作为镜像网站,主要用于PPC的推广,这时候就要想办法阻止搜索引擎蜘蛛对我们镜像网站的所有页面进行抓取和索引。因为如果镜像网站也被搜索引擎收录,很可能会影响官网在搜索引擎中的权重。

下面列举几种阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全网站屏蔽,尽可能屏蔽主流搜索引擎的所有爬虫(蜘蛛)。

1.被文件阻止

可以说文件是最重要的渠道(可以和搜索引擎建立直接对话),给出以下建议:

用户代理:Baiduspider

不允许:/

用户代理:Googlebot

不允许:/

用户代理:谷歌机器人手机

不允许:/

用户代理:谷歌机器人图像

不允许:/

用户代理:Mediapartners-Google

不允许:/

用户代理:Adsbot-Google

不允许:/

用户代理:Feedfetcher-Google

不允许:/

用户代理:雅虎!大声地吃

不允许:/

用户代理:雅虎!啜饮中国

不允许:/

用户代理:雅虎!-广告爬虫

不允许:/

用户代理:有道机器人

不允许:/

用户代理:Sosospider

不允许:/

用户代理:网络蜘蛛

不允许:/

用户代理:网络网络蜘蛛

不允许:/

用户代理:MSNBot

不允许:/

用户代理:ia_archiver

不允许:/

用户代理:番茄机器人

不允许:/

用户代理:*

不允许:/

2.按元标签屏蔽

将以下语句添加到所有网页头文件中:

3.通过服务器的配置文件来设置(比如Linux/nginx)

直接过滤蜘蛛/机器人的IP段。

注意:第一、二项措施只对“君子”有效,第三项措施要用来防“小人”(“君子”和“小人”一般分别指遵守协议的蜘蛛/机器人)。所以网站上线后,需要跟踪分析日志,筛选出这些badbot的ip,然后进行屏蔽。

什么网页爬虫爬不到?

被引擎K过的网站,爬虫是不会去爬的,因为已经进了黑名单还有一个就是还没被蜘蛛发现未被收录的网站,也是爬不到的

如何吸引搜索引擎蜘蛛抓取我们的网站_?

做网站优化的的目的,就是为了在搜索引擎中,拥有一个良好的排名,从而获得大量的流量。想要在搜索引擎中获得良好的排名,就必须要提升搜索引擎蜘蛛对网站的抓取速度。如果搜索引擎对网站抓取的频率低,就会直接影响到网站的排名、流量以及权重的评级。

那么,如何提升搜索引擎蜘蛛对网站的抓取速度呢?

1、主动提交网站链接

当更新网站页面或者一些页面没被搜索引擎收录的时候,就可以把链接整理后,提交到搜索引擎中,这样可以加快网站页面被搜索引擎蜘蛛抓取的速度。

2、优质的内容

搜索引擎蜘蛛是非常喜欢网站优质的内容,如果网站长时间不更新优质的内容,那么搜索引擎蜘蛛就会逐渐降低对网站的抓取率,从而影响网站排名以及流量。所以网站必须要定时定量的更新优质内容,这样才能吸引搜索引擎蜘蛛的抓取,从而提升排名和流量。

3、网站地图

网站地图可以清晰的把网站内所有的链接展现出来,而搜索引擎蜘蛛可以顺着网站地图中的链接进入到每个页面中进行抓取,从而提升网站排名。

4、外链建设

高质量外链对提升网站排名有很大作用,搜索引擎蜘蛛会顺着链接进入到网站中,从而提升抓取网站的速度。如果外链质量太差,也会影响搜索引擎蜘蛛的抓取速度。

总之,只要提升搜索引擎蜘蛛对网站的抓取速度,网站就能在搜索引擎中获得良好排名,从而获得大量流量。

 成都旅游网站  宠物沐浴露  维生e的功效与作用  弹力素和护发素的区别  晨霖取名寓意是什么  梦见和别人接吻很真实  小儿过敏性鼻炎偏方  紫色康宝莱开衫图片 
本文地址: https://www.q16k.com/article/017426c8eca6a5834420.html
ZNDS站内搜索

该站点未添加描述description...

Hegering

Hegering Garrel Naturschutz Jagd Hege

兰飞阅读网

兰飞阅读网是广大书友最值得收藏的网络小说阅读网,兰飞阅读网收录了当前最火热的网络小说,兰飞阅读网免费提供高质量的小说最新章节,兰飞阅读网是广大网络小说爱好者必备的小说阅读网。

雾非雾的情思

该站点未添加描述description...

脚步网

脚步网,3万套个人简历模板、求职自荐信,免费的在线简历制作平台;提供了一万多套个人word简历模板可以直接下载;另有个性创意H5简历模板可以在线制作简历。

工作总结之家

工作总结之家(gz85.com)为您提供最新的精品原创工作总结范文。一直以来,我们热衷于为广大网友提供精品优选工作总结内容!包含主要试用期工作总结、个人工作总结、转正工作总结、工作总结怎么写、班主任工作总结、半年工作总结、教师工作总结、月度工作总结、专业技术工作总结、销售工作总结、扶贫工作总结、意识形态工作总结、党建工作总结等范文。

天频课件

提供初中、高中各类学科教学课件PPT模板展示下载

黄山信息网

黄山信息网收集提供最新的黄山新闻资讯

滨江教育

该站点未添加描述description...

-精品银杏苗圃网站

该站点未添加描述description...

小学

该站点未添加描述description...

BC下载

BC下载站是一个专业的安卓资源分享站点,以用户的需求为出发点,搜集当下热门的安卓应用软件、安卓游戏、安卓版单机游戏、手机网游等下载资源,每一个资源都经过安全检测,保证提供给用户的游戏和软件产品都绿色无毒,安全靠谱。

ˮ??ˮ???˲???Ƹ

????Ӣ????buildhr.comΪ????ˮ??ˮ???˲??ṩ???½???ˮ??ˮ????Ƹְλ??Ϣ,Ϊ????ˮ??ˮ????ҵ?ṩ??רҵ???˲???Ƹ???

书香玉融

书香中国是中文在线旗下网站,提供十万余册正版电子书免费在线阅读,涵盖畅销小说、人文社科、经管励志、人物传记等,并支持组织读书征文活动、分享书籍等,致力于成为中国最大的互联网交互阅读平台。

云南日报网

云南日报网,2013,云南,云南网

海口公交

海口公交(haikou.gongjiao.com)是专业权威使用人数最多,数据最准确的海口公交查询网站,海口公交提供,海口公交线路,海口公交查询,海口公交车,海口公交网,海口公交车路线查询。

VEX学苑

该站点未添加描述description...