<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>robots &#8211; 科技改变生活-雨落星辰</title>
	<atom:link href="https://p1e.cn/html/tag/robots/feed" rel="self" type="application/rss+xml" />
	<link>https://p1e.cn</link>
	<description>所有的伟大,都源于一个勇敢的开始</description>
	<lastBuildDate>Sun, 16 Jan 2022 07:00:41 +0000</lastBuildDate>
	<language>zh-Hans</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.7.2</generator>
	<item>
		<title>使用robots文件屏蔽垃圾蜘蛛</title>
		<link>https://p1e.cn/html/3118.html</link>
					<comments>https://p1e.cn/html/3118.html#respond</comments>
		
		<dc:creator><![CDATA[Naoki]]></dc:creator>
		<pubDate>Sun, 16 Jan 2022 06:58:04 +0000</pubDate>
				<category><![CDATA[运维笔记]]></category>
		<category><![CDATA[robots]]></category>
		<guid isPermaLink="false">https://www.815494.com/?p=3118</guid>

					<description><![CDATA[常见垃圾蜘蛛及屏蔽方法 今天查看服务器日志发现一些垃圾蜘蛛频繁抓紧网站页面，白白浪费服务器资源，屏蔽之！ 垃圾蜘蛛定义 垃圾蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助，并且给网站资源带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容，并且利用内容做一些数据分析来达到他们的商业目的。 垃圾蜘蛛列表 SemrushBot，这是semrush下面的一个蜘蛛，是一家做搜索引擎优化的公司，因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处，好在它还遵循robots协议，因此可以直接在robots屏蔽。 DotBot]]></description>
										<content:encoded><![CDATA[<h1 class="postTitle">常见垃圾蜘蛛及屏蔽方法</h1>
<p>今天查看服务器日志发现一些垃圾蜘蛛频繁抓紧网站页面，白白浪费服务器资源，屏蔽之！</p>
<h2>垃圾蜘蛛定义</h2>
<p>垃圾蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助，并且给网站资源带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容，并且利用内容做一些数据分析来达到他们的商业目的。</p>
<h2>垃圾蜘蛛列表</h2>
<ol>
<li>SemrushBot，这是semrush下面的一个蜘蛛，是一家做搜索引擎优化的公司，因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处，好在它还遵循robots协议，因此可以直接在robots屏蔽。</li>
<li>DotBot, 这是moz旗下的，作用是提供seo服务的蜘蛛，但是对我们并没有什么用处。好在遵循robots协议，可以使用robots屏蔽</li>
<li>AhrefsBot， 这是ahrefs旗下的蜘蛛，作用是提供seo服务，对我们没有任何用处，遵循robots协议。</li>
<li>MJ12bot，这是英国的一个搜索引擎蜘蛛，但是对中文站站点就没有用处了，遵循robots协议。</li>
<li>MauiBot，这个不太清楚是什么，但是有时候很疯狂，好在遵循robots协议。</li>
<li>MegaIndex.ru，这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。</li>
<li>BLEXBot, 这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议</li>
<li>等待增加</li>
</ol>
<h2>屏蔽方法</h2>
<p>对于遵循robots协议的蜘蛛，可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下，将下面的内容加入到网站根目录下面的robots.txt就可以了</p>
<pre>User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: CensysInspect
Disallow: /
User-agent: MauiBot
Disallow: /
</pre>
<div></div>]]></content:encoded>
					
					<wfw:commentRss>https://p1e.cn/html/3118.html/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
