무료 SEO 도구 · overrank 제공

무료 AI 봇 robots.txt 생성기

2026년 현재 18종의 서로 다른 AI 크롤러가 웹을 스크래핑하고 있습니다. 일부는 모델을 학습시키고, 일부는 AI 답변을 위해 페이지를 실시간으로 가져오며, 일부는 두 가지 모두 수행합니다. 이 도구를 사용하면 어떤 봇이 사이트에 접근할 수 있는지 토글 하나로 결정할 수 있습니다. 기존 파일에 붙여넣을 수 있는 깔끔한 robots.txt 스니펫을 출력합니다.

각각을 따로 검토하고 싶지 않다면 상단의 프리셋을 사용하세요. AI 답변에 인용되도록 실시간 패치 및 검색 봇은 허용하고, 학습 데이터셋에서 제외하고 싶다면 CCBot 같은 순수 학습 봇은 차단할 것을 권장합니다.

Quick presets

13 allowed · 5 blocked

OpenAI

GPTBotOpenAI

Crawls the web to train ChatGPT models.

ChatGPT-UserOpenAI

Fetches your pages live when ChatGPT browses the web for a user.

OAI-SearchBotOpenAI

Indexes pages for ChatGPT Search results.

Anthropic

ClaudeBotAnthropic

Crawls the web to train Claude models.

anthropic-aiAnthropic

Legacy crawler. Mostly superseded by ClaudeBot but still respected.

claude-webAnthropic

Fetches live pages when Claude browses the web for a user.

Perplexity

PerplexityBotPerplexity

Indexes content for Perplexity answers.

Perplexity-UserPerplexity

Live fetch when a Perplexity user opens your page from an answer.

Google

Google-ExtendedGoogle

Controls whether Google can use your content to train Gemini and other AI products.

Blocking does NOT remove you from Google Search. It only stops Gemini training.

Common Crawl

CCBotCommon Crawl

Open-data crawler. Common Crawl data is used by most major LLM training pipelines.

You disappear from most LLM training datasets at once.

ByteDance

BytespiderByteDance

Crawls for ByteDance / TikTok AI training. Frequently aggressive.

Apple

Applebot-ExtendedApple

Apple Intelligence AI training crawler.

Meta

Meta-ExternalAgentMeta

Crawls for Meta AI training and link previews.

FacebookBotMeta

Renders link previews when your URL is shared on Facebook.

Amazon

AmazonbotAmazon

Crawls for Alexa and Amazon AI services.

Diffbot

DiffbotDiffbot

Commercial knowledge graph crawler. Used by enterprise AI products.

Imagesift

ImagesiftBotImagesift

Image data collector for AI training.

Webz.io

OmgilibotWebz.io

News and forum aggregation crawler. Feeds many AI datasets.

robots.txt snippet

# AI crawler rules generated by overrank — https://www.overrank.ai/tools/ai-robots-txt-generator

User-agent: GPTBot
Disallow:

User-agent: ChatGPT-User
Disallow:

User-agent: OAI-SearchBot
Disallow:

User-agent: ClaudeBot
Disallow:

User-agent: anthropic-ai
Disallow:

User-agent: claude-web
Disallow:

User-agent: PerplexityBot
Disallow:

User-agent: Perplexity-User
Disallow:

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow:

User-agent: Meta-ExternalAgent
Disallow:

User-agent: FacebookBot
Disallow:

User-agent: Amazonbot
Disallow:

User-agent: Diffbot
Disallow:

User-agent: ImagesiftBot
Disallow: /

User-agent: Omgilibot
Disallow: /

How to use this snippet:

  1. Open your existing robots.txt at your site root (or create one)
  2. Append these blocks to the end (or replace any existing AI bot blocks)
  3. Keep your existing Googlebot, Bingbot, and Sitemap directives untouched

✦ This is 1 of 30+ things overrank automates

봇이 우리를 찾을 수 있게 되면, 인용할 만한 콘텐츠를 제공해 주세요.

overrank는 우리 분야의 고객 질문에 답할 때 LLM이 인용하는 SEO 최적화 글을 매일 발행합니다.

No credit card · takes 60 seconds

Frequently asked questions

내 사이트에서 AI 크롤러를 차단해야 하나요?

목표에 따라 다릅니다. ChatGPT, Claude, Perplexity 답변에 인용되고 싶다면 해당 크롤러를 허용해야 합니다. 차단하면 답변 풀에서 제외됩니다. 출처 표시 없는 학습 데이터 수집이 걱정된다면, 실시간 패치 및 검색 봇은 허용하면서 학습 중심 봇만 선택적으로 차단할 수 있습니다.

GPTBot과 ChatGPT-User의 차이는 무엇인가요?

GPTBot은 미래의 ChatGPT 모델을 학습시키기 위해 웹을 크롤링합니다. ChatGPT-User는 ChatGPT 사용자가 브라우징을 유발하는 질문을 할 때 페이지를 실시간으로 가져옵니다. 두 봇을 독립적으로 허용하거나 차단할 수 있습니다. 대부분의 사이트는 ChatGPT-User는 허용하면서(답변에 인용되기 위해) GPTBot은 차단(학습 데이터)할 수 있습니다.

Google-Extended를 차단하면 Google 검색에서 사라지나요?

아니요. Google-Extended는 Gemini와 Google의 AI 학습만 제어합니다. 차단해도 Google 검색 순위에는 전혀 영향이 없습니다. 검색 인덱싱을 제어하는 Googlebot은 완전히 별개입니다.

이 봇들은 실제로 robots.txt를 따르나요?

OpenAI, Anthropic, Google, Perplexity의 주요 봇은 robots.txt 준수를 공개적으로 약속했습니다. Common Crawl도 준수합니다. 일부 소규모 또는 스크래퍼 성격의 봇은 무시합니다. 그런 봇에는 robots.txt가 아니라 IP 차단이나 Cloudflare 봇 관리가 필요합니다.

robots.txt 파일은 어디에 두나요?

사이트 루트에 두어 https://yoursite.com/robots.txt에서 접근할 수 있게 합니다. 전체 파일을 교체하지 말고 기존 robots.txt에 이 규칙들을 추가하세요. 기존 Googlebot, Sitemap, 기타 지시문을 유지해야 합니다.