Czy robots.txt blokuje boty AI?

Domyślnie wpis 'User-agent: * / Allow: /' zezwala wszystkim, w tym botom AI. Jednak warto dodać jawne wpisy dla GPTBot, ClaudeBot, PerplexityBot i Google-Extended, żeby mieć pełną kontrolę i pewność indeksowania. Brak jawnego zezwolenia nie oznacza blokady, ale jawne Allow: / wysyła wyraźny sygnał.

Gdzie umieścić pliki llms.txt i llms-full.txt?

Oba pliki powinny znajdować się w katalogu głównym domeny: https://twojadomena.pl/llms.txt i https://twojadomena.pl/llms-full.txt. W robots.txt możesz dodać wskazówki: LLMs: https://twojadomena.pl/llms.txt oraz LLMs-full: https://twojadomena.pl/llms-full.txt.

Czy llms.txt jest oficjalnym standardem?

Nie jest to standard W3C ani IETF. To propozycja społecznościowa z llmstxt.org, która zdobywa coraz szersze przyjęcie wśród producentów narzędzi AI. OpenAI, Anthropic i Perplexity wspierają ten format. Warto go wdrożyć, bo koszt jest minimalny, a potencjalne korzyści w widoczności w AI-wyszukiwarkach znaczące.

llms.txt i robots.txt — strona pod AI

Q: Co to jest llms.txt?

Plik llms.txt to standard zaproponowany przez llmstxt.org — tekstowy plik w katalogu głównym strony, który dostarcza kontekstu dla botów AI (ChatGPT, Claude, Perplexity). Zawiera informacje o właścicielu strony, oferowanych usługach i listę URL-i do zaindeksowania. To odpowiednik robots.txt, ale dla modeli językowych.

Q: Czym różni się llms.txt od llms-full.txt?

Plik llms.txt to lekki indeks — kilkadziesiąt linii z metadanymi i linkami. Plik llms-full.txt zawiera pełną treść wszystkich stron i artykułów w formacie Markdown — bez HTML, bez tagów. Boty AI, które mają limit na ilość żądań HTTP, mogą pobrać llms-full.txt i od razu uzyskać dostęp do całej wiedzy ze strony.

Przez lata jedynym plikiem, o którym musiał wiedzieć właściciel strony, był robots.txt. Mówiłeś w nim Google, co może indeksować, a czego nie. Koniec historii.

Dziś to za mało. ChatGPT, Perplexity, Claude, Google AI Overviews — to nowe punkty wejścia, przez które użytkownicy trafiają do informacji. I każdy z tych systemów ma swojego bota, który indeksuje sieć na własnych zasadach. Jeśli Twoja strona nie daje tym botom wyraźnego sygnału, możesz po prostu nie istnieć w odpowiedziach AI.

W tym artykule pokażę Ci krok po kroku, jak stworzyć trzy pliki, które w 2026 roku są fundamentem widoczności w internecie — zarówno w klasycznych wyszukiwarkach, jak i w systemach AI.

TL;DR: Potrzebujesz trzech plików w katalogu głównym strony: robots.txt (kontrola indeksowania), llms.txt (kontekst dla AI) i llms-full.txt (pełna treść dla AI). Poniżej znajdziesz gotowe szablony do skopiowania.

Dlaczego to ważne właśnie teraz?

W 2024 roku szacowano, że ok. 30% użytkowników korzysta z AI jako pierwszego punktu wyszukiwania informacji. W 2026 ten udział jest już znacznie wyższy — szczególnie wśród młodszych grup wiekowych i specjalistów branżowych.

Kiedy ktoś pyta ChatGPT „jaka firma robi strony WWW we Wrocławiu" albo „kto specjalizuje się w marketingu dla gabinetów lekarskich" — model językowy nie przeszukuje Google w czasie rzeczywistym. Przeszukuje swoją wiedzę, uzupełnioną o to, co zaindeksował jego bot w momencie trenowania lub przez wtyczkę wyszukiwania.

Jeśli nie zezwoliłeś botowi na wejście, albo nie dostarczyłeś mu czytelnego kontekstu — możesz mieć świetną stronę, dobry SEO, a i tak nie istnieć w odpowiedziach AI.

Plik 1: robots.txt — fundament, który trzeba zaktualizować

Plik robots.txt istnieje od 1994 roku. Większość stron ma go, ale większość ma go w wersji minimum:

User-agent: *
Allow: /
Sitemap: https://twojadomena.pl/sitemap.xml

To poprawne, ale niewystarczające. Problemem jest to, że boty AI mają własne identyfikatory — i część z nich traktuje brak jawnego zezwolenia jako sygnał niepewności. Warto być precyzyjnym.

Kompletny robots.txt dla 2026

# twojadomena.pl — robots.txt

# ─── Wyszukiwarki ───────────────────────────────────────
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php

# ─── Boty AI — jawne zezwolenie ─────────────────────────
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot
Allow: /

User-agent: Bingbot
Allow: /

# ─── Mapy i kontekst dla AI ─────────────────────────────
Sitemap: https://twojadomena.pl/sitemap.xml
LLMs: https://twojadomena.pl/llms.txt
LLMs-full: https://twojadomena.pl/llms-full.txt

Uwaga WordPress: W WordPressie dodaj Disallow: /wp-admin/ i Disallow: /wp-login.php — panel administracyjny nie powinien być indeksowany ani przez Google, ani przez boty AI. Wrażliwe ścieżki trzymaj poza zasięgiem crawlerów.

Jakie boty AI powinieneś znać?

GPTBot — OpenAI (ChatGPT), indeksuje strony do trenowania modeli
ChatGPT-User — OpenAI, działa przez wtyczkę wyszukiwania w czasie rzeczywistym
ClaudeBot — Anthropic (Claude)
anthropic-ai — dodatkowy identyfikator Anthropic
PerplexityBot — Perplexity AI
Google-Extended — Google Gemini i AI Overviews (osobny od Googlebot)
Applebot — Apple Intelligence i Spotlight

Każdy z nich może mieć jawną regułę w robots.txt. Jeśli chcesz kogoś zablokować (np. nie chcesz żeby OpenAI trenowało na Twoich treściach), też możesz — wystarczy Disallow: / dla konkretnego User-agent.

Plik 2: llms.txt — wizytówka dla AI

Standard llms.txt zaproponowała społeczność skupiona wokół llmstxt.org — inicjatywy zapoczątkowanej przez Jeremy'ego Howarda (twórcę fast.ai). Idea jest prosta: daj modelom językowym zwięzły, ustrukturyzowany opis swojej strony w formacie tekstowym.

Plik trafia pod adres https://twojadomena.pl/llms.txt i jest czytelny zarówno dla botów, jak i dla człowieka.

Co powinien zawierać llms.txt?

Koniecznie

Kim jesteś i czym się zajmujesz
Dla kogo pracujesz (target)
Lista URL-i do zaindeksowania
Dane kontaktowe
Zezwolenia dla botów

Unikaj

HTML, tagów i skryptów
Informacji marketingowych bez treści
Duplikowania pełnych artykułów (od tego jest llms-full.txt)
Pliku dłuższego niż ~100 linii

Szablon llms.txt

# twojadomena.pl — LLM Context File
# https://llmstxt.org/
# Pełna treść (llms-full.txt): https://twojadomena.pl/llms-full.txt

# Strona: twojadomena.pl
# Właściciel: Imię Nazwisko
# Lokalizacja: Miasto, Polska
# Kontakt: kontakt@twojadomena.pl

## Kim jestem

[Imię Nazwisko] — [tytuł/specjalizacja] z [X]-letnim doświadczeniem.
Działam z [miasto], obsługuję klientów z całej Polski.
Specjalizuję się w: [lista usług].

## Usługi

- [Usługa 1] — krótki opis
- [Usługa 2] — krótki opis
- [Usługa 3] — krótki opis

## Dla kogo

[Opis grupy docelowej]

## Strony do indeksowania

- https://twojadomena.pl/ — strona główna
- https://twojadomena.pl/blog.html — blog
- https://twojadomena.pl/blog/artykul-1.html — opis artykułu
- https://twojadomena.pl/blog/artykul-2.html — opis artykułu

## Boty AI

GPTBot: allow
ClaudeBot: allow
PerplexityBot: allow
anthropic-ai: allow
Google-Extended: allow

Pro tip: W sekcji "Strony do indeksowania" dodaj krótki opis każdego URL-a — jednolinijkowy, konkretny. Modele językowe wykorzystują te opisy jako kontekst przy wyborze, które strony warto przeczytać głębiej.

Plik 3: llms-full.txt — pełna treść dla AI

To jest właściwa różnica między llms.txt a llms-full.txt:

llms.txt — indeks, metadane, linki. Lekki, szybki, ~2–5 KB.
llms-full.txt — pełna treść wszystkich stron w Markdown. Kompletny, ~50–200 KB.

Po co plik z pełną treścią? Boty AI mają ograniczone limity na liczbę żądań HTTP podczas jednej sesji indeksowania. Jeśli mają do wyboru: odwiedzić 30 podstron osobno, albo pobrać jeden plik z całą treścią — często wybierają tę drugą opcję. Jeden request, pełna wiedza.

Struktura llms-full.txt

# twojadomena.pl — LLM Full Context File
# https://llmstxt.org/
# Wersja: llms-full.txt (pełna treść)
# Właściciel: Imię Nazwisko
# Aktualizacja: RRRR-MM-DD

---

## O mnie

[Pełne bio — kilka paragrafów]

---

## Usługi

### [Nazwa usługi 1]
[Pełny opis usługi, ceny, co obejmuje]

### [Nazwa usługi 2]
[Pełny opis usługi]

---

## Artykuły blogowe — pełna treść

---

### [Tytuł artykułu 1]

**URL:** https://twojadomena.pl/blog/artykul-1.html
**Data publikacji:** RRRR-MM-DD
**Opis:** [meta description artykułu]

[Pełna treść artykułu w Markdown — bez HTML]

---

### [Tytuł artykułu 2]

[...]

Jak generować llms-full.txt automatycznie?

Ręczne utrzymanie pliku przy każdej zmianie treści byłoby koszmarem. Na szczęście można to zautomatyzować. Masz kilka opcji:

WordPress: wtyczki takie jak LLMs.txt lub AI-Plugin generują oba pliki automatycznie przy każdej publikacji
Statyczne strony (np. Hugo, Jekyll, Astro): skrypt buildowy, który przed deploymentem przechodzi przez wszystkie pliki HTML, wyciąga treść i zapisuje do llms-full.txt
Własny skrypt Python: ~80 linii kodu — parsuje HTML, strippuje tagi, zapisuje Markdown. Uruchamiasz manualnie po zmianach lub przez cron/GitHub Actions
Usługi SaaS: np. llmstxt.cloud — podajesz domenę, oni generują i hostują plik za Ciebie

Kluczowe: plik musi być aktualny. Nieaktualny llms-full.txt jest gorszy niż jego brak, bo może wprowadzać AI w błąd.

Jak połączyć te trzy pliki ze sobą?

Każdy plik powinien wskazywać na pozostałe. Oto schemat połączeń:

robots.txt → zawiera linki do Sitemap, LLMs i LLMs-full
llms.txt → zawiera komentarz z URL do llms-full.txt
llms-full.txt → zawiera nagłówek z datą aktualizacji i pełną treścią
sitemap.xml → zawiera wszystkie podstrony z datami ostatniej modyfikacji

Boty, które obsługują ten ekosystem, zwykle zaczynają od robots.txt, pobierają llms.txt po kontekst, a jeśli potrzebują głębszej analizy — sięgają po llms-full.txt.

Czy llms.txt to oficjalny standard?

Nie — to propozycja społecznościowa, nie standard W3C ani IETF. Ale to nie umniejsza jej wartości. Podobnie jak robots.txt w 1994 roku nie był standardem — był konwencją, którą wszyscy zaczęli stosować, bo miało to sens.

OpenAI, Anthropic i Perplexity aktywnie wspierają ten format. Liczba witryn, które go wdrożyły, rośnie lawinowo. W połowie 2025 roku liczyła się w dziesiątkach tysięcy, a dziś mówi się o setkach tysięcy domen globalnie.

Koszt wdrożenia llms.txt to 30 minut. Koszt pominięcia go to potencjalna niewidoczność w systemach AI, które generują coraz większy ruch.

Checklist: co zrobić po przeczytaniu tego artykułu

Sprawdź obecny robots.txt — czy zezwala na GPTBot, ClaudeBot, PerplexityBot i Google-Extended?
Stwórz plik llms.txt w katalogu głównym domeny
Stwórz plik llms-full.txt z pełną treścią — lub ustaw automatyczne generowanie
Dodaj w robots.txt linki do llms.txt i llms-full.txt
W llms.txt dodaj komentarz wskazujący na llms-full.txt
Zaplanuj regularne aktualizacje llms-full.txt (np. przy każdej nowej publikacji)
Zweryfikuj dostępność plików przez przeglądarkę: twojadomena.pl/llms.txt

Chcesz mieć pewność, że Twoja strona jest dobrze skonfigurowana? Mogę przeprowadzić kompleksowy audyt: robots.txt, llms.txt, llms-full.txt, sitemap, Core Web Vitals i SEO techniczne — w jednym raporcie z konkretnymi zaleceniami.

Pytania i odpowiedzi (FAQ)

Co to jest llms.txt?

Plik llms.txt to tekstowy plik w katalogu głównym strony, który dostarcza kontekstu dla botów AI — ChatGPT, Claude, Perplexity. Zawiera informacje o właścicielu, usługach i listę URL-i do zaindeksowania. Format zaproponowany przez llmstxt.org — odpowiednik robots.txt dla modeli językowych.

Czym różni się llms.txt od llms-full.txt?

Plik llms.txt to lekki indeks — kilkadziesiąt linii z metadanymi i linkami. Plik llms-full.txt zawiera pełną treść wszystkich stron w Markdown — bez HTML, bez tagów. Boty AI, które mają limit na liczbę żądań HTTP, mogą pobrać llms-full.txt i od razu uzyskać dostęp do całej wiedzy ze strony w jednym żądaniu.

Czy muszę ręcznie aktualizować llms-full.txt?

Nie musisz — i nie powinieneś robić tego ręcznie przy każdej zmianie. Użyj skryptu buildowego, wtyczki WordPress lub GitHub Actions, które automatycznie regenerują plik po każdej publikacji nowej treści. Nieaktualny plik może wprowadzać AI w błąd.

Gdzie sprawdzić, czy boty AI mają dostęp do mojej strony?

Wejdź na twojadomena.pl/robots.txt i sprawdź, czy masz wpisy dla GPTBot, ClaudeBot, PerplexityBot i Google-Extended z Allow: /. Możesz też wyszukać swoją stronę przez Perplexity lub zapytać ChatGPT o konkretne informacje ze strony — jeśli bot je zna, indeksowanie działa.

Czy to pomaga w rankingach Google?

Bezpośrednio nie — llms.txt nie jest sygnałem rankingowym dla tradycyjnego algorytmu Google. Ale Google-Extended w robots.txt ma wpływ na Google AI Overviews. I pośrednio — lepsza widoczność w AI generuje ruch, linki i wzmianki, które z czasem poprawiają autorytet domeny.

Przemysław Czujowski

Konsultant IT i marketing z ponad 20-letnim doświadczeniem. Wdraża SEO, GEO i strategie widoczności w AI dla firm z całej Polski. Certyfikowany specjalista Google Ads i Analytics 4.

Masz pytanie? Napisz bezpośrednio.

Odpowiem na pytania o llms.txt, robots.txt i indeksowanie AI dla Twojej konkretnej strony.

Nie masz czasu na konfigurację? Zrobię to za Ciebie.

Wdrożenie llms.txt, llms-full.txt i audyt robots.txt — jako część kompleksowego audytu SEO i GEO Twojej strony.

Umów bezpłatną konsultację

Dlaczego to ważne właśnie teraz?

Plik 1: robots.txt — fundament, który trzeba zaktualizować

Kompletny robots.txt dla 2026

Jakie boty AI powinieneś znać?

Plik 2: llms.txt — wizytówka dla AI

Co powinien zawierać llms.txt?

Koniecznie

Unikaj

Szablon llms.txt

Plik 3: llms-full.txt — pełna treść dla AI

Struktura llms-full.txt

Jak generować llms-full.txt automatycznie?

Jak połączyć te trzy pliki ze sobą?

Czy llms.txt to oficjalny standard?

Checklist: co zrobić po przeczytaniu tego artykułu

Pytania i odpowiedzi (FAQ)

Co to jest llms.txt?

Czym różni się llms.txt od llms-full.txt?

Czy muszę ręcznie aktualizować llms-full.txt?

Gdzie sprawdzić, czy boty AI mają dostęp do mojej strony?

Czy to pomaga w rankingach Google?

Przeczytaj też