Ongelma, jota et välttämättä tiedä olevan
Tekoälycrawlerit ovat suhteellisen uusi ilmiö, ja robots.txt-tiedostot on usein kirjoitettu aikana jolloin niitä ei tarvinnut ajatella. Monessa sivustossa on edelleen joko yleinen esto kaikille crawlereille – tai spesifi esto tietyille tekoälyboteille, joka on lisätty erilaisista suosituksista johtuen.
Tulos: ChatGPT, Perplexity tai Google AI Overviews ei indeksoi sivustoasi, eikä sisältösi päädy tekoälyvastauksiin – vaikka se olisi kuinka hyvää tahansa.
Avaa selaimessa osoite: sinunsivustosi.fi/robots.txt — käy läpi alla oleva lista ja tarkista, onko jokin tekoälycrawlereista estetty.
Tärkeimmät tekoälycrawlerit ja niiden nimet
Robots.txt-tiedostossa crawlerit tunnistetaan User-agent-nimellä. Tässä lista tärkeimmistä tekoälyboteista, joiden pääsyn haluat sallia:
GPTBot
OpenAI:n crawler – käyttävät ChatGPT:n koulutusaineiston keräämiseen ja web-hakuun.
PerplexityBot
Perplexity AI:n crawler – hakee reaaliaikaisesti, erittäin tärkeä GEO:ssa.
Google-Extended
Googlen tekoälytuotteiden crawler – AI Overviews ja Gemini käyttävät tätä.
ClaudeBot / anthropic-ai
Anthropicin crawlerit – Clauden koulutus- ja hakudata.
Muita huomionarvoisia: Applebot-Extended (Apple Intelligence), cohere-ai, YouBot (You.com).
Miten tarkistat tilanteen
Vaihe 1: Avaa robots.txt
Navigoi selaimella osoitteeseen https://sinunsivustosi.fi/robots.txt. Näet tekstin, jossa on User-agent- ja Disallow-rivejä. Jos tiedostoa ei löydy, tilanne on oletuksena salliva – crawlerit pääsevät kaikkialle.
Vaihe 2: Etsi ongelmakohdat
Katso erityisesti nämä kaksi tapausta:
# Tämä estää KAIKKI crawlerit kaikkialta
User-agent: *
Disallow: /
Jos näet tämän, sivustosi on täysin suljettu kaikelta automatiikalta – myös tekoälycrawlereilta. Tämä on harvinainen mutta vakava ongelma, joka yleensä tarkoittaa, että sivusto on kehitysvaiheessa.
# Tämä estää GPTBotin
User-agent: GPTBot
Disallow: /
Tässä on spesifi esto ChatGPT:n crawlerille. Jos löydät tällaisia rivejä, ne estävät kyseisen tekoälyalustan indeksoinnin.
Vaihe 3: Korjaa
Lisää tai muokkaa robots.txt-tiedostoa niin, että haluamasi tekoälycrawlerit on sallittu:
# Salli tärkeimmät tekoälycrawlerit
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Applebot-Extended
Allow: /
Robots.txt noudattaa täsmällisyysperiaatetta: spesifimpi sääntö voittaa yleisemmän. Jos sinulla on User-agent: * jolla on estoja, mutta lisäät sen jälkeen User-agent: GPTBot / Allow: /, GPTBot pääsee silti läpi – spesifi sääntö kumoaa yleisen.
Entä jos haluat rajoittaa pääsyn osittain?
Jotkut yritykset haluavat sallia tekoälycrawlerit vain osalle sivustoa – esimerkiksi julkisille oppaille ja blogeille, mutta ei kirjautumista vaativille osioille. Tämä on täysin mahdollista:
User-agent: GPTBot
Allow: /blogi/
Allow: /oppaat/
Disallow: /asiakasalue/
Disallow: /tilaus/
WordPress-käyttäjille
WordPressissä robots.txt generoidaan yleensä automaattisesti tai hallitaan lisäosan kautta. Yoast SEO, Rank Math ja All in One SEO -lisäosat sisältävät robots.txt-editorin. Jos käytät jotain näistä, tarkista lisäosan asetuksista robots.txt-osio ja lisää tekoälycrawlerien salliminen sieltä.
Alternatiivisesti voit luoda oman robots.txt-tiedoston suoraan WordPress-asennuksen juureen, joka ylikirjoittaa automaattisesti generoidun version.
Tarkistus muutoksen jälkeen
Kun olet muokannut robots.txt-tiedoston, voit tarkistaa muutosten toimivuuden Google Search Consolessa: Asetukset → Robots.txt → Testaa URL. Voit syöttää testattavan URL:n ja valita, mitä crawleria simuloidaan.
Tekoälycrawlerien osalta nopein tapa varmistua on odottaa muutama viikko ja testata manuaalisesti, onko sivustosi alkanut esiintyä relevanteissa tekoälyhauissa.
Yhteenveto
Robots.txt-tarkistus on yksi nopeimmista ja vaikuttavimmista GEO-toimenpiteistä. Se maksaa kymmenisen minuuttia, eikä vaadi sisällöntuotantoa tai teknistä rakennusprojektia. Jos sivustosi estää tekoälycrawlerit, mikään muu GEO-toimenpide ei voi kompensoida sitä – sisältöä ei vain voida indeksoida.
Tee tarkistus heti. Se on yksi näistä harvoista teknisistä toimenpiteistä, joissa pieni muutos voi vaikuttaa merkittävästi lopputulokseen.