Mikä on robots.txt ja miten se vaikuttaa SEO:oon?

robots.txt on yksinkertainen tekstitiedosto, joka sijaitsee verkkosivustosi juurihakemistossa osoitteessa sinundomainisi.fi/robots.txt. Se on ensimmäinen asia, jonka Googlebot lukee vieraillessaan sivustollasi, ja se kertoo hakukoneroboteille, mihin osiin sivustosta niillä on lupa päästä ja mihin ei.

Miten robots.txt toimii?

robots.txt käyttää yksinkertaista syntaksia. Tiedosto koostuu säännöistä, joissa määritetään ensin käyttäjäagentti eli se robotti, johon sääntö kohdistuu, ja sen jälkeen mitä saa tai ei saa crawlata. Esimerkki yksinkertaisesta robots.txt-tiedostosta:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://sinundomainisi.fi/sitemap.xml

Tässä esimerkissä User-agent: * tarkoittaa kaikkia robotteja. Disallow: /wp-admin/ estää pääsyn WordPress-hallintapaneeliin. Allow: /wp-admin/admin-ajax.php sallii kuitenkin yhden tiedoston, jota tarvitaan sivuston toiminnallisuuksiin. Viimeinen rivi kertoo robotille, mistä sivustokartta löytyy.

Mitä robots.txt:llä kannattaa estää?

Hallintapaneelit: /wp-admin/ WordPressissä tai vastaavat CMS-hallintaosoitteet
Hakutulossivut: Sivuston sisäinen haku luo usein suuria määriä URL-osoitteita, joilla ei ole itsenäistä arvoa
Duplikaattisisältösivut: Esimerkiksi tulostusversiot tai session ID -parametrit
Testiympäristöt: Jos testiympäristö on samassa domainissa, estä sen crawlaus
Käyttäjäkohtaiset sivut: Kuten ostoskori, kirjautumissivu tai tilin hallintasivut

Kriittiset virheet robots.txt:ssä

robots.txt-virheet ovat yleisempiä kuin luullaan, ja ne voivat tuhota sivuston hakukonenäkyvyyden täysin. Yleisimmät virheet ovat:

Koko sivuston estäminen: Disallow: / estää kaikkien sivujen crawlauksen. Tämä tapahtuu usein vahingossa sivustouudistusten tai testaustilan jälkeen, kun robots.txt unohdetaan palauttaa normaaliksi.
Tärkeän hakemiston estäminen: Esimerkiksi Disallow: /fi/ estää kaikkien suomenkielisten sivujen crawlauksen.
CSS- ja JavaScript-tiedostojen estäminen: Jos robots.txt estää näiden tiedostojen crawlauksen, Google ei pysty renderöimään sivuja oikein, mikä vaikuttaa suoraan indeksointiin.

Muista myös tärkeä rajoitus: robots.txt estää crawlauksen, mutta ei indeksointia. Jos sivulle osoittaa ulkoisia linkkejä, Google voi silti indeksoida sen, vaikka robots.txt estäisi crawlauksen. Jos haluat estää indeksoinnin kokonaan, käytä noindex-tagia.

Miten tarkistat robots.txt:n toimivuuden?

Google Search Console sisältää robots.txt-testerin, jolla voit tarkistaa, onko tietty URL estetty vai sallittu
Screaming Frog näyttää crawlauksen aikana, mitkä sivut on estetty robots.txt:llä
Avaa sinundomainisi.fi/robots.txt selaimessa ja tarkista tiedosto silmämääräisesti

robots.txt lyhyesti

robots.txt on teknisen SEO:n peruselementti, joka ohjaa hakukonerobottien toimintaa sivustollasi. Se on yksinkertainen tiedosto, mutta virheet siinä voivat olla vakavia. Tarkista se aina sivustouudistuksen tai CMS-muutoksen jälkeen ja varmista, ettei se vahingossa estä tärkeän sisällön crawlausta.

Miten robots.txt toimii?

Mitä robots.txt:llä kannattaa estää?

Kriittiset virheet robots.txt:ssä

Miten tarkistat robots.txt:n toimivuuden?

robots.txt lyhyesti

Vastaa Peruuta vastaus