Koliko strani pa imaš ti na Googlu?
Želite biti vedno na tekočem z vsebino tega bloga? Prijavite se na RSS vir ali obvestila preko e-pošte.
Mad čakanjem prijatelja na klopci pred glavno Avtobusno postajo sem ujel pogovor med dvema ‘profesionalnima’ blogerjema. Vsaj pogovarjala sta se tako. Večino pogovora sem tako ali tako pozabil, kar pa sem si zapomnil je bil naslov enega izmed blogov, ki sem ga tudi obiskal. Ker je bila glavna tema njunega pogovora to kako dolgo traja predno se nova vsebina na njunem blogu pojavi na iskalnikih in koliko strani imata vpisanih v bazo sem se tudi sam ‘poglobil’ v to.
V bistvu se nisem ravno poglabljal saj sem takoj opazil, da imata oba blogerja ‘indexirane’ strani, ki jih sam kot lastnik bloga ne želim imeti vpisanih v baze spletnih iskalnikov. Oba blogerja uporabljata WordPress, ki ga tudi sama gostita in imate popolen nadzor nad vsebino (vsaj mislim tako). En blog je imel vpisano celo stran /wp-admin/index.php, kar je stran, ki definitivno ne sodi v baze spletnih iskalnikov. Sem sodijo tudi datoteke v mapah wp-content in wp-include, kot tudi nekaj ostalih datotek.
Mogoče bo marsikdo rekel ‘Zakaj pa? Več je boljše je.’ in pri tem mu sam ne bom oporekal, res je da je to odločitev vsakega posameznika. Vendar kot večina (vsi?) uporabnikov interneta sovraži spam, tudi vsi sovražimo takšne vpise v rezultatih iskanja na spletnih iskalnikih, ki so tudi dejansko spam (če je spam nezaželjeno sporočilo oziroma informacija). Hkrati pa s preprečitvijo vpisa takšnih strani prihranite pri količini vsebin (bandwith), ki jo pregledujejo roboti spletnih iskalnikov.
Strani za katere vemo, da jih ne želimo imeti vpisanih v bazah spletnih iskalnikov lahko ’skrijemo’ oziroma spletnim iskalnikom ‘povemo’ katerih map in datotek naj ne pregledujejo. To lahko dosežemo s pomočjo datoteke robots.txt, ki bi morala po mojem mnenju biti vključena v ‘paket’ WordPress in ostale CMS sisteme (Drupal jo ima). Če datoteka s tem imenom še ne obstaja jo preprostu ustvarimo. Odprite beležko in če uporabljate WordPress vpišite naslednje:
# robots.txt za http://kosir.info
User-agent: *
Crawl-delay: 10
# Mape
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
# Datoteke
Disallow: /xmlrpc.php
Disallow: /wp-login.php
# XML mapa strani
Sitemap: http://kosir.info/sitemap.xml.gz
Kjer z vrstico ‘User-agent: *’ povemo naj ta pravila veljajo za robote vseh spletnih iskalnikov (žal nekateri tega ne upoštevajo), z vrstico ‘Crawl-delay: 10′ pa naj robotek med ogledom počaka 10 sekund predno si ogleda naslednjo stran (zapis).
V delu ‘Mape’ povemo, da ne želimo pregleda map wp-admin, wp-content in wp-includes medtem, ko v delu ‘Datoteke’ ‘prepovemo’ ogled datotek, xmlrpc.php in wp-login.php.
Za konec lahko v datoteko robots.txt dodate tudi naslov, kjer se nahaja vaša XML mapa strani (če jo imate), ki jo uporablja vedno več spletnih iskalnikov. To lahko vidite pod ‘XML mapa strani’.
Ustvarjeno datoteko shranite kot robots.txt in jo prekopirajte v korenjski imenik vaše spletne strani. Če je potrebno morate poti do map in datotek spremeniti tako, da bodo ustrezale vašim ‘pogojem’. Če uporabljate AWstats za vodenje statistike obiska vaše strani lahko vidite oglede datoteke robots.txt za vsak iskalnik posebej.
Ker spletni iskalniki datoteke robots.txt ne pogledajo pri vsakem ogledu in jih ‘cachirajo’ bo vse skupaj trajalo kak teden ali dva. Potem je potrebno počakati, da strani, ki so že bile vpisane v baze spletnih iskalnikov od tam izginejo, kar pa lahko traja kar nekaj časa.
Za generiranje datoteke robots.txt lahko uporabite tudi različna orodja. Tukaj jih je le nekaj:
Popularnost: 6%














Leave a Reply