4. Factor 1: Indexeerbaar

Zodra Google op je site komt kijkt hij eerst naar algemene instructies om de site te spideren en vervolgens per pagina naar instructies hiervoor.

4.1 Indexeerbaar: de 1e factor in het 3-factorenmodel

Alles start met het feit dat zoekmachines jouw site ook kunnen vinden en indexeren. Daarom is de 1e factor die we bespreken de indexeerbaarheid van je website.

Indexeren is het geautomatiseerd ophalen van de informatie van webpagina's door een zoekmachine, zoals Google. De software die een zoekmachine hiervoor gebruikt heet een spider. Synoniemen voor indexeren zijn spideren en crawlen.

4.2 Informatie over je website

In de eerste plaats vertel je Google op welke manier je graag wilt dat Google jouw site indexeert. Dat doe je met 2 bestanden:

robots.txt
sitemap.xml

Nadat Google weet wat hij moet doen op site-niveau, bekijkt hij wat hij moet doen op pagina-niveau. Daarbij kijkt hij naar het volgende:

statuscode of responscode
metatag robot
canonical

4.3 robots.txt

Met het bestand robots.txt vraag je zoekmachines om bepaalde delen van de site NIET te indexeren. Het robots-bestand staat in de root van je site. Bij The Internet Academy staat het bijvoorbeeld op www.theinternetacademy.nl/robots.txt.

Een voorbeeld van zo'n bestand is:

User-agent: * 
Disallow: /nieuwesite 
Disallow: /service

Met deze code verzoeken wij het volgende:

De informatie geldt voor alle zoekmachines (user-agents = zoekmachines, * =alle).
Indexeer niet de directories “nieuwesite" en “service".

Het bestand is alleen nodig als je wilt dat bepaalde directories van je site NIET bezocht moeten worden. Het bestand gebruikt de Robots Exclusion Standard.

Met robots.txt voorkom je niet dat de directories niet geïndexeerd worden. Als er bijvoorbeeld links naar pagina's in deze directories staan, dan worden deze pagina's wel geïndexeerd.

Wil je voorkomen dat een pagina wordt geïndexeerd, gebruik dan de metatag robots, zie volgende paragraaf. Daarmee blijft de pagina volledig uit Google.

4.4 Metatag robots

Deze tag gebruik je als je wil dat een zoekmachine iets niet doet. Hieronder een voorbeeld van de code:

<meta name="robots" content="noindex, nofollow">

In dit voorbeeld is de wens dat zoekmachines de pagina niet indexeren (noindex) en de links in de pagina niet volgen (nofollow).

Belangrijke waarden die de metatag robots kan hebben zijn:

Waarde	Betekenis
noindex	Indexeer deze pagina niet. Je sluit Google dan dus uit van je webpagina.
nofollow	Volg de links op de pagina niet
none	Combinatie van noindex en nofollow
noarchive	Cache deze pagina niet

Als je wilt dat de pagina gewoon geïndexeerd wordt en dat links in de pagina gewoon gevolgd worden, dan kun je de tag weglaten.

Er zijn 2 belangrijke verschillen tussen de metatag robots en het hiervoor besproken bestand robots.txt:

robots.txt gebruik je voor volledige directories. De metatag robots geeft alleen informatie over de pagina waar de tag in staat.
Pagina's van een directory die via de robots.txt uitgesloten zijn, kunnen toch door Google geïndexeerd worden, als er naar de pagina's wordt gelinkt. Staat er een metatag robots die aangeeft dat de pagina niet geïndexeerd mag worden, dan gebeurt dat ook niet.

Wil je dus dat een pagina echt niet geïndexeerd wordt, geef dit dan aan met de metatag robots.

Het nadeel van zo'n metatag is dat je deze op elke pagina moet toevoegen die je niet wilt indexeren. Wil je het voor je hele site of een hele directory dan kan je dit in de template van de pagina's zetten. Ook kan het handig zijn om de HTTP-header X-Robots-Tag te gebruiken, zie verder.

4.5 HTTP-header X-Robots-Tag

Deze tag is handig als je een reeks van pagina's of een hele directory wilt uitsluiten van Google.

Deze werkt op dezelfde manier als de metatag robots. We gaan hier verder niet op. Meer informatie vind je op HTTP-header X-Robots-Tag gebruiken.

4.6 HTTP-statuscodes

Als iemand een pagina opvraagt, dan reageert de server met een statuscode of responscode, een zogenaamde HTTP statuscode.

Als een pagina wordt opgevraagd die bestaat, dan reageert de server met een responscode 200 OK. Dat is voor zoekmachines een positief signaal: de pagina bestaat.

Meer hierover vind je op http-statuscodes.

4.7 sitemap.xml

Met het bestand sitemap.xml vertel je aan zoekmachines hoe de structuur is van je website.

Google beschrijft de werking als volgt:

Een sitemap is een bestand waarin je informatie verstrekt over de pagina's, video's en andere bestanden op je site en de onderlinge relaties. Zoekmachines zoals Google lezen dit bestand om je site op een intelligente wijze te crawlen. Via een sitemap laat je Google weten welke pagina's en bestanden op je site jij belangrijk vindt. Verder biedt een sitemap waardevolle informatie over deze bestanden. Zo kun je in het geval van pagina's informatie verstrekken over wanneer de pagina voor het laatst is geüpdatet, hoe vaak de pagina is gewijzigd en of er alternatieve taalversies van de pagina beschikbaar zijn.

Je kunt een sitemap maken op basis van het sitemapprotocol.

Elke keer dat je pagina's maakt of verwijdert moet je dit bestand bijwerken. Het is daarom handig om een dynamische sitemap te gebruiken. Deze is steeds bijgewerkt naar de huidige structuur van je website.

4.8 Canonical

Als je 2 pagina's hebt met (bijna) dezelfde content, dan moet je aangeven welke pagina voor jou de belangrijkste is. Dat doe je door op de andere pagina het canonical-attribuut te plaatsen in het link-element. Als je dat niet doet, dan ziet Google 2 pagina's met dezelfde content en geeft beide pagina's een lagere indexwaarde mee, dan wanneer het maar 1 pagina zou zijn.

Stel je hebt 2 pagina's met dezelfde content: pagina1.html is de belangrijkste, pagina2.html is minder belangrijk, dan zet je in pagina 2 de volgende code:

<link rel=”canonical” href=”www.voorbeeld.nl/pagina1.html”>

Hieronder een voorbeeld van een gemeente. Zij hebben het idee dat het handig is om een onderscheid te maken tussen de doelgroepen 'Inwoners' en 'Bezoekers'. Dat resulteert in een dilemma: moet bepaalde informatie nu bij inwoners of bezoekers? Bijvoorbeeld bij informatie over de weekmarkt:

gemeente-x.nl/inwoners/weekmarkt_1073.html
gemeente-x.nl/bezoeker/weekmarkt_1073.html

Hun oplossing: we zetten de pagina er 2 keer in. In dat geval moeten ze bij 1 van de pagina's een canonical plaatsen. Veel beter is om dit soort duplicate content te voorkomen. In dit geval is de indeling op doelgroep niet verstandig.

In het algemeen kun je beter voorkomen dat een pagina 2 x in je site voorkomt. Komt dezelfde pagina 2 keer voor op je site, dan vindt een bezoeker deze pagina ook 2 keer in je sitestructuur. En dit kan verwarrend zijn.

4.9 Pdf's niet laten indexeren

Normaal gesproken kan een pdf ook los gevonden worden in Google. Het nadeel daarvan is dat er voor de gebruiker geen context is, zoals waar de pdf bijhoort en gerelateerde informatie. Ook kun je niet direct een toegankelijk alternatief aanbieden als de pdf ontoegankelijk is, want degene die het toegankelijke alternatief nodig heeft vindt deze niet bij de pdf.

Om pdf's uit te sluiten van Google moet de webbouwer iets aanpassen. Zij moeten aan het bestand .htaccess of het bestand httpd.conf het volgende toevoegen: <Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>