De fyra stegen i sökningen som alla SEO:are behöver känna till
Att förstå hur sökmotorer fungerar är grundläggande för SEO-proffs. Här är en uppdatering om genomsökning, rendering, indexering och rankning.
”Vad är skillnaden mellan genomsökning, rendering, indexering och rankning?”
Hur grundläggande det än kan tyckas, är det inte ovanligt att vissa utövare förvirrar de grundläggande stegen i sökningen och förväxlar processen helt.
I den här artikeln får vi en uppdatering om hur sökmotorer fungerar och går igenom varje steg i processen.
Varför är det viktigt att veta skillnaden
Jag arbetade nyligen som expertvittne i ett varumärkesintrångsärende där det motsatta vittnet missuppfattade sökningen.
Två små företag förklarade att de var och en hade rätt att använda liknande varumärken.
Oppositionspartiets ”expert” drog felaktigt slutsatsen att min klient utförde felaktig eller fientlig SEO för att överträffa kärandens webbplats.
Han gjorde också flera kritiska misstag när han beskrev Googles processer i sin expertrapport, där han hävdade att:
- Indexering var webbgenomsökning.
- Sökrobotarna skulle instruera sökmotorn hur man rankar sidor i sökresultaten.
- Sökrobotarna kan också ”tränas” för att indexera sidor för vissa sökord.
Ett väsentligt försvar i rättstvister är att försöka utesluta en vittnande experts resultat – vilket kan ske om man kan visa för domstolen att de saknar de grundläggande kvalifikationer som krävs för att tas på allvar.
Eftersom deras expert uppenbarligen inte var kvalificerad att vittna om SEO-frågor överhuvudtaget, presenterade jag hans felaktiga beskrivningar av Googles process som bevis som stöder påståendet att han saknade lämpliga kvalifikationer.
Detta kan låta hårt, men den här okvalificerade experten gjorde många elementära och uppenbara misstag när han presenterade information för domstolen. Han presenterade felaktigt min klient som att han på något sätt drev orättvisa handelsmetoder via SEO, samtidigt som han ignorerade tvivelaktigt beteende från kärandens sida (som uppenbart använde svart hatt SEO, medan min klient inte gjorde det).
Den motsatta experten i mitt rättsfall är inte ensam om denna missuppfattning av sökstadierna som används av de ledande sökmotorerna.
Det finns framstående sökmarknadsförare som också har blandat ihop stadierna av sökmotorprocesser som leder till felaktiga diagnoser av underpresterande i SERP:erna.
Jag har hört någon säga: ”Jag tror att Google har straffat oss, så vi kan inte vara i sökresultaten!” – när de faktiskt hade missat en nyckelinställning på sina webbservrar som gjorde deras webbplatsinnehåll otillgängligt för Google.
Automatiserade bestraffningar kan ha kategoriserats som en del av rankningsstadiet. I verkligheten hade dessa webbplatser problem i genomsöknings- och renderingsstadierna som gjorde indexering och rankning problematisk.
När det inte finns några meddelanden i Google Search Console om en manuell åtgärd, bör man först fokusera på vanliga problem i vart och ett av de fyra stegen som avgör hur sökningen fungerar.
Det är inte bara semantik
Alla höll inte med om Ray och Sullivans betoning på vikten av att förstå skillnaderna mellan genomsökning, rendering, indexering och rankning.
Jag märkte att en del utövare anser att sådana bekymmer bara är semantik eller onödig ”gatekeeping” av elitistiska SEO:er.
Till en viss grad kan vissa SEO-veteraner verkligen ha mycket löst blandat ihop betydelserna av dessa termer. Detta kan hända inom alla discipliner när de som är genomsyrade av kunskapen slänger jargong runt med en gemensam förståelse för vad de syftar på. Det är inget fel med det.
Vi tenderar också att antropomorfiera sökmotorer och deras processer eftersom att tolka saker genom att beskriva dem som att de har välbekanta egenskaper gör det lättare att förstå. Det är inget fel med det heller.
Men denna oprecision när man talar om tekniska processer kan vara förvirrande och gör det mer utmanande för dem som försöker lära sig om disciplinen SEO.
Man kan använda termerna slentrianmässigt och oprecist bara till en viss grad eller som stenografi i samtal. Som sagt, det är alltid bäst att känna till och förstå de exakta definitionerna av sökmotorteknikens stadier.
Sökningens 4 stadier
Många olika processer är involverade i att få webbinnehållet till dina sökresultat. På vissa sätt kan det vara en grov förenkling att säga att det bara finns en handfull diskreta steg för att få det att hända.
Var och en av de fyra stadierna jag tar upp här har flera delprocesser som kan förekomma inom dem.
Även utöver det finns det betydande processer som kan vara asynkrona med dessa, till exempel:
- Typer av spampolisering.
- Inkorporering av element i
- Kunskapsdiagrammet och uppdatering av kunskapspaneler med informationen.
- Bearbetning av optisk teckenigenkänning i bilder.
- Ljud-till-text-behandling i ljud- och videofiler.
- Bedömning och tillämpning av PageSpeed-data.
- Och mer.
Det som följer är de primära stegen i sökningen som krävs för att webbsidor ska visas i sökresultaten.
Crawling (Genomsökning)
Genomsökning sker när en sökmotor begär webbsidor från webbplatsernas servrar.
Föreställ dig att Google och Microsoft Bing sitter vid en dator och skriver in eller klickar på en länk till en webbsida i deras webbläsarfönster.
Således besöker sökmotorernas maskiner webbsidor som liknar hur du gör. Varje gång sökmotorn besöker en webbsida samlar den in en kopia av den sidan och noterar alla länkar som finns på den sidan. När sökmotorn har samlat in den webbsidan kommer den att besöka nästa länk i sin lista över länkar som ännu inte har besökts.
Detta kallas ”krypning” eller ”spidering” vilket är lämpligt eftersom webben metaforiskt är en gigantisk, virtuell väv av sammankopplade länkar.
De datainsamlingsprogram som används av sökmotorer kallas ”spindlar”, ”bots” eller ”crawlers”.
Googles primära genomsökningsprogram är ”Googlebot”, medan Microsoft Bing har ”Bingbot”. Var och en har andra specialiserade bots för att besöka annonser (d.v.s. GoogleAdsBot och AdIdxBot), mobilsidor och mer.
Det här skedet av sökmotorernas bearbetning av webbsidor verkar okomplicerat, men det finns mycket komplexitet i det som händer, bara i detta skede.
Tänk på hur många webbserversystem det kan finnas, som kör olika operativsystem av olika versioner, tillsammans med olika innehållshanteringssystem (t.ex. WordPress, Wix, Squarespace), och sedan varje webbplatss unika anpassningar.
Många problem kan hindra sökmotorernas sökrobotar från att genomsöka sidor, vilket är en utmärkt anledning att studera detaljerna i detta skede.
Först måste sökmotorn hitta en länk till sidan någon gång innan den kan begära sidan och besöka den. (Under vissa konfigurationer har sökmotorerna varit kända för att misstänka att det kan finnas andra, hemliga länkar, till exempel ett steg upp i länkhierarkin på en underkatalognivå eller via några begränsade interna sökformulär på webbplatsen.)
Sökmotorer kan upptäcka webbsidors länkar genom följande metoder:
- När en webbplatsoperatör skickar länken direkt eller avslöjar en webbplatskarta till sökmotorn.
- När andra webbplatser länkar till sidan.
- Genom länkar till sidan från sin egen webbplats, förutsatt att webbplatsen redan har några sidor indexerade.
- Inlägg på sociala medier.
- Länkar finns i dokument.
- Webbadresser som finns i skriven text och inte hyperlänkade.
- Via metadata för olika typer av filer.
- Och mer.
I vissa fall kommer en webbplats att instruera sökmotorerna att inte genomsöka en eller flera webbsidor genom sin robots.txt-fil, som finns på basnivån för domänen och webbservern.
Robots.txt-filer kan innehålla flera direktiv i dem, som instruerar sökmotorer att webbplatsen inte tillåter genomsökning av specifika sidor, underkataloger eller hela webbplatsen.
Att instruera sökmotorer att inte genomsöka en sida eller en del av en webbplats betyder inte att dessa sidor inte kan visas i sökresultaten. Att hindra dem från att genomsökas på detta sätt kan allvarligt påverka deras förmåga att ranka bra för sina sökord.
I ytterligare andra fall kan sökmotorer kämpa för att genomsöka en webbplats om webbplatsen automatiskt blockerar botarna. Detta kan hända när webbplatsens system har upptäckt att:
- Boten begär fler sidor inom en tidsperiod än vad en människa kunde.
- Boten begär flera sidor samtidigt.
- En bots server-IP-adress är geolokaliserad inom en zon som webbplatsen har konfigurerats för att utesluta.
- Botens förfrågningar och/eller andra användares förfrågningar om sidor överväldigar serverns resurser, vilket gör att visningen av sidor saktar ner eller misslyckas.
Däremot är sökmotorrobotar programmerade att automatiskt ändra fördröjningshastigheter mellan förfrågningar när de upptäcker att servern kämpar för att hänga med efterfrågan.
För större webbplatser och webbplatser med ofta ändrande innehåll på sina sidor, kan ”genomsökningsbudget” bli en faktor för om sökrobotar kommer att kunna genomsöka alla sidor.
I grund och botten är webben något av ett oändligt utrymme av webbsidor med varierande uppdateringsfrekvens. Sökmotorerna kanske inte kommer runt för att besöka varje enskild sida där ute, så de prioriterar sidorna de kommer att genomsöka.
Webbplatser med ett stort antal sidor, eller som svarar långsammare, kan förbruka sin tillgängliga genomsökningsbudget innan alla sina sidor genomsöks om de har en relativt lägre rankingvikt jämfört med andra webbplatser.
Det är användbart att nämna att sökmotorer också begär alla filer som ingår i att skapa webbsidan, såsom bilder, CSS och JavaScript.
Precis som med själva webbsidan, om de ytterligare resurserna som bidrar till att skapa webbsidan är otillgängliga för sökmotorn, kan det påverka hur sökmotorn tolkar webbsidan.
Rendering
När sökmotorn genomsöker en webbsida kommer den att ”rendera” sidan. Detta innebär att HTML-, JavaScript- och CSS-informationen (Cascading Stylesheet) används för att generera hur sidan kommer att se ut för datoranvändare och/eller mobilanvändare.
Detta är viktigt för att sökmotorn ska kunna förstå hur webbsidans innehåll visas i sitt sammanhang. Bearbetning av JavaScript hjälper till att säkerställa att de kan ha allt innehåll som en mänsklig användare skulle se när de besöker sidan.
Sökmotorerna kategoriserar renderingssteget som en delprocess inom genomsökningsstadiet. Jag listade det här som ett separat steg i processen eftersom att hämta en webbsida och sedan analysera innehållet för att förstå hur det skulle se ut i en webbläsare är två distinkta processer.
Google använder samma renderingsmotor som används av webbläsaren Google Chrome, kallad ”Rendertron”, som är byggd av webbläsarsystemet Chromium med öppen källkod.
Bingbot använder Microsoft Edge som sin motor för att köra JavaScript och rendera webbsidor. Den är nu också byggd på den Chromium-baserade webbläsaren, så den återger i princip webbsidor på samma sätt som Googlebot gör.
Google lagrar kopior av sidorna i deras arkiv i ett komprimerat format. Det verkar troligt att Microsoft Bing också gör det (men jag har inte hittat dokumentation som bekräftar detta). Vissa sökmotorer kan lagra en förkortad version av webbsidor bara i form av den synliga texten, utan all formatering.
Rendering blir för det mesta ett problem i SEO för sidor som har viktiga delar av innehåll som är beroende av JavaScript/AJAX.
Både Google och Microsoft Bing kommer att köra JavaScript för att se allt innehåll på sidan, och mer komplexa JavaScript-konstruktioner kan vara utmanande för sökmotorerna att fungera.
Jag har sett JavaScript-konstruerade webbsidor som i princip var osynliga för sökmotorerna, vilket resulterade i allvarligt icke-optimala webbsidor som inte skulle kunna rangordnas för sina söktermer.
Jag har också sett fall där oändligt rullande kategorisidor på e-handelswebbplatser inte fungerade bra på sökmotorer eftersom sökmotorn inte kunde se så många av produkternas länkar.
Andra förhållanden kan också störa renderingen. Till exempel, när det finns en eller flera JaveScript- eller CSS-filer oåtkomliga för sökmotorrobotarna på grund av att de finns i underkataloger som inte är tillåtna av robots.txt, kommer det att vara omöjligt att bearbeta sidan helt.
Googlebot och Bingbot kommer i stort sett inte att indexera sidor som kräver cookies. Sidor som villkorligt levererar vissa nyckelelement baserade på cookies kanske inte heller renderas helt eller korrekt.
Indexering
När en sida har genomsökts och renderats bearbetar sökmotorerna sidan ytterligare för att avgöra om den kommer att lagras i indexet eller inte, och för att förstå vad sidan handlar om.
Sökmotorindexet liknar funktionellt ett index över ord som finns i slutet av en bok.
En boks index listar alla viktiga ord och ämnen som finns i boken, listar varje ord i alfabetisk ordning, tillsammans med en lista över sidnumren där orden/ämnena kommer att finnas.
Ett sökmotorindex innehåller många nyckelord och sökordssekvenser, associerade med en lista över alla webbsidor där sökorden finns.
Indexet har viss begreppsmässig likhet med en databasuppslagstabell, som ursprungligen kan ha varit den struktur som användes för sökmotorer. Men de stora sökmotorerna använder sannolikt nu något ett par generationer mer sofistikerat för att uppnå syftet att leta upp ett nyckelord och returnera alla webbadresser som är relevanta för ordet.
Användningen av funktionalitet för att slå upp alla sidor som är associerade med ett nyckelord är en tidsbesparande arkitektur, eftersom det skulle kräva alltför oanvändbar tid att söka på alla webbsidor efter ett nyckelord i realtid, varje gång någon söker efter det.
Alla genomsökta sidor kommer inte att finnas kvar i sökindexet av olika anledningar. Om en sida till exempel innehåller en robots-metatagg med ett ”noindex”-direktiv, instruerar den sökmotorn att inte inkludera sidan i indexet.
På liknande sätt kan en webbsida inkludera en X-Robots-Tag i sin HTTP-huvud som instruerar sökmotorerna att inte indexera sidan.
I ytterligare andra fall kan en webbsidas kanoniska tagg instruera en sökmotor att en annan sida än den nuvarande ska betraktas som huvudversionen av sidan, vilket resulterar i att andra, icke-kanoniska versioner av sidan tas bort från indexet.
Google har också sagt att webbsidor inte får behållas i indexet om de är av låg kvalitet (dubbletter av innehållssidor, tunna innehållssidor och sidor som innehåller allt eller för mycket irrelevant innehåll).
Det har också funnits en lång historia som tyder på att webbplatser med otillräcklig kollektiv PageRank kanske inte har alla sina webbsidor indexerade – vilket tyder på att större webbplatser med otillräckliga externa länkar kanske inte indexeras ordentligt.
Otillräcklig genomsökningsbudget kan också leda till att en webbplats inte har alla sina sidor indexerade.
En viktig del av SEO är att diagnostisera och korrigera när sidor inte blir indexerade. På grund av detta är det en bra idé att noggrant studera alla olika frågor som kan försämra indexeringen av webbsidor.
Ranking
Rankning av webbsidor är det stadium av sökmotorbearbetning som förmodligen är det mest fokuserade på.
När en sökmotor har en lista över alla webbsidor som är associerade med ett visst sökord eller sökordsfras, måste den bestämma hur den kommer att ordna dessa sidor när en sökning görs efter nyckelordet.
Om du arbetar i SEO-branschen kommer du förmodligen redan att vara ganska bekant med en del av vad rankningsprocessen innebär. Sökmotorns rankningsprocess kallas också för en ”algoritm”.
Komplexiteten som är involverad i rangordningsstadiet i sökningen är så enorm att den bara förtjänar flera artiklar och böcker att beskriva.
Det finns många kriterier som kan påverka en webbsidas rankning i sökresultaten. Google har sagt att det finns mer än 200 rankningsfaktorer som används av dess algoritm.
Inom många av dessa faktorer kan det också finnas upp till 50 ”vektorer” – saker som kan påverka en enskild rankningssignals inverkan på rankingen.
PageRank är Googles tidigaste version av sin rankningsalgoritm som uppfanns 1996. Den byggdes av ett koncept som länkar till en webbsida – och den relativa betydelsen av källorna till länkarna som pekar till den webbsidan – kunde beräknas för att bestämma sidans rankningsstyrka i förhållande till alla andra sidor.
En metafor för detta är att länkar till viss del behandlas som röster, och sidor med flest röster kommer att vinna högre ranking än andra sidor med färre länkar/röster.
Snabbspola framåt till 2022 och mycket av den gamla PageRank-algoritmens DNA är fortfarande inbäddad i Googles rankningsalgoritm. Den länkanalysalgoritmen påverkade också många andra sökmotorer som utvecklade liknande typer av metoder.
Den gamla Google-algoritmmetoden var tvungen att bearbeta länkarna på webben iterativt och skicka PageRank-värdet runt bland sidor dussintals gånger innan rankningsprocessen var klar. Denna iterativa beräkningssekvens över många miljoner sidor kan ta nästan en månad att slutföra.
Nuförtiden introduceras nya sidlänkar varje dag, och Google beräknar rankningar i en sorts droppmetod – vilket gör att sidor och ändringar kan tas med mycket snabbare utan att det krävs en månadslång länkberäkningsprocess.
Dessutom bedöms länkar på ett sofistikerat sätt – återkallar eller minskar rankningskraften för betalda länkar, handlade länkar, skräppostlänkar, länkar som inte är redaktionellt godkända och mer.
Breda kategorier av faktorer utöver länkar påverkar också rankingen, inklusive:
- Expertis, auktoritativitet och pålitlighet eller förkortat E-A-T.
- Kvalitet
- Läge/närhet
- Personlig sökhistorik.
- Krypterad kontra okrypterad (användning av Secure Socket Layer eller SSL) för att leverera webbsidor, indikerat med URL-prefixet ”HTTPS”.
- Mobilvänlighet.
- Sidhastighet.
- Och mer.
Slutsats
Att förstå nyckelstadierna i sökningen är en viktig fråga för att bli en professionell inom SEO-branschen.
Vissa personligheter i sociala medier tror att att inte anställa en kandidat bara för att de inte känner till skillnaderna mellan genomsökning, rendering, indexering och rangordning var att ”gå för långt” eller ”gate-keeping”.
Det är en bra idé att känna till skillnaderna mellan dessa processer. Jag skulle dock inte överväga att ha en suddig förståelse av sådana termer som en deal-breaker.
SEO-proffs kommer från en mängd olika bakgrunder och erfarenhetsnivåer. Det som är viktigt är att de är tillräckligt tränande för att lära sig och nå en grundläggande förståelsenivå.