V posledných mesiacoch sa pri mnohých weboch začal vyskytovať problém s indexáciou. Google vo väčšej miere ako kedysi začal ignorovať novovytvorené stránky. Na webe vytvoríte nové stránky, napr. články, produkty, produktové kategórie ap. a Google ich ani po mesiacoch nezaradí do svojho indexu, teda sú cez Google nedohľadateľné, pričom je zjavné, že o daných URL adresách vie. Z hľadiska marketingových aktivít je to o to väčší problém, čím väčšia časť obratu tvorenou stránkou závisí od organickej návštevnosti z vyhľadávania. Snažili sme sa prísť na to, čo tento problém môže spôsobovať a tým pádom aj, ako by sa dal potenciálne riešiť. 

Zoznam stránok, o ktorých Google vie, ale neindexuje ich, možno vidieť v nástroji Google Search Console v časti Coverage (pokrytie) > Excluded (vylúčené).

Zoznam stránok, o ktorých Google vie, ale ich neindexuje

V týchto dôvodoch neindexovania sú dôležité dve kategórie:

  • Crawled – currently not indexed (Prejdené – v súčasnosti neindexované)
  • Discovered – currently not indexed (Objavené – v súčasnosti neindexované, ďalej aj zjednodušene „objavené/neindexované“)

Crawled – currently not indexed

Prvá kategória nám podľa oficiálneho popisu Googlu hovorí o tom, že Googlebot stránku prešiel, ale nepridal ju do svojho indexu.

V rámci všeobecných SEO poznatkov sa ako jeden z významných dôvodov predpokladá, že Google danú stránku nepovažuje svojím obsahom za dostatočne prínosnú oproti ostatným stránkam daného webu alebo webov všeobecne.

Riešeniam tohto problému sa nejdeme špeciálne venovať. V skratke spočívajú buď v skvalitnení obsahu (aby bol pre návštevníkov prínosnejší a unikátnejší), alebo v lepšom nastavení kanonizácie ap.

Discovered – currently not indexed

Viac depresie dokáže priniesť kategória Discovered – currently not indexed (objavené/neindexované). Napr. aj pol roka publikovaný článok (nie zrovna slabej kvality) Google dokáže ignorovať, čo je pri SEO aktivitách vážny problém.

Google k tejto kategórii uvádza, že ide o stránky, ktoré objavil (ich URL adresu), ale neprešiel ich obsah. Dochádza k tomu vraj často kvôli riziku preťaženia servera.

Môžeme to teda chápať tak, že Googlebot prechádzaním väčšieho množstva stránok na danom webe zaťaží hosting natoľko, že odpovedá na dopyty pomalšie, čo Googlebot vyhodnotí ako riziko preťaženia servera, čiže zhodenie webu. Keďže Google vyhlasuje, že nechce svojím botom spôsobovať takéto stavy, prechádzanie odloží na neskôr, pričom problém sa dookola opakuje.

Problém niekedy nerieši ani priama žiadosť o indexáciu danej stránky cez Google Search Console.

Riešením môže byť získanie odkazov (interných aj externých) na takto neprechádzaný obsah. Vďaka spätným odkazom dostáva Google signály, že ním opúšťaná stránka môže byť významnejšia a zároveň sa zvyšuje pravdepodobnosť, že Googlebot natrafí na danú stránku skôr v čase, keď ešte príliš nezaťaží server inými stránkami daného webu.

To je však skôr hasenie symptómov ako riešenie problému.

Aký silný je faktor hostingu a rýchlosť načítania webu?

Ak Google tvrdí, že prechádzanie daných stránok odkladá kvôli riziku preťaženia servera, potom to poukazuje na problém na strane hostingu. Ako SEO konzultanti potom stojíme pred dilemou, či neodporučiť klientovi iný hosting.

Zmena hostingu však nie je jednoduchá, má v sebe rôzne riziká a pre klienta predstavuje aj isté výdavky na manažment takýchto zmien. Odporučiť zmenu hostingu s tým, že snáď to pomôže, by nebolo veľmi zodpovedné.

Preto sme sa za pomoci našich stážistov pozreli na problém komplexnejšie. Aby sme prípadnú zmenu hostingu mohli odporúčať na základe dát a nie metódou pokus/omyl.

Na desiatkach vybraných weboch sme pomocou rôznych metrík hľadali súvis medzi problémom odkladania prechádzania Googlebotom a metrikami rýchlosti načítania webu.

Vybrané premenné

Pri jednotlivých weboch sme zaznamenávali viaceré premenné (vyše 40 stĺpcov). Pričom kľúčové boli nasledovné premenné:

  • Poskytovateľ hostingu.
  • Miera zasiahnutia problémom: percentuálny podiel počtu objavených/neindexovaných stránok na celkovom počte validne indexovaných stránok daného webu. Táto premenná nám signalizovala, aký veľký je tento problém na danom webe, čiže ako veľmi sú dané weby týmto javom zasiahnuté.
  • Percentuálny podiel chabých stránok (poor) na celkovom počte stránok, ktoré Google posudzoval v rámci metrík Core Web Vitals z mobilných zariadení.
  • Percentuálny podiel chabých stránok (poor) na celkovom počte stránok, ktoré Google posudzoval v rámci metrík Core Web Vitals z desktopových zariadení.
  • Skóre vytvorené pre účely tejto analýzy z dát nástroja na meranie rýchlosti webu tools.pingdom.com. Tento nástroj normálne hodnotí pozitívne tie stránky, ktoré sa načítajú čo najrýchlejšie, majú čo najmenej požiadaviek na server a čo najmenší objem, resp. optimalizovanú veľkosť obrázkov ap. Pre účely tejto analýzy sme však vytvorili skóre, ktoré hovorí o tom, že ako rýchlo sa daný web dokáže načítať napriek tomu, aký je objemný a koľko požiadaviek na server má, čo naznačuje výkonnosť servera na strane hostingu. Dané skóre sme rátali ako (objem stránky + počet požiadaviek/100)/čas. Čiže čím vyššie skóre, tým lepší hosting. Okrem úvodnej stránky sme tieto hodnoty odčítavali aj pri iných typoch podstránok.  
  • Priemerný čas načítania stránok na webe poskytovaný nástrojom Google Analytics pre mobilné zariadenia.
  • Priemerný čas načítania stránok na webe poskytovaný nástrojom Google Analytics pre desktopy.

Tabuľka s premennými

Okrem toho sme ešte dodatočne pre 10 najväčších a najmenej problémom zasiahnutých a 10 najviac problémom zasiahnutých webov zisťovali prostredníctvom troch metrík čas odozvy servera:

  • Average response time pri prechádzaní Googlebotom. Metrika dostupná z nástroja Google Search Console v časti Settings > Crawl Stats. 
  • Average server response time vzorky návštev z Google Analytics za obdobie od 1. 3. 2022 do 6. 6. 2022. 
  • Priemerný Response Time prvých 100 html stránok pri prechádzaní botom nástroja Screaming Frog SEO Spider. 

Vzorka webov

Zo vzorky webov sme vylúčili jeden extrémny prípad webu hosťovaný na Websupporte, pri ktorom na 655 indexovaných stránok pripadalo 2540 neindexovaných, z čoho 1627 bolo v kategórii Discovered – currently not indexed (objavené/neindexované).

Vo vzorke nám tak ostalo 68 webov, ku ktorým sme mali dáta z Google Search Console, z Google Analytics, Pingdom Website Speed Test a PageSpeed Insights. 

Zber dát prebiehal od 27. 5. do 6. 6. 2022.

Vzorka webov bola silno heterogénna. Čo sa týka počtu indexovaných stránok, tak najmenší web mal 2, najväčší vyše 438-tisíc. Pri 19 weboch sa v kategórii objavené/neindexované nenachádzala žiadna stránka. 8 webov malo percentuálny podiel počtu stránok v kategórii objavené/neindexované na celkovom počte validne indexovaných stránok vyše 25 %. 

Výsledky

Na daný súbor sme aplikovali aj trochu štatistiky pomocou funkcie correl (Pearsonov korelačný koeficient) v Google Spreadsheet.

Pri jednotlivých vybraných premenných sme testovali koreláciu s podielom počtu objavených/neindexovaných stránok na celkovom počte indexovaných stránok.

Korelácie nám vychádzali buď žiadne, alebo príliš slabé na to (do 0,18), aby vôbec mohli byť vzhľadom na veľkosť vzorky štatisticky signifikantné.

Naše predpoklady, že by mohli vychádzať korelácie napr. pri metrikách Core Web Vitals, konkrétne vzťahy medzi podielom chabých stránok (poor) na celkovom hodnotenom počte stránok a podielu objavených/neindexovaných stránok na celkovom počte indexovaných stránok, sa tak nenaplnili.

Rovnako tak sa nepreukázali vzťahy medzi priemerným časom načítania stránok daných webov a medzi podielom objavených/neindexovaných stránok na celkovom počte indexovaných stránok.

Pre zaujímavosť sme do nasledujúcej tabuľky vybrali 20 webov, ktoré neboli skúmaným problémom zasiahnuté vôbec a 20 webov, ktoré ním boli zasiahnuté najviac. Rátali sme priemerné hodnoty, ktoré dosahovali v pozorovaných metrikách.

Problém s indexáciou webstránok

Ako vidieť, rozdiely sú jednak nepatrné na robenie nejakých významných záverov a neraz sa dokonca črtajú protichodné výsledky oproti opodstatneným očakávaniam.

Čas odozvy servera

Ďalej by sa dalo predpokladať, že ak Googlebot odchádza z webu z dôvodu rizika preťaženia servera, potom by mohlo na webe dochádzať k situácii, že časy odozvy webu/servera budú nielen pri zasiahnutých weboch vyššie, ale zároveň sa budú zvyšovať rýchlym prezeraním si väčšieho množstva stránok.

Preto sme zobrali 10 webov, ktoré mali najvyšší podiel objavených/neindexovaných stránok na počte indexovaných stránok a zároveň 10 webov s najväčším počtom indexovaných stránok z našej vzorky, ktoré zároveň nemali žiadne stránky v kategórii objavené/neindexované.

Metrika ohľadne času odozvy, ktorá ide priamo k meritu problému, je dostupná v nástroji Search Console a hovorí priamo o čase odozvy pre Googlebota. 

Rozptyl tejto hodnoty bol aj pri najmenej aj pri najviac postihnutých weboch pomerne vysoký. Pri najmenej postihnutých weboch bol najnižší priemerný čas odozvy 0,22 s a najvyšší 1,39 s, pričom priemer vyšiel na 0,74 s. Pri tých najviac postihnutých bol rozptyl tiež pomerne veľký. Najnižší priemerný čas odozvy bol 0,15 a najvyšší 0,9 s, pričom priemerný čas odozvy vyšiel 1,23 s.

Okrem toho sme pre rovnakých 10 najmenej a 10 najviac zasiahnutých webov daným problémom zobrali aj metriku Avg. Server Response Time z Google Analytics za obdobie od 1. 3. 2022 do 6. 6. 2022. Paradoxne, priemerné hodnoty priemerných časov odozvy servera za obidve skupiny nám naznačovali skôr opačný vzťah: najmenej zasiahnuté weby kategóriou objavené/neindexované mali v priemere za sledované obdobie 0,66 s a najviac zasiahnuté weby v priemere 0,44 s.

Aby sme sa v tejto protichodnosti lepšie zorientovali, tak rovnaký súbor 20 webov sme dali prechádzať nástrojom Screaming Frog SEO Spider, pričom po 100 prejdených html stránok daných webov sme prechádzanie zastavili a pre prvých 100 html stránok zaznamenali priemerný čas odozvy. 

K takémuto testovaniu sme pristúpili z dôvodu, že crawler nástroja Screaming Frog sa svojím správaním blíži Googlebotu. Tiež je to bot, ktorý príde na web a zrazu má na server množstvo požiadaviek na načítanie obsahu, čím ho môže preťažovať, pričom v praxi sme sa stretli s tým, že bot nástroja Screaming Frog aj reálne vyradil web na čas z fungovania.  

Rozptyl nameraných hodnôt bol aj pri najmenej aj pri najviac zasiahnutých weboch pomerne vysoký. Pri najmenej zasiahnutých weboch bol najnižší priemerný čas odozvy 0,25 s a najvyšší 1,99 s, pričom priemer vyšiel na 1,01 s. Pri tých najviac zasiahnutých weboch bol najnižší priemerný čas odozvy 0,28 a najvyšší 4,73 s, pričom priemerný čas odozvy vyšiel 1,58 s.

Tu je zaujímavé uviesť, že priemerné časy zistené z Google Search Console za Googlebota a priemerné časy zistené botom nástroja Screaming Frog SEO Spider pri jednotlivých webov výrazne korelovali (r = 0,86 na hladine významnosti 0,001). 

Toto poznanie sa dá využiť, ak by ste analyzovali z tohto hľadiska web a nemali ste prístup k dátam z Google Search Console. 

Websupport – kapitola sama o sebe

Websupport je jednoznačne najrozšírenejší poskytovateľ hostingových služieb na Slovensku. V našej vzorke sa tak prirodzene vyskytla viac ako štvrtina (19) webov využívajúcich Websupport.

Z hľadiska skúmanej problematiky sme tak mohli porovnať weby na Websupporte s ostatnými.

Čo sa týka percentuálneho podielu počtu objavených/neindexovaných stránok na celkovom počte indexovaných stránok daného webu, tak weby s hostingom od Websupportu mali toto percento 14,06, pričom weby s hostingom od iných spoločností mali tento podiel takmer polovičný: 7,22 %.

Inými slovami, weby hosťované na Websupporte boli zasiahnuté týmto problémom zhruba v dvojnásobnom rozsahu.

Pre zaujímavosť uveďme, že z 20 webov, ktoré nemali žiadne stránky v kategórii objavené/neindexované, bolo päť (čiže normálne zastúpenie v rámci celej vzorky) hosťovaných na Websupporte. Avšak zároveň hosting od Websupportu sa vyskytol pri štyroch z piatich webov, ktoré daným problémom trpeli najviac.

To znamená, že Websupport sám o sebe by nemal byť príčinou daného problému, aj keď je častejšie zastúpený pri weboch, ktoré skúmaným problémom trpeli viac.

Význam by malo analyzovať, či jednotlivé ponúkané programy Websupportu poskytujú odlišnú kvalitu majúcu vplyv na skúmaný problém. K tomu sme však nemali dáta.

Okrem toho weby na Websupporte mali v rámci metrík Core Web Vitals hodnotených až 30,6 % stránok v kategórii poor na rozdiel od 18,2 % webov na hostingu inom ako Websupport. Pri desktope bola situácia ešte kontrastnejšia: 33,4-percentný podiel kategórie poor pre weby na Websupporte oproti 12,5 % na ostatných hostingoch.

Pri našom vytvorenom skóre kvality hostingu na základe metrík z nástroja tools.pingdom.com vykazovali weby na Websupporte, paradoxne, lepšie hodnoty, v priemere 3,57, oproti 2,87 pre ostatné hostingy.

Priemerná hodnota webov priemernej rýchlosti načítania stránok podľa Google Analytics bola pre mobilné zariadenia pri weboch na Websupporte 5,22 s oproti 4,24 s na weboch ostatných hostingov a na desktope 3,68 vs. 3,33.

V rámci zúženej vzorky (14 webov) vykazovali weby na Websupporte lepší priemerný čas odozvy pri prechádzaní botom nástroja Screaming Frog a to 0,752 s oproti 1,687 s webov na ostatných hostingoch.

A zaujímavé tiež je, že v rámci zúženej vzorky (40 webov) vykazovalo 11 webov na Websupporte v priemere o niečo málo lepší priemerný čas odozvy pre Googlebota (0,78 s) oproti 29 webom iných spoločností, ktoré v primere mali daný čas 0,86 s.

Anekdotický prípad

Počas zberu a kontroly dát sme natrafili na prípad webu, ktorý mal v skoršom období (máj 2022) okolo 2100 indexovaných stránok, pričom okolo 170 ich mal v kategórii objavené/neindexované:

Graf webu s objavenými ale neindexovanými stránkami

Ako zároveň vidieť, koncom mája problém zmizol a odvtedy sa zatiaľ nevrátil.

Graf priemerného času odozvy pre Googlebota (nižšie) koreluje s vyššie uvedeným javom.

Graf priemerného času odozvy pre Googlebota

S výrazným poklesom priemerného času odozvy klesol (na nulu) aj počet objavených/neindexovaných stránok.

Pozreli sme sa na vývoj rýchlosti stránky aj v Google Analytics. Porovnali sme obdobie od 1. 3. 2022 až 17. 5. 2022 s obdobím 18. 5. 2022 až 31. 7. 2022, aby sme videli, ako vyzerala situácia počas problému a po jeho zmiznutí:

Vývoj rýchlosti stránky v Google Analytics

Vidieť, že priemerný čas načítania stránok sa znížil o takmer 22 %. Pozoruhodné však je, že priemerný čas odozvy servera sa znížil pomerne extrémne o takmer 91 %: z 1,87 s na 0,17 s.

Z tohto prípadu sa zdá, že výrazne zlepšiť metriky rýchlosti webu môže mať pre daný problém zásadný význam.

Diskusia a záver

Problémom, ktorý v rámci Googlu posledné mesiace vnímame (kategória objavené/neindexovné v Google Search Console), je zasiahnutých nemálo webov. A je dôležité s týmto problémom nielen bojovať, ale aj nad ním zvíťaziť.

My sme sa pokúsili pozrieť na problém z hľadiska parametrov rýchlosti načítania či poskytovateľa hostingu ako faktorov, ktoré môžu mať na daný problém významný vplyv.

Prekvapením je, že sme medzi pozorovanými metrikami a skúmaným problémom neobjavili žiadny zásadný vzťah. Nevieme tak poukázať na nejakú konkrétnu metriku, z ktorej sa dá predvídať rozsah skúmaného problému a cez ktorú by sa dal problém riešiť. Problém je zjavne oveľa komplexnejší. 

Najbližšie k tomu môže mať metrika času odozvy servera pri masovom prechádzaní stránok Googlebotom, prípadne iným botom, ktorý sa správa podobne, napr. Screaming Frog SEO Spider. 

No ako sme videli na získaných dátach, nadpriemerný čas odozvy nie je pre niektoré weby dôvodom, aby boli zasiahnuté daným problémom a zároveň vynikajúci čas odozvy nie je pre niektoré weby dôvodom, aby sa daného problému zbavili.

Ak platí, že budovanie odkazov s cieľom indexácie nejakej stránky by nemalo byť rozhodne systematické ako skôr krízové riešenie, zároveň platí, že zmena hostingu by nemala byť prvá voľba a predchádzať by jej mali najmä také zmeny na strane webu a nastavenia hostingu, ktoré viditeľne smerujú k zrýchleniu webu.

Ak sa napriek tomu metriky rýchlosti, ale ani daný problém, výrazne nezmenšujú, potom je namieste zvážiť aj zmenu hostingu. Avšak už pred prípadnou zmenou je dôležité web na novom hostingu otestovať v rôznych nástrojoch s rôznymi metrikami a porovnať ho s webom na starom hostingu, či vykazuje značne lepšie parametre.

Potom zmeniť hosting môže mať pre SEO význam, aj keby sa daný problém výraznejšie nezlepšil.

Ak nám naše dáta priniesli nejaký poznatok, potom je to fakt, že iba prostá a zbrklá zmena hostingu nemusí naplniť očakávania v podobe zmiznutia problému. 

Weby, ktoré tvorili súčasť nášho skúmaného súboru, boli veľmi pestré. Okrem toho, že boli extrémne odlišné z hľadiska množstva stránok či častosti aktualizácií, mali napr. vo veľmi odlišnej miere zapracované odporúčania vyplývajúce z našich SEO auditov.

Pričom práve zlepšovať rýchlosť webu býva už za určitou hranicou v praxi často natoľko náročné, že sa do nej neinvestuje toľko zdrojov a ďalej sa nerieši. Neraz významné limity sú spôsobené aj voľbou CMS a jeho šablóny.

Premenné, ktoré sme do nášho porovnania nezahrnuli, pričom by mohli mať svoje opodstatnenie, je množstvo. Vzniká tu tak zároveň priestor pre ďalšie analýzy a tvorbu nových poznatkov.

Dalo by sa zisťovať, či na daný problém môžu mať vplyv rôzne metriky vypovedajúce o autorite domény. Zaujímavé by bolo sa pozrieť tiež na to, či zvolené CMS a konkrétna šablóna môžu mať na daný problém väčší či menší vplyv.

Poďakovanie

Úplným záverom by som chcel poďakovať našim stážistom, ktorí sa zapojili do zberu dát pre túto analýzu problému, menovite Zuzke Poláčkovej, Sophii Lobpreisovej a Matúšovi Rebrošovi. Bez nich by tento článok nevznikol.