Proč by někdo chtěl sledovat boty, vždyť nakupují přeci lidé…
To je jistě pravda. Ale vyhledávače rozhodují, kde se váš web bude zobrazovat. A častost procházení sice pravděpodobně není jeden z faktorů algoritmu, ale podobně jako není faktor rychlost webu, ale dwell time, který je často rychlostí ovlivněný už nejspíše ano.
Jednoduše: Vyhledávače upřednostňují relevantní a aktuální obsah. Aktuálnost hodnotí jednak tím, zda jsou na webu změny a také tím, kdy naposled robot obsah viděl (z jakého data má poslední data v indexu). A pokud máte na webu problém s procházením, nebo spoustu zbytečných parametrů, frekvence procházení důležitých stránek se může snížit. Objemu stránek, které bot prochází se říká crawl budget a k optimalizaci crawl budgetu vám měření robotů může přispět.
Kromě toho můžete odhalit případy, kdy vyhledávače na vaše stránky chodí, ale neindexují je – někde je pak zřejmě problém.
Výhoda tohoto řešení je, že není třeba být raketový inženýr – nasazení zvládne téměř každý kodér (je to záležitost 10-30 minut) a výsledky vidíte v Google Analytics. Kde si můžete stránky segmentovat třeba podle kategorií, nebo vaší struktury a pohybujete se v prostředí, které znáte. Oproti logům serveru nemusíte zálohovat data – ukládají se vám do GA automaticky.
Serverové logy jsou přesnější metoda, GA totiž nezachytí vše, nicméně pro 90% webů zcela dostačují.
A teď ke konkrétnímu nasazení.
Léta jsem klienty odkazoval na blog Adriana Vendera, ale vzhledem k tomu, že už několikrát měl výpadky, a skript bylo třeba upravit, rozhodl jsem se aktualizovat informace na svém blogu.
1) Vytvořte si nový profil v GA (nové číslo UA). Nemůžete použít stávající, protože by se vám smíchaly dohromady návštěvy botů a lidí
2) Stáhněte si soubory z githubu
3) Vytvořte složku /gaforsearchbots na vašem webu. Například: www.seoptimista.cz/gaforsearchbots
4) Vložte bots-to-ga do vašeho PHP kódu jako: include_once("/cesta/k/souboru/bots-to-ga.php");
5) Upravte ID v souboru bots-to-ga, aby odpovídalo vašemu nově založenému UA. V souboru nahradíte MO-XXXXXX-YY vaším UA (ale místo UA nechte MO)
Výsledek pak bude vypadat podobně:
Hned několik důvodů:
1) Kontrola indexace
Spustili jste nový web, čekáte na zaindexování a nevíte, zda na něj boti vůbec chodí? Tak teď už víte. Pokud by na web chodili a on se stále neobjevil v indexu, může to značit problém např. s obsahem.
2) Kontrola průchodnosti
Máte v indexu jen některé stránky? Nechtějí se vám některé stránky rankovat? Možná se k nim robot nemůže dostat (třeba jsou za javascriptovým menu).
3) Optimalizace crawl budgetu
Možná vám boti vyhledávačů zbytečně prochází stránky s parametry, které by nemuseli. Jenže některé parametry jsou někdy téměř nenaklikatelné, pokud jste člověk. Zato bot se dostane i do míst, která by vás nenapadla. Teď je objevíte.
4) Optimalizace rychlosti webu
Je možné, že některý bot (a teď nemyslím vyhledávače, ale různé jiné crawlery) chodí na web až příliš často a neúměrnými požadavky na server ho zatěžuje. Zatrhněte mu to. Botů na internetu jsou stovky.
Konkrétní řešení se mohou mírně lišit, podle vašeho řešení webu - skript je postaven pro běžné php, rubisti budou muset vymyslet alternativu.
Za pomoc s testováním skriptu díky Víťovi Michálkovi ze Semoru.