La mappa dell’indicizzazione: quanto ne sappiamo?

In attesa di ritrovare un po’ di tempo per completare un articolo sulla web analytics dal quale sono molto ispirato, ho pensato di scrivere un post quick-and-dirty sulla crescente complessità del fenomeno dell’indicizzazione.

Se c’è un obiettivo che i motori di ricerca hanno finora mancato, è proprio quello della semplificazione dei sistemi di indicizzazione messi a disposizione dei gestori dei siti web. Nel corso degli anni, invece di andare incontro ad una progressiva riduzione degli strumenti e dei metodi a supporto di una corretta indicizzazione dei contenuti dei siti, la complessità è aumentata e a volte gli strumenti diversi fanno pure a cazzotti tra loro.

Ho allora voluto creare velocemente una mappa mentale dei principali strumenti legati alla scoperta delle risorse, alla loro archiviazione da parte dei motori e ai fenomeni direttamente connessi, come la canonizzazione.

La situazione è davvero incasinata e tenete conto che ho escluso volutamente gli strumenti legati a tipologie di servizi di ricerca verticali, quali Google News (che per complessità e quantità di materiale richiederebbe una mappa a sé).

Dategli un’occhiata e ditemi quanti di quei concetti conoscete bene. Sapete amministrare tutti questi strumenti? Sapete quando è il caso di usarne uno piuttosto che un altro? Avete chiare le volte in cui vanno in conflitto tra loro?

Sull’indicizzazione ho già speso diversi post, non tanto perché l’argomento sia a me più gradito di altri, quanto perché ogni giorno Google sforna una novità e lo scenario si complica ulteriormente: è di ieri quella della nuova capacità del motore di eseguire JavaScript e metodi POST per acquisire dati tipici dei contesti AJAX.

Ecco dunque la mappa che ho tirato fuori senza pensarci troppo su:

Mappa delle tecnologie legate all'indicizzazione

Quanto bene conoscete gli strumenti e le tecnologie presenti nella mappa?

Se ho dimenticato qualche aspetto importante direttamente legato all’indicizzazione, non mancate di segnalarmelo nei commenti! 🙂

Aggiornamento: ringrazio tutti per i preziosissimi contributi ricevuti nei commenti, che vi invito a leggere. Ho aggiornato la mappa con alcuni elementi dimenticati ma importanti. Ne ho anche aggiunti di ulteriori, come i ping e alcuni tag o intestazioni HTTP direttamente legate all’indicizzazione. La mappa adesso è ancora più ricca e questo post rimarrà sempre aperto ad eventuali futuri contributi. 🙂

22 Responses to La mappa dell’indicizzazione: quanto ne sappiamo?

  1. Fabio scrive il 2 November 2011 at 21:29

    Ottimo !
    Andrebbe fatto un modello multidimensionale con i fattori temporali ( sia come evoluzione nel tempo che come “speed”), reputazionali ( PR, link diversity ) e sociali ( social signals e rel=author) … ma mi viene come sempre quando mi ci metto un po’ di mal di testa 😀

    • LowLevel scrive il 2 November 2011 at 21:32

      @Fabio: la mappa dei fattori che influenzano il ranking la lascio a qualche volenteroso, io non ci provo nemmeno perché si entra sul terreno dell’opinabile. 😛

  2. Bella mappa, completa e da far girare la testa, una sorta di promemoria per chi fa SEO!

    Concordo con te sul “Mondo Opinabile” per quanto riguarda i fattori che influenzano il ranking… Forse avrei inserito anche “Alt Tag Img” 😉

  3. Francesco scrive il 3 November 2011 at 08:12

    Aggiungerei la funzione “Invia all’indice” presente nei Webmaster Tools di Google alla sezione “Visualizza come Googlebot”.

    Mi è capitato di usarla di recente per aggiornare delle risorse con dei redirect 301: l’update in SERP ha richiesto 6-48 ore.

    • LowLevel scrive il 3 November 2011 at 18:50

      @Francesco: avevo completamente dimenticato la presenza di quella funzione, grazie per l’aggiunta! 🙂

  4. zanna86 scrive il 3 November 2011 at 09:24

    @Enrico: troveresti sbagliato mettere insieme al “POST request” il metatag Keyword?

  5. Stefano Gorgoni scrive il 3 November 2011 at 10:07

    se “Server errors” include anche problemi di performance (del server in sé e del network), mi sa che non manca nulla

  6. Sebastiano scrive il 3 November 2011 at 10:47

    La mappa è stupenda.
    Avrei aggiunto solo una voce (da associare all’URL removal di GWT): lo status code 404.

    Oltre a noindex e x-robots, a volte mi è più semplice ritornare un 404..

    Poi forse un’altra nell’area language, ma mi fermo qua 😛

    S.

    • LowLevel scrive il 3 November 2011 at 18:49

      @Sebastiano: hai ragione, mi conviene espandere quel “Server errors” e specificare un po’ di codici di stato HTTP. Grazie per il suggerimento. 🙂

  7. Luca Bove scrive il 3 November 2011 at 14:27

    In discovery ci sono anche i feed. usati per scoprire link e a mo di sitemap

    • LowLevel scrive il 3 November 2011 at 18:49

      @Luca Bove: Azz… giusto, i feed! 😛 Grazie!

  8. Michele scrive il 3 November 2011 at 15:40

    aggiungerei:
    – l’impostazione “dominio predefinito” del GWT
    – la funzionalità “trasferimento dominio” del GWT
    – tempi medi di download delle pagine da parte dello spider
    – l’attributo src degli iframe
    – i form in generale (quindi non solo quelli POST, ma anche quelli GET)
    – le URL dentro a codice javascript
    – i tentativi di indovinare URL di pagine esistenti
    conoscendo pagine come queste
    miosito.com/pagina.php?id=90
    miosito.com/ricerca.php?search=key1
    miosito.com/directory/pagina.php
    Google potrebbe tentare di recuperare pure
    miosito.com/pagina.php?id=99
    miosito.com/ricerca.php?search=key2
    miosito.com/directory/
    anche se non le conosceva prima (da links ecc.)

    • LowLevel scrive il 3 November 2011 at 18:55

      @Michele: Grazie per le numerose aggiunte! 🙂

      L’unico dubbio che ho è per il “URL guessing”. Ho visto fare URL guessing ad altri motori/spider ma non a Google (tranne in uno specifico e particolare caso riportato da Piersante, legato alla presenza di un form GET). Aggiungerò comunque la voce perché sicuramente lo faceva in passato Yahoo!, ma ne approfitto per chiederti se per caso hai evidenze recenti di URL guessing da parte di Google.

  9. Luca Bove scrive il 3 November 2011 at 20:22

    Davvero complesso alla fine.

    Hai proprio ragione.

  10. LowLevel scrive il 3 November 2011 at 20:48

    Ho aggiornato la mappa con i contributi che mi avete segnalato nei commenti. Grazie a tutti! 🙂 Spero stia venendo fuori una risorsa utile per avere una visione d’insieme della crescente complessità dell’indicizzazione.

  11. simo scrive il 3 November 2011 at 21:10

    dentro discovery ci metterei anche i social networks e l’attività su di essi (commenti ecc.) che potrebbe fare capo all’attributo href in teoria, ma in pratica ha una gestione diversa, oltre alle mailing list (si, esistono ancora).

  12. Michele scrive il 3 November 2011 at 23:20

    @Lowlevel
    Prego 😉 e grazie a te x i tuoi interessanti post.

    Si la “compilazione” di form con metodo GET l’ho vista fare, e c’è pure una dichiarazione ufficiale che la conferma http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html

    Riguardo all’indicizzazione di URL prendendo spunto da altre URL … mi son visto indicizzare tante URL mai linkate, per le quali il server rispondeva (erroneamente) con un OK 200, e anche strani errori 404 nei log di sue richieste. E’ particolare anche la successione delle richieste. Sto parlando di sezioni con molto traffico, e non è frequente.

    La certezza matematica non posso averla, perché mi rimane il minimo dubbio che uno scraper, oppure un altro MDR le cui SERP sono state copiate da uno scraper, o chicchesia abbia indovinato quelle URL e le abbia poi linkate.
    E non escludo neppure miei errori nel linking interno risalente a vecchie versioni e dei quali non mi sono mai accorto.

    Insomma, non ci metto la mano sul fuoco, però credo che l’indovino sia Google.

  13. Stefano Gorgoni scrive il 4 November 2011 at 10:14

    se vogliamo mettere dentro tutti i mezzi possibili perché Google scopra nuovi siti/pagine, dovremmo metterci dentro anche:
    – registrazione nuovi domini (non so se Google riesce a sapere le nuove registrazioni per ogni TLD);
    – codice adsense
    – codice analytics
    – google toolbar

    e non mi meraviglierei se anche un link all’interno di una email che transita per gmail venisse usato da parte di Google…

  14. Piersante scrive il 4 November 2011 at 12:13

    Ciao a tutti.

    Per quello che riguarda il guessing di GG, posso dire di aver visto attività anche intense in determinati casi:

    1) insiemi finiti e conosciuti di parametri (codici ISBN, stati, province e comuni). In questo caso il bot, se trova un 200, continua a fate chiamate sia sul form GET – nel caso dei codici ISBN – che sulle URL – nel caso delle province. Gli effetto non sono sempre negativi, non sempre è un danno. Però vanno seguiti, in caso di siti “automatizzati”, per evitare l’effetto “case al mare in svizzera”.

    2) nei calendari “aperti” e infiniti e nei paginatori che non prevedono il fine corsa. In alcuni casi prendeva tutti gli “eventi” tra gli anni 600 e 3000.

    Di solito GGbot non scazza, ma starei lontano in ogni caso dagli spazi infiniti.
    Slurp invece mi è capitato di vederlo più volte in loop, con effetti anche impattanti sullo sforzo lato server.

    FYI, ciao

    • LowLevel scrive il 4 November 2011 at 16:35

      @Piersante: però mi confermi che, a differenza del caso degli ISBN, per il calendario “infinito” comunque lo spider poteva arrivare a tutte le risorse attraverso link? Finché ci sono link da seguire io non lo annovererei nella categoria “guessing”.

  15. Piersante scrive il 4 November 2011 at 16:46

    @LowLevel

    Inizialmente neanche io, ma poi ho visto che mancavano secoli. Nel senso che trovavo l’anno 627, ma di quell’anno non tutti i mesi.
    Poi ci sono interi decenni che mancano. Nel futuro mi mancavano i 5 secoli prima del 3000 🙂

    Per ora credo sia guessing e non attività sequenziali sui paginatori, ma sono pronto a ricredermi.

    Ho sbagliato a dire “tutti”, dovevo dire molti.

  16. Luca Bove scrive il 21 November 2011 at 09:15

    Lo fa il Guessing. Lofa

    Ho un caso di URL guessing sulla paginazione di un sito molto molto grosso.
    Tutte le categorie (sono molte migliaia) avevano la paginazione. Il sistema era configurato in maniera tale che se chiedevi una pagina non esistente ti restituiva l’ultima pagina reale!
    A un certo punto ho tagliato questo meccanismo infernale e il WMT si è riempito di Error 404 sulle pagine non esistenti (diverse decine di migliaia di errori).
    E non erano linkate dall’interno del sito.

Leave a Reply

Your email address will not be published. Required fields are marked *

More in Just SEO
Continuare a smontare Google: un’altra scoperta SEO

Questo post segue l'esempio di un articolo scritto un po' di tempo fa assieme ai colleghi di SearchBrain: "Come ti...

Close