Oct 25 2005

    Le 4 Leggi dei Motori

    Alcuni logotipi di search engineCosa c’entra Flickr con i motori di Ricerca, e che senso ha parlare ancora dei motori di Ricerca se c’é già Google! Beh, secondo me, proprio adesso ha senso parlare dei motori. Ve lo dice uno che NON ne hai mai parlato prima.

    In questa pagina


    - Tutto ciò che conta è l’output (benvenuti i cluster)


    - Se non hai i cluster, aggrega!
    - Gli utenti classificano meglio!

    - Non
    c’è modo di fare usare un motore di ricerca agli utenti
    PRIMA che questo funzioni davvero.

    - Conclusioni




    Introduzione

    I motori di ricerca rappresentano una delle più imponenti
    sfide tecnologiche del mondo ICT. Google, che oramai è la più importante
    compagnia del mondo Internet, ha basato la propria sfida a colossi come Microsoft,
    Oracle, IBM, proprio sul suo motore di ricerca e molte delle tecnologie del
    futuro, dipenderanno da esso.

    Ma come si fa a comprendere quanto "forte" è un motore di ricerca?
    Bhe, a mio parere,
    per
    valutare (o realizzare) un motore di ricerca si devono tenere in
    considerazione i seguenti aspetti:

    • pervasività della ricerca
    • significatività dell’output
    • rapidità della risposta.

    Tecnicamente è complesso realizzare un sistema
    che possa cercare una stringa di testo in tutti i generi di documenti e pagine
    esistenti o su TUTTA la Rete Internet (pervasività), ma è altrettanto difficile
    riportare rapidamente una estrazione di dati significativa. Questo ci porta
    subito alla formulazione della "Prima Legge dei motori".

    TORNA IN ALTO



    Prima Legge dei
    Motori: Tutto ciò che
    conta
    è l’output
    (benvenuti siano i
    cluster)
    Google, monarca assoluto della Rete ha puntato tutto su velocità di
    output e ranking (emergi nell’output quanto più altri siti fanno riferimento
    al tuo). Google non gestisce i cluster, non prova ad essere semantico (discriminare
    tra parole diverse o simili in base al loro significato), quindi -per quanto
    rapido e tipicamente abbastanza accurato-
    NON genera
    alcun output soggetto ad ulteriore raffinamento da parte
    dell’utente.

    L’idea di raffinare un primo output è di per sé abbastanza vecchia e in generale
    NON è una soluzione particolarmente amata dagli utenti. Questo perché
    il raffinare un output il più delle volte significa "capire cosa non ha funzionato" e
    porvi rimedio con un secondo tentativo di search. Il fatto è che questa tecnica
    può risultare faticosa e lenta e che-in ogni caso- questo raffinamento dentro
    ad un sottoinsieme di dati (che esclude tutto quanto non sia stato
    selezionato in un primo search) rischia sempre di tagliar fuori la cosa giusta.
    Insomma, nonostante le migliori intenzioni di chi punta su output raffinabili
    dall’utente, l’ideale è sempre che il motore funzioni "meglio" già al primo
    tentativo e/o che sia il computer a "suggerire" il raffinamento stesso.

    Un buon esempio di come un motore di ricerca possa suggerire all’utente come
    raggiungere ciò che sta cercando è iTunes.
    iTunes è il client di Apple utile a acquistare, organizzare, ascoltare la
    propria musica (e recentemente i propri video) attraverso internet. Se su iTunes
    si cerca una canzone a partire dal suo titolo, verranno subito prodotto un
    elenco completo di tutti i titoli di canzoni uguali (anche parzialmente) alla
    chiave di ricerca usata.

    output della ricerca su iTunes
    Questo output, apparentemente complesso, mostra tutte le possibili occorrenze
    della chiave di ricerca usata, ovvero, "BECK". Così, con un ulteriore singolo
    click, si può facilmente isolare l’autore che si stava cercando, o trovare
    direttamente il disco o il brano in questione.
    Non solo. Dato che su iTunes sono in vendita articoli diversi, è possibile
    concentrare la ricerca a seconda che si tratti di un video, di musica, di un
    audiolibro, podcast, etc.

    Infine, vengono anche suggeriti tutti gli autori che
    hanno composto/cantato quei titoli elencati (e quindi posso cercare una seconda
    canzone dell’autore che non ricordavo come si chiamasse ma che ha cantato la
    canzone dal titolo che ho usato come chiave di ricerca).

    L’esempio di "raffinamento" consentito da iTunes è estremamente
    valido perché NON richiede all’utente di dover comprendere "cosa
    non ha funzionato"
    nella sua ricerca. Non deve essere l’utente ad entrare nella "Logica del
    motore",
    ma è anzi il motore che consente di riconfigurare l’output secondo la
    modellazione dell’informazione più consona ad utenti e contesto. Questo è tanto
    vero, che talvolta gli utenti fanno leva sull’incompletezza della ricerca anche
    per andare alla scoperta di nuovi autori o nuovi formati. Questa capacità di
    iTunes NON è però direttamente estensibile ad un motore
    di ricerca generalista, in quanto iTunes può contare su informazioni
    consistenti e categorizzate a priori, mentre i motori alla "Google",
    no. Il web non possiede come caratteristica intrinseca questa auto-classificazione,
    ne è possibile stabilire delle categorie standard a priori.

    Dunque…
    E’ possibile che un computer comprenda qualcosa del
    significato di un certo elenco di contenuti che genera come output di una
    ricerca, e suggerirne delle classificazioni interne?
    SI e NO. Si, è possibile
    inferire delle ipotesi di categorizzazione interna ad un output usando delle
    categorie naturalmente emerse dall’output stesso. E’ possibile infatti evidenziare
    alcuni "pattern" (occorrenze
    e ricorrenze) e creare dei cluster (insiemi) che di ipotizza possano avere
    un senso per l’utente. NO, nel senso che spesso queste tecniche non funzionano
    adeguatamente ed i cluster emersi NON sono quelli più opportuni o -peggio-
    non hanno senso.

    Per fare qualche esempio pratico di cluster, useremo il mio motore di ricerca
    preferito: http://www.iboogie.com/  

    Se -ad esempio- usiamo come chiave di ricerca un nome e cognome (es. "Leandro
    Agrò"), vedremo che i cluster emersi sono assolutamente NON-standard
    e calati sulla chiave di ricerca usata. Questa pagina di output rimane "valida"
    per circa 15minuti, ovvero un tempo dopo il quale -su internet- potrebbe
    ragionevolmente essere cambiato qualcosa.
    Ecco l’elenco completo dei cluster identificati con
    chiave "Leandro Agrò
    "
    nella ricerca effettuata il 16 ottobre 2005.

    - interaction
    - università
    - sito personale legato alla attività professionale di Leandro Agrò
    - usabilità senza gli utenti
    - 2005 leandro agrò
    - labs
    - comunicazione
    - Master
    - Informazioni
    - Design Network
    - italiano
    - World
    - Comunità
    - Web Design
    - Interface
    - Manager
    - Tecnologie
    - Pagina
    - Domus Academy

    Non tutti i cluster (comunque troppi) hanno senso,
    ma è evidente
    a tutti che non stiamo parlando di web semantico o chissà quali altre
    diavolerie esoteriche, qui è tutto
    merito di iBoogie. Direi quindi che è niente male!


    iBoogie non è unico nel suo genere. Alcuni motori –come Kartoo.com-
    possono essere particolarmente “spettacolari” nella
    visualizzazione dei cluster. Ad esempio, puntate il browser su http://www.kartoo.com/ ed
    usate come chiave di ricera “leandro agro”.

    kartoo.com motore di ricerca con output grafico
    L’output di Kartoo NON è detto che sia il più efficace del Pianeta, ma mostra
    delle interessanti relazioni basate du KEYWORD che LEGANO siti diversi. Es.
    la parola USABILITY (inverde chiaro) lega la chiave di ricerca usata "Leandro
    Agro" al sito di "Ateneo Multimediale", dove -in effetti- ho tenuto parecchi
    corsi di usabilità. …peccato che NON tutte le ricerche di Kartoo.com riescano
    bene…


    Per chi ha un computer Apple con OSX10.4 è uno spettacolo il vedere
    in azione l’ottimo SpotLight!
    Questo è un motore interno all’OS che scandaglia tutti i file (quando
    il processore ha tempo) e risponde a query anche molto parziali.

    La ricerca della parola "Interaction" sul mio mac ha prodotto 1451 risultati,
    ma le aggregazioni proposte da spotlight ne consentono una visualizzazione
    abbastanza ordinata (sempre con la possibilità di vedere TUTTI gli elementi
    di un cluster), e riescono a mettere in evidenza -ad esempio- i file audio
    che stavo cercando o isolare le presentazione powerpoint dal resto dei risultati.

    In pratica funziona secondo la
    stessa logica di iTunes, per cui è possibile escludere/includere dall’output
    della ricerca tutti quei file che abbiano un certo tipo di doc/type (word,
    powerpoint, immagini, etc.), piuttosto che autore, posizione sul disco, data
    di creazione, etc.

    Questo metodo è estremamente efficace, e pur NON
    partendo da dati omogenei, spesso riesce a guidare l’utente con successo. La
    griglia utile ad identificare il file giusto è infatti multidimensionale
    (data,. autore, tipo, etc) e consente di scandagliare rapidamente l’output
    della ricerca ed individuare il file giusto.

    Ok…
    W i Cluster, ma… se non li hai? Allora ci può venire incontro la "Seconda
    Legge dei Motori"!

    TORNA IN ALTO


    Seconda Legge dei Motori:
    Se NON hai i Cluster, allora aggrega!


    Se il "tuo" motore NON è in grado di far emergere
    cluster sensati, allora tanto vale usare l’approccio di A9.com (figlio
    di Amazon) ed aggregare quanti più “search engine” possibili,
    anzi: usare i singoli motori come fossero plug-in del tuo. Vedi esempio:.

    - http://a9.com/%22gianroberto%20casaleggio%22  Questa è la
    pagina di output della chiave “gianroberto casaleggio” cercata su
    A9.com  I check-box in alto rappresentano quali “motori” stai
    usando per visualizzare l’output (ognuno in una diversa colonna).



    Nota –ultimocheck-box- il menu “more choise”, che da una idea
    chiara della scalabilità del sistema.

    Nota anche come –cercando Casalggio- la faccia di Beppe Grillo compaia
    subito accanto a quella di Casaleggio, mettendo in evidenza un legame non noto
    ai più.



    Così come con questa chiave http://a9.com/%22silvio%20berlusconi%22 o
    questa http://a9.com/%22walter%20veltroni%22. Se abiliti il check-box BOOKS,
    trovi tutti i libri che parlano (o sono scritti) da Silvio Berlusconi.


    Insomma, aggregare potrà anche non essere un approccio da primo della
    classe, ma lo sforzo per fare un aggregatore è spesso inferiore a quello
    necessario per generare il miglior motore del mercato e –per assurdo- più scalabile.
    Insomma, con A9 si vince anche se non si arriva primo!

    TORNA IN ALTO


    Terza Legge dei Motori:
    Gli utenti classificano meglio!

    Il sito che in assoluto è fatto meglio al mondo è -a
    mio parere- Flickr.com.  Comprendo
    che sia una affermazione forte, ma ho i miei motivi per dirlo. Ad esempio,
    mai una interfaccia web è stata
    così fluida
    e dinamica. Ma soprattutto, il sistema di classificazione
    basato sui TAG
    s è qualcosa
    di emozionante! Certo, perché funzioni hai bisogno di migliaia (meglio
    se milioni) di contributori che "taggano" senza vincoli tutto e solo
    ciò che gli interessa taggare, ma poi ti si apre dinanzi agli occhi un
    universo nuovo.

    Vedi ‘l’esempio.
    - http://www.flickr.com/photos/tags/  <–
    dietro questa semplice pagina di testo, c’è “live” la
    tassonomia (anzi, la folksonomy) che milioni di utenti al mondo hanno fatto emergere
    naturalmente mentre taggavano ognuno le prorie foto.

    il mondo visto dal web (con Flickr)

    Questo qui di seguito -invece- http://www.flickr.com/photos/leeander/tags/ sono
    io visto -live- attraverso le foto (ed i loro tags) postate su Flickr!



    Una ricerca per TAB dentro Flickr può generare una pagina meravigliosa
    come questa:
    - http://www.flickr.com/photos/tags/flower/

    Oppure si pussono seguire dei cluster (proposti da Flickr in modo
    NON automatico) su argomenti come questo:
    - http://www.flickr.com/photos/tags/neworleans/clusters/



    Nota: in questo articolo mi concentro sui motori e Flickr ne è inerente solo
    per i TAGs, ma questo sito meriterebbe un grande approfondimento anche sugli
    aspetti legati al Social Network… Ribadisco: Flickr è l’applicazione più
    bella del web.

    Aldilà dell’esempio di Flickr, la logica dei TAGs può essere
    usata in aggregatori speciali come –ad esempio- http://www.technorati.com/.  Questo
    sito passa al setaccio blog e siti di mezzo mondo ed estrae –dove vi sono-
    i tag usati per classificare gli articoli/post ivi pubblicati. Ne emerge non
    solo un universo classificato, ma anche (anzi soprattutto) un universo
    in continua mutazione
    . Technorati ha fatto di questa seconda caratteristica
    il suo punto di forza (in pratica dai tags dei siti emergono i cluster di Technorati),
    diventando il punto di riferimento principale per comprendere “cosa
    sta avvenendo sul web right-now
    ”. Il pregio ed il limite di questo
    approccio è che “ciò che
    invecchia scompare”, e dunque se io o altri non postano nulla dove la chiave “leeander” sia
    rilvante, allora la ricerca su technorati apparirà così: http://www.technorati.com/search/leeander.

    Questa verità profonda sulla classificazione dal basso, non è sempre applicabile.
    Banalmente è utile se vi sono grandi numeri in gioco, mentre potrebbe divenire
    sterile se ho pochi item e pochi lettori… Comunque rimane una verità "Nuova".
    Una di quelle "imprevedibili" lezioni che si imparano dalla Rete. Questa terza
    Legge dei motori ha però anche altri limiti. Il più pericoloso dei quali merita
    una Legge a parte: la quarta.

    TORNA IN ALTO


    Quarta Legge dei Motori:
    Non
    c’è modo
    di far usare un motore di ricerca prima che questo funzioni davvero

    Non ho esempi da fare qui, ma solo delle esperienze personali. Con Idearium
    abbiamo introdotto “n” volte dei sistemi di classificazione. Questo
    sia puntando su un lavoro più o meno obbligato che doveva fare l’autore
    di ogni articolo (e che quindi era ben motivato nel classificare un proprio contenuto)
    che lasciando questo incarico alla “redazione”. Il risultato è stato
    lo stesso: un fallimento.

    Le keyword invecchiano. Il linguaggio muta rapidamente.
    Le “chiavi” che erano “hype” ieri, diventano “cool” oggi.

    Le sigle e le tecnologie confondono qualunque tassonomia. Restano quindi solo
    gli “indici dei nomi” e poche altre categorizzazioni che NON necessitano
    del tagging ma esistono in quanto visioni dell’organizzazione stessa.


    Per questo –personalmente- non credo che si possa basare il successo del
    proprio motore su un lavoro sistematico ed a priori che devono svolgere gli utenti.
    Neanche quando questi sono gli autori (o i responsabili) del contenuto.

    L’attività di classificazione degli utenti (folksonomy),
    ha invece un ruolo chiave quando gli si offre loro la possibilità di rendere
    più facilmente trovabili (e nel contesto migliore) i LORO stessi contenuti.
    In
    questo caso, scattano anche tutte le potenzialità tipicamente legate al
    social network, e questi due aspetti si rinforzano creando dei circoli virtuosi.
    La "lezione" profonda è che attorno ai documenti esistono le "relazioni" che
    con essi hanno avuto le altre persone, e quindi anche queste possono essere la
    nostra guida.

    …io sono un fissato di questo concetto che ho definito "Memories of Relations"…
    Ci ho vinto l’ Apple
    Design Project nel lontanissimo 1997
    .

    TORNA IN ALTO


    Conclusioni
    L’annosa questione dell’uovo e della gallina NON è applicabile ai
    motori ed ai suoi utenti. In questo caso, il motore DEVE venire prima dei
    suoi utenti.
    Se mi chiedete qual’è il mio motore preferito, oggi io direi iBoogie.
    Ma se mi chiedete quale genere di motore vorrei per il mio sito, la mia azienda,
    la mia intranet/extranet allora vi dico che punterei su un aggregatore stile
    A9. Questo per "n" buone ragioni, sopratutto la sua modularità/scalabilità,
    che si traduce in:
    - apertura verso approcci specifici, come la possibilità di aggregare un motore
    di immagini in licenza Creative
    Commons

    - supporto di ricerche specifiche, come le foto, le mappe o la bibliografia…

    … e mille altre cose, senza mai dover rinunciare a Google!


    Dentro un aggregatore alla A9.com ci mettiamo tutti gli “elenchi di nomi” che
    gestiamo attraverso DB specifici, ovvero: elenco
    del personale, moduli, elenco
    delle sedi. Ma ci mettiamo anche lo stesso output di motori alla Google,
    quello delle Banche Dati su Leggi & Regolamenti, piuttosto che altri
    elenchi o persino query ad applicazioni terze.


    Inoltre, sempre nel caso dovessi sviluppare/scegliere un motore per la mia società,
    cercherei il modo di interfacciare questo aggregatore con GoogleDesktop/SpotLight
    o altri sistemi che siano in grado di cercare nelle meta-informazioni
    dei documenti PDF, nelle immagini e dei documenti Office. Questo sia per avere
    un solo mondo di cercare i documenti (locali o remoti che siano) ma anche e sopratutto
    per poterne verificare la versione.

    TORNA IN ALTO

    No responses yet

    Comments are closed at this time.