lunedì 14 aprile 2008

CAPITOLO SECONDO

DALLA RICERCA BIBLIOGRAFICA ALLA RICERCA EMPIRICA
2.1 Strategie, tecniche e strumenti della ricerca in internet

2.1.1 Premessa

L’informazione che troviamo in rete è immensa e molto varia, il termine usato è “information overload” (sovraccarico informativo) che sta ad indicare l’enorme quantità di dati e informazioni disponibili in rete.
Il rischio di perdersi in questa quantità “fluida” di informazioni è molto forte. Diventa quindi assai complesso reperire le informazioni necessarie e selezionarle, valutando sia l’affidabilità che la qualità.
Tuttavia la ricchezza informativa di Internet è elevata e, per sfruttarla al massimo, ci sono tecniche e strumenti che possono aiutarci.

Di seguito riportiamo, sintetizzandole, alcune interessanti specifiche necessarie per un corretto utilizzo di quanto Internet offre.


2.1.2 Analisi del proprio fabbisogno informativo

Il primo passo per effettuare una ricerca consiste nel “definire il più coerentemente possibile ciò che si intende sapere” (Mirella Hermann, data). La tecnologia ci rende impazienti e, se nel giro di poco tempo non riusciamo subito a trovare ciò che vogliamo, cadiamo nel “web-rage (frustrazione), che ci assale dopo aver navigato tra siti e motori e aver perso tempo in ricerche inutili.

Dobbiamo quindi tradurre il proprio linguaggio in un linguaggio di interrogazione ed in modo che sia comprensibile dal sistema. La difficoltà è nel contrasto tra due elementi, ovvero il linguaggio naturale, cioè la flessibilità del cervello umano e la rigidità di un sistema informatico.
La definizione dell’oggetto implica la definizione dei termini più importanti che esprimono il concetto che intendiamo cercare. Pertanto bisogna ricercare il giusto livello di specificità, cioè precisione e richiamo.
E’ illusorio pensare che si riesca a trovare soltanto i dati e solo quelli che ci interessano per la nostra ricerca.
· RICHIAMO: è l’indicatore della sensibilità, è un rapporto tra i documenti rilevanti recuperati e quelli presenti in una banca dati
· PRECISIONE: percentuale dei documenti pertinenti rispetto a quelli recuperati.
Pertanto dobbiamo essere noi a privilegiare l’uno o l’altro indicatore.
Quanto più precise e dettagliate sono le parole chiave, tanto più i risultati saranno soddisfacenti. Inoltre, dobbiamo considerare che i motori di ricerca valutano l’ordine con il quale le parole sono riportate: le più importanti sempre all’inizio.
Ci sono poi delle “funzioni avanzate” che variano da strumento a strumento e permettono una ricerca più precisa FUNZIONI BOOLEANI (OR – NOT - AND). Oppure possiamo estendere il campo della ricerca con il troncamento. Alcuni operatori presentano delle opzioni dette “filtri”, che permettono cioè di limitare la ricerca per DATA e/o LINGUA.


2.1.3 Tipologie di strumenti da utilizzare per la ricerca

Dobbiamo distinguere tra directory e motori per termini.

Motori per termini: motori di ricerca, questi strumenti permettono l’interrogativo diretto con parole chiave scelte dall’utente.
Come funzionano? Ci sono dei software detti spider che girano per la rete individuando pagine web e raccogliendole in grandi archivi, che sono poi indicizzati in base ad una selezione per termini. I risultati possono essere molto numerosi e poco strutturati = strumenti ad alto richiamo e bassa precisione. All’interno di questa mole di risultati c’è un indicatore: la rilevanza. Infatti saranno presentati prima i siti più rilevanti per la nostra ricerca. La rilevanza è ottenuta da una serie di algoritmi che analizzano insieme diversi fattori (frequenza del termini nella pagina, densità della parola, aggiornamento delle pagine). Alcuni motori orientano la ricerca su criteri di “popolarità” e “autorevolezza” considerando cioè il numero di collegamenti che riportano ad un sito. Maggiore è il numero di link in ingresso migliore è il suo posizionamento nelle prime pagine. Una pagina diventa importante se molte pagine importanti rimandano a questa. Un’altro indicatore è il “pay for placement”, cioè pagare per esser posizionati in un buon posto.

Directory: questi indirizzano verso siti preselezionati, presentati con una struttura ad albero (macrocategorie si dipartono per menù successivi le varie ramificazioni). Strumenti a basso richiamo ed alta precisione.

Virtual library: il confine tra questo e la directory è incerto. I criteri di selezione sono più scientifici. E’ come una biblioteca reale. La certezza che vi siano inseriti tutte le risorse di qualità non c’è. Altissima precisione richiamo medio- basso. Questi rappresentatno il punto di partenza per la ricerca più affidabile ed efficace. Naturalmente si deve tenere conto che non tutte le risorse sono inserite.

Metamotori: questi strumenti permettono di interrogare più motori di ricerca contemporaneamente con una sola operazione. Non hanno un loro database, ma sottopongono la ricerca a database di altri motori. Il principale difetto è che ci possono essere duplicazioni, in quanto non viene fatta una selezione e le funzioni utilizzate devono essere in comune in tutti i database.

Portali: Herrmann non riporta una definizione precisa di portale e sottolinea che è molto ambigua la sua definizione. In origine i portali erano di tre tipologie che si diversificavano per il loro business:
· Internet provider: cercavano di diventare punti di riferimento per molte persone così da attrarre investimenti pubblicitari (America Online, Italia online)
· Le case produttrice dei browser (Netscape, internet explorer) avevano milioni di utenti, ma i browser, benchè indispensabili per la navigazione erano distribuiti gratuitamente
· Siti di ricerca: (altavista, Excite) nati allo scopo di aiutare gratuitamente le persone, ma al loro interno avevano pubblicità per cui non volevano essere abbandonati troppo velocemente.

Ecco che PORTALE vuol dire “PORTE DI INGRESSO PER LA RETE”: offrono servizi molto vari, esigenze informative quotidiane, motori di ricerca per termini, notiziari, quotazioni borsa.
I portali possono essere orizzontali e verticali: i primi sono “generalisti”: notizie generali, i secondi sono più orientati verso settori specifici, su aree tematiche definite. Questi possono essere utilizzati se la nostra ricerca deve essere organizzata e strutturata, perché questi sono strutturati proprio così. Le risorse selezionate però non sono mai “neutrali”, ma rispondono ad una logica commerciale precisa.

Web invisibile: è una parte del mondo web non accessibile dai motori di ricerca, in quanto custodito all’interno di banche dati, o realizzato in particolari formati PDF, e con siti che richiedono un’autorizzazione all’accesso. Per capire la differenza tra web visibile e invisibile, bisogna comprendere la definizione tra pagine web “statiche” o “dinamiche”. Le pagine statiche sono prodotte in linguaggio HTML, forniscono le stesse informazioni a tutti, chiunque visiti il sito e costituiscono il web visibile. Le pagine web dinamiche sono generate dal server al momento della richiesta. Pertanto le informazioni sono personalizzate al momento della richiesta dell’utente. Non sono indicizzabili e costituiscono il web invisibile.

Liste e newsgroup: sono un tipico mezzo di scambio in ambito accademico, di condivisione di notizie ed opinioni. Le liste si muovono su un programma ed una volta inviato un messaggio questo lo distribuisce a tutti coloro che sono iscritti alla lista. Mentre nei newsgroup il messaggio è affisso in una bacheca e consultabile da tutti gli iscritti.. La qualità delle informazioni è varia. L’informazione che circola in questi canali fa parte della così detta conoscenza implicita e grande fonte di creatività e impulso di idee. Inoltre possono essere reperiti informazioni inconsuete, poco richieste oppure censurate da siti ufficiali.

Oltre ai dati tecnici e più specifici riportati sopra riteniamo importante anche presentare alcune riflessioni in merito all’utilizzo di tali strumenti.

Pericolosa tendenza è stata l’introduzione di logiche puramente commerciali nel funzionamento dei motori di ricerca. La formula “plaid placement”. Un sito può pagare e assicurarsi un buon funzionamento. Pagando di può essere inclusi in una directory, indicizzati più rapidamente. Più corretti sono i “sidecar ads” utilizzati da Google, e cioè le inserzioni a pagamento sono inseriti a lato della pagina, senza influenzare il motore di ricerca.

Questi motori si stanno sempre più raffinando, e sempre più cercano di essere rilevanti. I motori più recenti stanno puntando sulla semplicità e linearità. Si stanno effettuando continue ricerche anche per perfezionale l’efficacia delle ricerche. Tecnologie che consentono di ridurre errori sintattici, per scandagliare il web in maggiore profondità.

Si elaborano complessi algoritmi per ottenere risultati sempre più precisi, ciò si ottiene con un intervento umano sempre più importante.
Per chi non vuole attendere ci sono sitit che effettuano ricerche su commissione, a pagamento o gratuitamente. Alcuni motori si sono orientati su tecniche di “linguaggio naturale”, in cui si può formulare una domanda come ad un interlocutore umano.

La frontiera è nel riconoscimento della parola chiave “semantic web” ( AltaVista). Inoltre si sta anche lavorando per fornire risultati “localizzati” ( p.e. football risultati diversi tra un ricercatore statunitense o italiano)

Non esiste una strategia per la ricerca e solo l’esperienza può aiutarci a trovare il nostro percorso. Se si cercano informazioni su un argomento generale conviene ricorrere ad una directory, quando non abbiamo un termine preciso, ma conosciamo l’ambito dove cercare. Se invece cerchiamo informazioni precise o particolari documenti è opportuno utilizzare un motore. (p.e. se cerco un ente conosciuto utilizzerò una director, ma se l’ente è meno noto allora un motore).
Riportiamo, infine alcune descrizioni di: MOTORI, METAMOTORI, DIRECTORY

ALTAVISTA: è uno dei primi motori, e consente di sondare oltre al web anche i newsgoup. Si può raffinare la ricerca con i filtri OR NOT AND.

GOOGLE: il motore di ricerca per eccellenza ( due ricercatori Università di Stanford): utilizza due tecnologie: la rima analizza i termini indicizzati, la seconda quella brevettata Page Rank, cioè inserisce nella prima pagina i siti che ricevono il maggior numero di collegamenti

COPERNIC: metamotore: la versione 2000 è scaricabile gratuitamente ed offre la possibilità di effettuare ricerche su più motori.

YAHOO: directory

Nessun commento: