2003
Breve Indagine Su Google
Breve Indagine Su Google
Perchè l'Indagine Su Google?

Il suo comportamento è quello di una multinazionale “classica”.
E' controllato politicamente.
E’ connesso a multinazionali come la Microsoft.
Non rispetta la privacy dei suoi utenti.
L’utilizzo dei dati archiviati non è chiaro.
Il suo funzionamento non è di dominio pubblico.
E’ protetto da Copyright ma tale diritto tutela soltanto Google e non l’utente.
Omette arbitrariamente o limita i risultati delle ricerche (e questo è l’aspetto che più ci interessa)




Aggiornamento 22 Aprile 2004 Resta di stucco, è un Googletrucco!
Paolo Attivissimo pubblica un pezzo su diversi hack effettuabili attraverso google: riporta anche quello della funzione "non tradurre pagina" che segnalai a dicembre su questa "Indagine su Google". A google hack?
Segnalo due miei messaggi del 25 Gennaio sulla lista copywhat. Prova così :-)
[...] Il "trucco" consiste nel banale (ma non troppo) chiedere a google la traduzione di una data pagina nella stessa lingua della pagina.
Google carica così la versione originale integra e intatta
.[...]
Attivissimo scrive:
[...]Per esempio, un sito come Playboy.com può essere oscurato dal filtro per ovvie ragioni, mentre per ragioni altrettanto ovvie Google non viene mai filtrato.[...]
Io ho notato che è prassi consolidata da parte dei webmasters di siti come www.nytimes.com o www.webmasterworld.com fare in modo che google indicizzi la pagina, successivamente viene filtrato tutto il traffico, google compreso.
L'hack su questi siti funziona quindi soltanto se la pagina è stata appena pubblicata.

*A Google hack?
Trovo sia "antinomico" che un motore di ricerca indicizzi pagine alle quali non è poi possibile accedere direttamente: molto spesso però tramite la funzione "traduci questa pagina" di google è possibile attingere ugualmente a informazioni apparentemente inattingibili.
Suppongo che questa possibilità sia già nota...non troppo però.
Questa "procedura" (chiamiamola così) funziona solo su siti che non adottano un sistema di protezione delle pagine eccessivamente "robusto" (la maggior parte)
Non sono in grado di spiegare il "perchè tecnico" di essa, posso però elencare il "come pratico".."l'how to".
* Delle pagine protette da login Google , se il webmaster è stato accorto, non archivia la copia cache (apparentemente)
Nel caso ci capiti, tramite una query su google, di voler accedere a pagine subordinate da un login preliminare possiamo tentare di accedervi in questa maniera:
1) sostituire nella barra degli indirizzi la lingua del client (se la pagina alla quale vogliamo accedere è nella stessa lingua che adotta il nostro browser)
ex: http://www.google.it/search?q=QUERY&ie=UTF-8&oe=UTF-8&hl=it&lr= diventa (cambiando ad ex da italiano a inglese) http://www.google.it/search?q=QUERY&ie=UTF-8&oe=UTF-8&hl=en&lr=
2) Cliccare su "Translate this page"
Nella barra degli indirizzi otteremo http://translate.google.com/translate?hl=en&sl=it&u=SITO-QUERY etc ect
4) Sostituire nel primo parametro en con it , avremo quindi http://translate.google.com/translate?hl=it&sl=it&u=SITO-QUERY etc ect
Aggiornare: con tutta probabilità la pagina protetta verrà caricata, e non sarà una "traduzione di una traduzione": sarà proprio la versione originale.
Ovviamente la procedura è valida per tutte le lingue: è sufficente in breve chiedere una traduzione di un documento a google nella stessa lingua del documento stesso.
* Non posso per ovvi motivi fare esempi.

* Calcolare il page rank di un sito su Google

Su www.motoricerca.info è proposta una metodologia utile al fine di calcolare il page rank di google utilizzando l'immagine gif che google carica accanto ad ogni sito incluso nella sua directory mondiale.(In realtà ne carica 2: pos.gif e neg.gif)
Non mi sono addentrato nella metodologia, che mi pare eccessivamente macchinosa.
Penso si possa calcolare in maniera più intuitiva e immediata semplicemente ponendo una banale equivalenza.
(pos.gif-width): 40=pagerank: 10

ergo pagerank=10 x (pos.gif-width)/40
* Nota 40=(pos.gif-width)+(neg.gif-width)
width=largezza in pixels

* Aggiornamento 4 Aprile 2004: Google PageRank Prediction
Un tool online utile al fine di conoscere il pagerank di un sito senza installare la google toolbar.
Si sostiene che il tool suddetto consenta di predire il pagerank che un determinato sito possiederà al crawling successivo di googlebot.
Il tool sembra funzioni anche con i siti non inclusi nella directory internazionale e sembra funzioni molto bene.

Aggiornamenti Settembre
27 Settembre Su collusion.org si pongono le stesse domande che mi pongo da mesi.
Google potrebbe favorire determinati siti e sfavorirne altri adottando il criterio dell'impostazione politica.
"We rely upon Google to return legitimate answers to our search queries. And its won our trust by returning good results. So far its all good. But Google has the power to alter it search results. It can subtly send people to websites in favor of one political viewpoint. If Google blocks a website, how easily could we find it? Its easy to put something up online, but its worthless if no one can find it. "...One Google To Rule Them All

23 Settembre Soru: Google e Microsoft sono i nemici
In una intervista, il fondatore di Tiscali ci va giù pesante: senza una nuova politica industriale europea saremo tutti utenti di tecnologie e servizi americani
Si sofferma su Google: "Google - ha attaccato Soru - è diventato popolare grazie a un sistema di ricerca che doveva essere neutrale, basato solo su algoritmi statistici. Invece oggi ci dà risultati non in base a chi risponde meglio alle statistiche dell'algoritmo, ma a chi paga di più. Un domani potrebbe essere privilegiato non il sito che paga di più, ma quello più amico, o quello con cui vi è un qualche collaborazione. Paradossalmente si potrebbe arrivare al caso in cui un sito, o i siti di un'intera nazione, non vengano segnalati".
* Google News Italy crawls 250 websites...ma quali?
Non c'è stato verso di capire quali siano i 250 siti sui quali lo spider di Google News Italia compie il crawling.
Non c'è verso di sapere con quale criterio tali siti sono stati scelti.
Nella pagina "informazioni su googlenews" non si accenna minimamente a questo aspetto: fondamentale.
L'unica notizia "positiva" è la presenza tra tali siti di italy.indymedia.org che sembra essere l'unica fonte non istituzionale presente.

8 Settembre Google lancia il servizio news Italia

4 Settembre Google filtra Kazaa: applicazioni del DMCA (un mio articolo su annozero.org)

5 Settembre GoogleNews censura Indymedia San Francisco riguardo la "controversia" Palestina-Israele
La giustificazione di Google "Non indicizziamo siti nazisionisti e indicizziamo soltanto testate giornalistiche"
Nient'altro da aggiungere.
* GOOGLE NEWS BANS SAN FRANCISCO INDYMEDIA OVER ISRAEL/PALESTINE CONTROVERSY
Around March 13 of this year, I discovered that San Francisco IMC was no longer being indexed by Google News. I wrote to them asking why, and a week later they replied that they only index sites which have editorial review. I explained to them that, while we accept all article submissions, we have an active editorial team that reviews articles for our Local/Global section. Volunteer programmers coded a new SF-IMC webpage exclusively for Google which allowed them to index only our reviewed articles. Aggiornamento 8 Maggio Si provi a visitare per un qualche tempo GoogleNews e si segua la sezione sci/tech.Non si potrà fare a meno di considerare quanto, in tale sezione, appaiano di continuo (in maniera ossessiva oserei) notizie riguardanti la Microsoft: le patch rilasciate per i suoi software, le "sviolinature" su quanto sono "carine" le nuove versioni di Windows e via discorrendo.
Non esiste giorno nel quale non appaiano in testa notizie riguardanti il simpatico Bill.Si può davvero parlare di "rassegna stampa automatizzata e assolutamente imparziale"?

Aggiornamento 28 Aprile Ipotesi sul page rank
Sembrerebbe che ogni volta che Google compie il crawling su un sito gli accordi per qualche decina di ore una posizione alta nel risultato delle ricerche, che successivamente viene "aggiustata". (Nei siti importanti è confermata, in quelli meno importanti abbassata)
E' come se Google avesse la "memoria a breve termine"
* Questo fenomeno è detto in gergo "google dance"...niente di strano quindi.
Con il cambiamento dell'algoritmo di google avvenuto a Maggio, e in virtù della maggiore frequenza del crawling tale fenomeno è ancora più vistoso.
(27 Settembre)

Aggiornamento 18 Aprile Googlewash Il motore di ricerca più famoso di Internet è accusato di alterare secondo il proprio interesse i risultati delle query. E' proprio vero che in Rete i contenuti sono incontrollabili?
In questo articolo si afferma, inequivocabilmente, quanto Google limiti la visibilità di pagine web in base a determinati contenuti, una conferma a ciò che inizialmente era un semplice sospetto.
L'ottimo articolo su ZeusNews è un commento a un articolo di un certo Andrew Orlowski, collaboratore dell'Inglese The Register. (Scritto il 3 Aprile...io ho scritto "Boicottare Google" nella seconda metà di Marzo e lo ho pubblicato il proprio il 3 Aprile, il quattro Aprile ho segnalato l'articolo su Zabrinskypoint, il 5 Aprile il mio articolo è stato copiato su Indymedia.)

Breve Indagine Su Google

* Is Google too powerful?
In questo articolo ci si chiede, sostanzialmente, se il potere di Google debba essere gestito da privati.
"Perhaps the time has come to recognise this dominant search engine for what it is - a public utility that must be regulated in the public interest."
E' forse giunto il momento di definire il più importante motore di ricerca per quello che: uno strumento pubblico che deve essere regolato secondo il pubblico interesse.
* Traduco la parte dell'articolo concerente la privacy
Monitorando gli utenti
Google è una compagnia privata statunitense che ha come "policy" il raccogliere la quantità maggiore possibile di informazioni su tutti coloro che utilizzano il a suo strumento di ricerca. Questo archivierà il vostro indirizzo IP, la data, l'ora, le caratteristiche del vostro browser (nonchè quelle del sistema operativo N.D.T.) e le chiavi di ricerca immesse. Introduce nel vostro computer un cookie che non scadrà fino al 2038.
Questo significa che Google costruisce con gli anni un profilo dettagliato delle chiavi di ricerca.
Google sa probabilmente quando avete ipotizzato di essere incinta, che malattie hanno avuto i vostri bambini e quale è il vostro "avvocato di divorzio". (Questo onestamente è un po' eccessivo N.D.T)
Google rifiuta di confessare perchè vuole tutte queste informazioni o di ammettere che potrebbe renderle disponibili al governo degli Stati Uniti per "propositi di controllo". Inoltre la tanto amata Google toolbar spiffera anche l'indirizzo di tutte le pagine che avete visto. (Questo invece è possibile N.D.T)
Domina inoltre il mercato dei motori di ricerca tanto che nessun sito può permettersi di ignorarlo, e indicizza così bene ilo web che pochi utenti pensano di utilizzarne un altro. Il modo nel quale posiziona le pagine è un segreto commerciale, fuori da qualsiasi supervisone esterna.
Se Google decide che non gli piacete potreste essere cancellati dal suo indice.
* Tracking users
Google is a privately-owned US company that has a policy of collecting as much information as possible about everyone who uses its search tool.
It will store your computer's IP address, the time/date, your browser details and the item you search for.
It sets a tracking cookie on your computer that does not expire until 2038.
This means that Google builds up a detailed profile of your search terms over many years.
Google probably knew when you last thought you were pregnant, what diseases your children have had, and who your divorce lawyer is.
It refuses to say why it wants this information or to admit whether it makes it available to the US Government for tracking purposes.
And the much-loved Google toolbar tells Google about every web page you look at.
Yet it so dominates the search engine market that no website can afford to ignore it, and it indexes so much of the web that few users think of using another. The way it ranks pages is a commercial secret, outside any external supervision or control.
If Google decides it does not like you then you can be dropped from the index.

* Traduzione di un articolo su www.linuxsecurity.com
La censura su Google- Come funziona
Google è probabilmente il più famoso motore di ricerca del mondo. Tuttavia, contrariamente all’opinione dei creduloni, in molti casi i risultati sono influenzati da vari fattori di natura politica.
Quindi molti risultati delle ricerche che dovrebbero essere mostrati sono deliberatamente esclusi. La soppressione può essere circoscritta all’ambito locale di una nazione o può riguardare i risultati globali di Google.
Questa rimozione dei risultati è stata documentata per la prima volta in un rapporto di Benjamin Edelman e Jonathan Zittrain sulle esclusioni “localizzate” di Google, che portarono avanti una ricerca su determinati contenuti web censurati in varie nazioni. Più tardi Seth Finkelstein discusse su una rimozione globale determinata da un’intimidazione legata alla pubblicazione della "Guida per molestare Google della città di Chester", nel Regno Unito.
Non ho intenzione ora di criticare in nessun modo il comportamento di Google. Gran parte delle critiche che farò sono legate alla pressione attuata su Google dalle leggi e dal governo, e tale reazione penso sia comprensibile. Piuttosto, documentando e spiegando ciò che accade, tenterò di informare e di innescare una resistenza alla distorsione dei risultati delle ricerche promossi da campagne censorie.
(Nota: ho avuto una qualche difficoltà di traduzione nel secondo e nel terzo paragrafo...sono andato un po' a senso. Ho l'impressione che l'autore abbia utilizzato un registro abbastanza colloquiale.)

* Google Censorship - How It Works
Published By: Seth Finkelstein
Posted By: Eric Lubow
3/17/2003 10:21
Google is arguable the world's most popular search engine. However, contrary perhaps to a naive impression, in some cases the results of a search are affected by various government-related factors. That is, search results which may otherwise be shown, are deliberately excluded. The suppression may be local to a country, or global to all Google results.
This removal of results was first documented in a report Localized Google search result exclusions by Benjamin Edelman and Jonathan Zittrain , which investigated certain web material banned in various countries. Later, this author Seth Finkelstein discussed a global removal arising from intimidation generated from the United Kingdom town of Chester, in Chester's Guide to Molesting Google .My discussion here is not meant to criticize Google's behavior in any way. Much of it is in reaction to government law or government-backed pressure, where accommodation is an understandable reaction if nothing else. Rather, documenting and explaining what happens, can inform public understanding, and lead to more informed resistance against the distortion of search results created by censorship campaigns. Click here to go to this article.

* GoogleWatch
"A look at how Google's monopoly, algorithms, and privacy policies are undermining the Web." (Uno sguardo di come il monopolio di Google, il suo algortimo e le sue policy riguardo la privacy stiano minando il web.)
Ai web master di questo sito Google sta davvero poco simpatico, e la cosa sembrebbe reciproca: infatti il fatto che alla query "google-watch" Google risponda mostrando il sito in questione non implica che risponda "correttamente" in altri casi e non escluda www.google-watch.org/ quando invece dovrebbe mostrarlo.Ad ex con le query "censored by google", o ancora meglio "google censorship" www.google-watch.org dovrebbe apparire nelle prime posizioni: ciò non accade: è totalmente omesso!

*Google as Big Brother- Google come il Grande Fratello, sempre sul sito in questione...non si fa certo riferimento al cretinissimo programma televisivo.
www.googlewatch.com è un lavoro eccellente, purtroppo ho impiegato 15 giorni per scoprirne l'esistenza, e questo dovrebbe essere eloquente riguardo i concetti che sto cercando di esprimere...anche se qualcuno potrebbe sostenere: sei semplicemente un imbranato...
* E' opportuno soffermarsi sul settimo punto del decalogo degli "outs" di Google proposti in questa pagina: la copia chache.Google è Copyright, addirittura il suo marchio è stato eletto "marchio dell'anno", però Google fa di ogni pagina indicizzata una copia, ovviamente senza l'autorizzazione dei suoi autori, quindi, in linea di principio (molto di principio, pure troppo) o Google abbraccia la filosofia del Copyleft o cancella le pagine cache.(Il servizio della copia cache è indubbiamente un servizio utilissimo: ad esempio molti siti sequestrati, e recentemente è capitato, sono stati "ripescati" proprio grazie alla cache di Google, utilità che si ripresenta anche quando un sito è off-line per un qualche motivo, e i siti "antagonisti" considerate le sparute risorse di banda e di servizi lo sono spesso).
Sul problema Copyright-Copyleft in Google ci sarebbe da discutere in maniera più approfondita, non è mia intenzione farlo ora.

* Power Laws, Weblogs, and Inequality
In questa pagina si parla inequivocabilmente di come ai siti personali sia forzatamente abbassato il page rank. Se tale "forzatura" era in me soltanto un ipotesi ora si può cominciare a parlare di "legittimo sospetto". (La pagina è citata da Googlewatch)

* Google Time Bomb Will Weblogs ruin Google's search engine?
In questa pagina si parla dei weblogs, il fatto che i bloggers aggiornino spessissimo i loro siti portando avanti la pratica del deep link potrebbe influenzare le ricerche di Google. Affinchè ciò non accada Google filtrerà i siti personali, dando loro meno visibilità.
Questa policy, come già si è detto, è con tutta probabilità già messa in pratica da Google.
Lo stesso page rank per come è strutturato si muove in questa direzione.
Il "page rank" di Google infatti favorisce i siti "famosi", ovvero i più linkati da altri siti.
Ogni link da un sito A ad un sito B è valutato come un voto, e il rank sale.
Inoltre: la segnalazione da parte di un sito "autorevole" vale più di quella di uno "meno autorevole", ben pochi evidenziano quanto però la segnalazione da parte di un sito bannato determini un tracollo nel page rank stesso, quasi nessuno parla della possibilità che l'essere linkati da siti "poco autorevoli" (anche se non bannati) determina un abbassamento del page Rank: questo è un ottimo modo per tenere arbitrariamente sotto un determinato livello di visibilità i siti personali o legati a piccole associzioni: tutti i siti "antagonisti" eccetto Indymedia e qualche altro. (La visibilità dei quali non può essere intaccata dai motori di ricerca)
Ecco perchè, malgrado sia tanto celebrato come "democratico" il page Rank non è altro che la legge del più forte...che poi andando a vedere bene è proprio la legge della democrazia!

* Elenco dei siti bannati da google
L'elenco è ovviamente di quelli che hanno segnalato il fatto di esser stati censurati.
La maggior parte dei siti in questione sono inequivocabilmente siti con contenuto razzista, sessista o "ista" di qualcosa. Il problema etico della censura non viene con questo risolto.
Anche perchè, per un lungo periodo, Google ha censurato, sotto pressione della setta Scientology, il sito www.xenu.net, un sito polemico, una polemica ampiamente condivisibile e sottoscrivibile, nei confronti della setta stessa.
* Google was accused Wednesday of effectively removing from the Internet a Web site that is critical of the Church of Scientology after it deleted links to some of the site's pages from its search engine.
* In questa pagina sono elencati decine di siti che parlano dell'argomento: la censura di www.xenu.net è soltanto uno dei casi più vistosi.
* Un'altro "sufficientemente celebre" è la censura di ww."s"tormfront.org....digitatevelo da voi nella barra degli indirizzi: ve lo sconsiglio. (Togliete le virgolette alla "s" e aggiungete la terza w...linkare siti bannati abbassa il page rank, e il mio è già basso!)

* Serch Microsoft related site with google.
La pagina di ricerca su Google dedicata esclusivamente alla Microsoft. Google fa forse lo stesso per Linux?
Eppure il cuore di Google è costituito da 5000 computers sui quali è intallato Linux!

* GoogleNews.
La rassegna stampa "automatizzata" di Google è un buon modo per monitorare gli eventi che sul web hanno, quotidianamente, maggiore visibilità.
Anche su tale servizio di Google c'è però da recriminare: anzitutto perchè è chiaro quanto dia precedenza alle testate che offrono i loro articoli a pagamento.
Inoltre: le testate sulle quali googlebot (lo spider di Google) lavora sono tutte "istituzionali", l'ambito "antagonista" è totalmente omesso.

*Google toolbar exposes PCs to attack
Researchers say the popular toolbar for Internet Explorer allows attackers to read local files and execute malicious commands
La Google toolbar espone il Pc ad attacchi esterni.
Alcuni ricercatori affermano che la popolare toolbar per I.E. permetterebbe a un maleintenzionato di leggere i file del pc sulla quale è installata e di eseguire comandi (dannosi e non)
Questo può accadere perchè la Google Toolbar è concepita quasi come un trojan di Google stesso.

* E' possibile fare richieste "particolari" a Google per alterare il suo funzionamento?
E' possibile in breve "spedire" a Google qualche richiesta "ambigua" che lo mandi in panne forzandolo a comportarsi in maniera "strana"?
L'autore di questa pagina, un certo Dean Allen, promette che tramite il suo css è possibile fare in modo che se una determinata pagina è raggiunta tramite Google è possibile evidenziare al navigatore le parole chiave che ha digitato. (Più o meno quello che accade quando si apre un documento Pdf su Google e si sceglie la versione Html)
Questa è l'unica pagina che ho trovato e che, in senso lato, può essere definita un "hacking" di Google.
(Non ho provato l'effettivo funzionamento)

* Questa pagina l'ho trovata proprio tramite la query "hacking google", ma da "hackers" ha ben poco.
Si porta avanti un gioco imbecille: si cercano coppie di parole che, immesse nel form di ricerca di Google, determinano come risulato una singola pagina.
Non è casuale che il sottotitolo del sito reciti "The search for the one"
Considerando anche che "have a whack" nel linguaggio colloquiale equivale a "tentarsela" i propositi di questo sito dovrebbero essere ben chiari, sebbene non abbiano praticamente nessuna utilità pratica.(Una la potrebbero anche avere...ma sarebbe una specie di spamming)

Casa Google
* Ma che simpaticoni!

* WHO'S BEHIND GOOGLE Chi sta dietro Google...non aspettatevi di trovarci il governo degli Stati Uniti.

* Qui si può trovare il database “stabile”.

Altre pagine
* Motori di ricerca p2p.
Esistono diversi progetti che si muovono in questa direzione. Accanto al già citato Widesource è interessante citare Looksmart, che però propne la funzione "submit a site" a pagamento...davvero poco "open source".

Searchengineethics.comè un buon sito sul funzionamento dei motori di ricerca in questa pagina si parla di Google e del suo celebre algoritmo.
Interessante il demistificare diversi miti che circolano sui motori di ricerca, tra i quali il fatto che ne esistano migliaia: 15-20 motori di ricerca controllano il 90% del web e tutti gli altri fanno riferimento, in ultima istanza, ad essi.