Google supprime les sites des journaux francophones belges de ses résultats

Pour le fond lisez ceci :

Après avoir braconné les médias belges, Google les censure
http://www.tdg.ch/braconne-medias-belges-google-censure-2011-07-16

Google boycotte lesoir.be
http://www.lesoir.be/actualite/vie_du_net/2011-07-15/google-boycotte-les...

Google fait "disparaître" les journaux belges
http://www.lalibre.be/societe/cyber/article/673527/google-fait-disparait...

Au délà de se demander si c'est une bonne idée ou non, si c'est légitime ou non, si l'interprétation du jugement est excessive ou des choses de ce genre, je me pose une petite question technique.

Je me demande simplement pourquoi les producteurs de contenu ne mettent pas en place la procédure standard pour limiter leur contenu dans les moteurs de recherche (et donc y compris de google news), à savoir l'utilisation du fichier robots.txt (cfr. http://fr.wikipedia.org/wiki/Protocole_d'exclusion_des_robots ). Ce fichier permet de demander aux moteurs de recherche de ne pas indexer une partie d'un site internet. Il est même possible d'ajouter des précisions pour quand un article doit être supprimé de l'index (ce qui est utile pour les sites d'actualité qui font payer pour consulter leurs archives). C'est expliqué ici : http://www.google.com/support/news_pub/bin/answer.py?answer=93977

Le soir est carrément dépourvu de ce fichier (allez sur http://www.lesoir.be/robots.txt vous aurez un beau 404), celui de la libre est très limité (http://www.lalibre.be/robots.txt ). Ce qui veut dire que Le Soir, selon les standards admis par tous, laisse entendre que l'entièreté de son site peut être indexé, ad vitam. Il y a bien des balises "meta", mais également très permissives.

On peut débattre de la validité de cette méthode, que le opt-in et le opt-out ce n'est pas la même chose, mais quand même là, je ne comprend pas. La première étape eu été de créer un fichier robots.txt solide et de vérifier que google en tient compte.
Après on peut éventuellement passer en justice.

D'autres infos pour relativiser ce que je viens de dire:
http://forums.searchenginewatch.com/showthread.php?t=9809
http://www.silicon.com/technology/networks/2006/02/02/dell-gets-googled-...

Lisez le jugement de 2006 ici : http://www.copiepresse.be/labo/jugement_copiepresse_google_fr.pdf

Une interview par groklaw de quelqu'un de chez copiepress (en 2006)
http://www.groklaw.net/article.php?story=2006101108382797

Un article sur rue89
http://www.rue89.com/presse-sans-presses/2011/07/16/pour-google-la-press...

Le débat semble plus compliqué que cela, le problème ne venant pas des extraits affichés dans google news, mais le fait que les pages sont archivées "ad vitam" même après retrait du web. On pourrait même questionner le fait que google prend une copie de chaque contenu afin d'alimenter son moteur de recherche. Cette copie est-elle légale? Combien de temps peut elle rester dans les serveurs de google? Qu'en est-il des serveur proxy utilisés par les fournisseurs de contenu internet? Faut-il adapter la législation? Faut-il adapter la technique?

Qu'en pensez-vous?

Update :
Google réindexe lesoir.be
http://www.lesoir.be/actualite/vie_du_net/2011-07-18/google-reindexe-les...