Gloria Origgi

Gloria Origgi

Recherches sur Internet

La Rivista dei Libri, décembre 2003

(Traduction de l’original en italien de Anne-Marie Varigault)

Si nous voulions tirer le bilan de l’impact d’Internet en ce qui concerne notre vie sur le plan de la culture et de la recherche, nous pourrions résumer une partie de l’histoire comme une série de promesses et de menaces non tenues. Les livres et les papiers n’ont pas disparu de nos tables, nous cherchons encore sans relâche des éditeurs pour nos manuscrits et le fait que des textes qui portent notre nom errent librement dans le cyberespace ne suffit pas à nous rassurer sur notre pérennité. Les différences linguistiques n’ont pas été anéanties par une langue anglaise qui dominerait le réseau : pour 215 millions d’usagers anglophones, il y a aujourd’hui plus de 400 millions d’usagers non anglophones[1] et malgré le développement de l’éducation supérieure à distance (dans les seuls Etats-Unis les quelques 1500 institutions universitaires qui offraient des enseignements on line en 1999 devraient devenir 3300 d’ici 2004)[2], les amphis sont remplis d’étudiants et les manuels imprimés circulent encore sur les bancs et dans les bibliothèques. Et ce n’est pas tout : les coûts des abonnements en ligne aux publications scientifiques sont restés prohibitifs, comparables aux coûts des éditions papier, et les universités et les institutions de recherche et de documentation se différencient encore aujourd’hui par l’investissement économique qu’elles sont en mesure d’assumer pour offrir à leurs membres l’accès à la documentation scientifique. Le libre accès aux publications scientifiques en ligne est une bataille en cours[3], mais il suffit de consulter le Directory of Open Access Journals ( http://www.doaj.org) pour se rendre compte que, parmi les plus de vingt mille revues scientifiques avec un comité de lecture existant au monde, peu se sont engagées sur le chemin d’un accès libre et totalement gratuit. Même des projets éditoriaux comme JSTOR (www.jstor.org) - un fichier de revues de sciences humaines, sponsorisé par la Mellon Foundation dans le but de réduire les coûts de stockage dans les bibliothèques des anciens numéros des périodiques, en assurer la conservation et en améliorer la facilité d’accès - ou comme PubMed Central ( www.pubmedcentral.nil.gov) - un fichier digital de revues de médecine et biologie - restent un compromis entre les intérêts des chercheurs et ceux des éditeurs : outre la nécessité d’apporter du crédit à sa propre institution grâce à un abonnement, JSTOR protège les intérêts des éditeurs de revues scientifiques en garantissant un intervalle de temps considérable entre le dernier numéro disponible sur le fichier en ligne et le numéro le plus récent de la revue publié par l’éditeur (généralement entre 3 à 5 ans). L’initiative de PubMed a reçu pour l’instant les adhésions d’un petit nombre de journaux, qui souvent ne publient qu’une partie des articles. Les journaux qui sont complètement en libre accès sont édités par la maison éditrice associée à PubMed, à savoir BioMed ( www.BioMed.com) et ne constituent pas toujours des titres de référence pour les chercheurs.

La liste pourrait continuer sans fin : le « livre pyramidal » annoncé par l’historien de la culture Robert Darnton dans son célèbre article publié par The New York Review of Books[4] , prévoyait une transformation substantielle de la monographie scientifique en une hiérarchie de niveaux, dont le plus superficiel pouvait être imprimé et distribué, laissant au contraire à l’édition digitale les niveaux plus profonds, comprenant les appareils critiques, les notes, les appendices. Eh bien, le livre pyramidal ne s’est pas réalisé et notre utilisation des textes sur Internet manifeste au contraire la tendance opposée : recherche rapide d’un passage sur le réseau, sans contrôle excessif de la qualité et de la fiabilité des sources, et vérification des appareils dans les éditions critiques renommées (et publiées sur papier)[5].

Cependant - et ceci est l’autre partie de l’histoire - personne ne peut nier que le monde de la recherche a été radicalement changé par l’avènement de Internet. La recherche n’est plus la même et pas seulement la recherche: toutes les pratiques qui accompagnent la vie scientifique - la consultation des sources, l’organisation du savoir, le système disciplinaire, le contrôle de la qualité scientifique, l’enseignement, la construction de la réputation scientifique - ont subi une mutation profonde qui mérite une analyse détaillée.

En quoi la recherche a t’elle changé ? Quelles sont les mutations substantielles et quelles sont celles qui relèvent seulement de l’habitude ? Quels sont les avantages ? Quels sont les risques ?

Dans la dernière décennie, la production, la transmission et la conservation du savoir scientifique ont subi à une échelle historique un changement tellement radical et tellement rapide qu’il a mis en question toutes nos institutions culturelles. La combinaison de Internet et du World Wide Web - c'est-à-dire le protocole développé en 1990 pour la visualisation et l’interopérabilité des documents sur Internet - a permis de déverser une quantité de données bibliographiques, d’articles scientifiques, d’articles encyclopédiques, de classiques de la pensée, de répertoires, de systèmes de renvois à travers les hyper liens, et d’autres textes de nature variée, en un seul répertoire actif et potentiellement infini d’informations connectées entre elles.

Ceci nous porte à réfléchir à la façon dont a changé l’activité intellectuelle, cognitive, « à l’intérieur » de nos têtes de chercheurs et de lecteurs en même temps qu’à la façon dont ont changé les supports de l’information et les valeurs que nous associons traditionnellement à leur accès et à leur consommation. Je donnerai quelques exemples de ce changement en me référant principalement aux sciences dites humaines, mais on peut en étendre la plupart des conclusions à toute la recherche scientifique.

Une grande partie de l’activité de recherche dans les disciplines humanistes comme l’histoire, la philosophie, la critique littéraire etc. est une activité de « filtre » de l’information déjà produite sur un certain sujet. Nous pourrions définir la culture elle-même comme la construction et l’institutionnalisation de « filtres », c'est-à-dire de systèmes de sélection et de récupération de l’information : les experts, les académies, les journaux, les maisons d’édition, les bibliothèques ne sont rien d’autre que des condensés institutionnalisés de l’activité culturelle de filtrage et de récupération de l’information. Comme disait Umberto Eco dans un court essai où il expliquait aux étudiants comment écrire un mémoire, l’université ne sert pas tant à acquérir des informations que des méthodes et une méta connaissance pour « naviguer » sur la culture[6].

Internet est une révolution culturelle profonde parce qu’il ne change pas simplement notre accès au corpus du savoir, mais il change nos filtres, nos méthodes de récupération de l’information. Dans l’ère de Google, une des activités cognitives principales de la gestion de connaissance, la méta mémoire, soit cet ensemble d’heuristiques apprises culturellement - des rimes aux index analytiques - qui nous permet de récupérer les informations du corpus culturel, devient automatisé et réalisé, au moins en partie, à l’extérieur de nous. Je ne cite pas Google par hasard. Google est un moteur de recherche de seconde génération : à la différence des premiers moteurs de recherche, comme Lycos ou Altavista qui établissaient la hiérarchie des résultats d’une recherche par rapport à la récurrence des mots clés dans les pages Web, l’algorithme de Google calcule le résultat d’une recherche en utilisant comme information la structure des liens à travers les pages : si une page reçoit de nombreux liens d’autres pages, alors elle émerge dans la hiérarchie des résultats. La structure des liens contient une énorme quantité d’informations sur les connaissances des utilisateurs du Web. L’extraction de cette connaissance implicite de l’intrication des liens à travers les pages Web est un des résultats scientifiques les plus significatifs de la recherche informatique des dernières années[7].

La structure des liens, produite culturellement par les choix individuels des créateurs de pages Web, est interprétée par les algorithmes de recherche comme une hiérarchie des valeurs à travers les pages : chaque lien de la page A vers la page B est un vote que la page A exprime à propos de la page B. La hiérarchie des résultats influencera à son tour les choix des utilisateurs en un cercle vertueux de collaboration entre humains et automates.

Google exploite donc notre cognition et réalise en même temps notre fonction cognitive, celle de la méta mémoire, qui nous permet de récupérer un morceau d’informations dans le filet aux mailles serrées de notre culture. Si vous n’êtes pas persuadé que la division du travail cognitif entre les machines et les humains est rendue possible par les moteurs de recherche, et que vous pensez que le filtrage et la récupération de l’information sont des activités éminemment humaines et culturelles, que l’on ne peut demander aux automates artificiels, essayez de vous connecter au site Google News (http://www.news.google.com): Google News est un algorithme qui filtre les nouvelles du monde entier en utilisant toujours l’information contenue dans la structure des liens d’un site à un autre. La nouvelle mondialement la plus « cliquée » arrive donc automatiquement en première position. Confrontez maintenant la première page de Google News, mise à jour automatiquement en continu, avec la première page d’un journal international, le Herald Tribune par exemple. Eh bien, vous verrez que la distance n’est pas si grande, et, même plus, que Google News évite les nouvelles tendancieuses, qu’un journal peut avoir décidé de publier en première page pour des raisons qui vont au-delà du simple devoir d’informer.

Une activité culturelle, comme celle de récupérer et de filtrer de l’information, est réalisée grâce à un échange réciproque d’informations entre humains (tous ceux qui créent un lien d’une page à une autre) et automates (les algorithmes qui lient la structure des liens). La compénétration de la technologie, de la cognition et de la culture est tellement profonde dans ce cas, que nous sommes contraints à repenser à la nature même de notre activité intellectuelle. D’une certaine façon, l’intelligence artificielle à laquelle on rêvait il y a quarante ans s’est réalisée, mais sur des bases complètement différentes de celles que nous attendions : non le cyborg moitié humain et moitié artificiel qui avait fait rêver les pères de la cybernétique, mais une intelligence collective hybride où le savoir généré par les automates ne pourrait exister sans la production continue et spontanée de culture faite par les êtres humains, production qui est en même temps influencée par le filtrage automatique de l’information.

De quelle façon l’activité de recherche est-elle transformée par les nouvelles techniques collectives de filtrage et de récupération de l’information ? Donnons-en quelques aperçus. Il m’arrive souvent d’écrire des articles interdisciplinaires, par exemple à cheval sur la philosophie et les sciences cognitives. Dans un système traditionnel de classification et de filtrage de la culture, je devrais décider à priori à quelle publication destiner mon article, risquant ainsi de perdre l’audience des philosophes si je le publie dans une revue de sciences cognitives et vice-versa si je choisis une revue de philosophie. Mais un texte dans le cyber espace, qui soit un portail de revues accessibles en ligne, dans ma page Web personnelle, dans le fichier en ligne de mon institution ou dans quelque fichier électronique d’accès public ( voir par exemple le fichier COGRINT - http://cogprints.esc.soton.ac.uk - pour les publications en sciences cognitives) pourra de toutes façons être atteint par tous ceux qui sont intéressés par le sujet à travers une recherche avec des mots-clés. Les moteurs de recherche rompent les classifications rigides de la recherche traditionnelle, les a priori historiques qui orientent le savoir et stabilisent les objets possibles de connaissance à une époque donnée, et réorganisent le matériel scientifique en structures plus légères, assemblées temporairement selon l’objectif précis du chercheur et mises à jour en continu.

Les sceptiques diront que je suis en train de dépeindre une image idéalisée de comment devraient fonctionner les moteurs de recherche dans le meilleur des mondes possibles et que, en réalité, la découverte des sites dépend de leur référencement, qui est sujet à des stratégies commerciales, c'est-à-dire que plus on paie, plus on sort dans la hiérarchie des résultats. Mais tentez de faire une recherche avec les mots clés « neural basis of numerical competence » ou « Adanson, malacologie » et vous verrez que les résultats seront difficilement influencés par les logiques commerciales : ceci parce que faire de la recherche, avec ou sans Internet, signifie manipuler des combinaisons de mots clés très improbables, c'est-à-dire extraire les informations du corpus du savoir sous un angle extrêmement ténu. Ces assemblages de savoir sont si rares et si différenciatifs pour une petite communauté qu’ils restent en dehors des logiques commerciales et ne subissent pas plus d’influence que les systèmes de citations traditionnels : les revues académiques ont en effet souvent l’habitude de citer dans les bibliographies des articles publiés dans leurs propres pages pour augmenter le quotation ranking et par conséquent l’autorité de la revue. Certes, le discours ne vaut pas pour l’usager moyen d’Internet qui cherche : « cinémas à Parme » et qui recevra des réponses influencées par des logiques commerciales. Et encore moins pour l’étudiant qui fait ses premières armes, qui cherche « Nazisme » sur le Web et va voir défiler devant lui une cascade de pages antisémites ou négationnistes. Mais si le cas de l’usager de Parme déborde le cadre de notre discours sur la recherche, celui de l’étudiant au contraire nous sert parfaitement pour souligner comment Internet ne change pas seulement notre façon de faire de la recherche mais aussi de la communiquer.

Dans un monde où l’information circule dans des structures de connaissances légères, remanipulables et réassemblables selon nos objectifs, il vaudra mieux enseigner aux étudiants à raisonner de façon différente: les taxinomies rigides traditionnelles dans lesquelles le savoir est sectionné et transmis et qui stabilisent le canon d’une culture, ne constituent pas souvent la manière la plus adéquate de récupérer l’information dans cette culture. Le canon en effet, c'est-à-dire la classification et l’organisation des savoirs qui permet à une culture de s’identifier et de transmettre une mémoire collective, a une fonction sociale bien plus large que celle de la simple transmission des connaissances : c’est lui qui définit le seuil d’identité au-dessous duquel une culture cesse de se reconnaître en tant que telle, et il est par conséquent maintenu non en tant que artefact culturel de transmission du savoir d’une génération à une autre, mais comme « archive sacré » d’une société qui constitue la réponse à la question « qui sommes-nous ? ». Mais dans une société ouverte sur le plan de l’information, dans laquelle le savoir circule et se réorganise en continu au-delà des confins de l’identité, les divers canons entrent souvent en dissonance et montrent leurs limites en tant qu’instruments de transmission culturelle. Il vaut peut-être mieux habituer les jeunes esprits post-Internet à des heuristiques de recherche plus agiles et contextuelles et mieux adaptées à des situations nouvelles. Au fond c’est comme ça que fonctionne notre cognition : nous récupérons des informations dans la mémoire du contexte d’une certaine expérience et nous pouvons créer un nombre illimité de concepts ad hoc qui nous servent à refléter et à planifier une action dans une situation particulière (par exemple, je peux construire le concept qui correspond à « les choses les plus importantes à sauver quand la maison brûle » qui contiendra un assemblage temporaire d’objets disparates comme : les enfants, les documents, le portrait de la grand’mère, les clefs du coffre etc.). Certes, la transmission des connaissances demande une certaine stabilité des concepts : mais si nous réussissons à séparer ce qui dans cette stabilité est essentiel pour le savoir et ce qui ne l’est pas - et qui sert à des objectifs également nobles mais divers comme la perpétuation de l’identité culturelle - nous pourrions développer dans le futur des systèmes d’enseignement plus appropriés, adaptés à nos esprits et aux nouvelles structures de connaissance produites par l’interaction des esprits et des algorithmes. Dans les prochaines années nous assisterons à une co-évolution des stratégies culturelles et cognitives et des systèmes de « knowledge management » qui changera profondément la transmission du savoir (pensez seulement au programme éducatif « StarLogo »[8], développé au MIT Media Lab pour familiariser les étudiants et les chercheurs à la pensée distribuée et aux systèmes décentralisés).

Ces exemples nous montrent comment la culture à la carte que Internet met à notre disposition bouleverse profondément les pratiques mentales et les rôles institutionnels que nous associons traditionnellement à la production, à la conservation et à la transmission du savoir. Et, comme disait Habermas, là où la science et la technologie s’introduisent dans les sphères institutionnelles de la société, toutes les justifications existantes sont mises en question[9].

Prenons le cas des revues scientifiques, un des filtres les plus influents du savoir dans la communauté de la recherche ; un chercheur soumet un article à la revue, la rédaction de la revue le transmet à au moins deux critiques anonymes qui l’évaluent en formulant des critiques, proposant des améliorations et en déconseillant parfois sa publication. Le chercheur reçoit les commentaires, reformule l’article et, de longs mois après, le voit publié dans la revue. Le tout, bien évidemment, non rémunéré, ce qui distingue cette catégorie de publications des revues normales que l’on acquiert en kiosque. L’avènement de Internet a rendu évidente une apparente absurdité de ce marché : en effet ce sont les chercheurs qui produisent les articles, qui les consomment et ce sont encore eux qui en garantissent gratuitement l’évaluation. De plus, ce sont les universités et les bibliothèques qui achètent les abonnements aux revues, rendant ainsi possible leur survie. Mais pourquoi alors passer par les revues ? Pour allonger et rendre coûteux un processus d’échange de l’information qui est réservé à une communauté de pairs et peut aujourd’hui être réalisé à un coût zéro grâce à Internet ? Cette réflexion s’est concrétisée dans diverses actions : le mouvement pour le libre accès aux revues scientifiques sur le Web que j’ai cité au début de l’article se propose justement de repenser aux rôles institutionnels de garantie du savoir. L’Open Access a permis la création de nouvelles revues avec un comité de lecture uniquement digital (comme les revues de BioMed Central, ou Psycholoquy), le développement de programmes en libre accès pour l’archivage en ligne des articles et pour la construction de fichiers inter opérables et, chose plus importante, a encouragé la réflexion sur les nouveaux modèles possibles de distribution du savoir scientifique. Par exemple, les bibliothèques universitaires, dont le rôle est lui aussi menacé par la révolution informatique, pourraient développer de nouvelles compétences et prendre le rôle des revues dans le travail de filtrage et d’archivage des articles scientifiques. Ou mieux encore : un éditeur de revues digitales peut garantir son profit en faisant payer à l’auteur (ou mieux, à son institution) le service de référencement et de mise en ligne en un certain format (c’est le modèle adopté par BioMed Central). Ou encore on peut penser à des systèmes de filtrage et de redistribution des informations vraiment différents de ceux des revues, comme par exemple la Faculty of 1000 , c'est-à-dire un projet de sélection mensuelle des articles les plus importants en médecine et biologie proposée par 1000 scientifiques de grande renommée ; chaque article obtient un certain vote, un peu comme les petites étoiles des critiques de cinéma et, selon l’endroit où il a été publié, peut être disponible en libre accès ou acquis directement sur le site. Il est certain que dans tous les secteurs de l’édition et de la distribution des contenus, de l’édition scientifique aux maisons discographiques, les batailles d’arrière-garde pour défendre les droits acquis auxquels nous assistons ces temps-ci ne sont pas le meilleur moyen pour exploiter au mieux l’innovation technologique.

Internet s’est développé pendant longtemps, disons jusqu’à la fin des années quatre vingt dix, de façon anarchique et libertaire. A la différence des grands réseaux du passé, comme le réseau électrique ou routier, Internet est un système intrinsèquement décentralisé : un fleuve d’informations qui a inondé toutes les structures de gestion du savoir et a mis en question les droits, les normes, les habitudes mentales, les rôles sociaux, non seulement dans le monde de la recherche mais en général dans le monde de la production, de la transmission et de la conservation de la connaissance. Le monde rendu possible par l’Internet des débuts était peut-être trop éloigné de celui que nous connaissons, et nous avons ainsi assisté dans les dernières années à une réaction conservatrice dans laquelle les formes anciennes, les vieux droits et les privilèges traditionnels ont été revendiqués, souvent devant un tribunal (on pense au cas Napster). La déception engendrée par la nouvelle économie a encouragé le retour à l’ordre ancien. Aujourd’hui nous nous trouvons devant un choix important: soit concevoir de nouvelles structures de gestion de la connaissance qui soient vraiment le fruit d’une intégration entre les pratiques culturelles, les rôles institutionnels et les innovations technologiques, soit défendre un antique status quo en risquant ainsi de perdre l’image réelle de nous-mêmes en tant que produits et fruits de la culture, image pour toujours transformée par la révolution Internet.

[1] Cf. http:.//glreach.com/globstats ; Daniel Door (2003): “ From Englishization to Imposed Multilingualism: Globalization, the Internet and the Political Economy of the Linguistic Code” in Public Culture ( en publication )

[2] Source IDC : http://www.idc.com. Durant l’année académique 2001-2002 aux Etats-Unis 488000 étudiants ont suivi un programme complémentaire à distance. Le taux de croissance des inscriptions à distance est estimé à 30% par an. Sur le total des inscriptions universitaires aujourd’hui aux Etats-Unis, plus de 4% concerne des programmes entièrement en ligne ( cf. S.R. Gallagher ( 2003) « The Future of on line learning : Key trends and issues », Proceedings of the DETC 77th Annual Conference, 13-15 avril 2003.

[3] Voir sur ce point Stevan Harnad ( 2001) : « Skyreading and Skywriting in the Post-Gutenberg Galaxy », http://www.text-e.org

[4] Cf. R.Darnton (1999) « The New Age of Book », NYRB, 18 mars, http://www/nybooks.com/articles/546

[5] Cf. J.Nielsen (1997) « How Users Read on the Web », Alertbox, octobre 1997; http://www/useit.com

[6] U.Eco (1977) Come si fa una testa di laurea, Tascabili Bompiani.

[7] Cf. J.Kleinberg (1998) « Authoritative Sources in a Hyperlinked Environnement » Proccedings of the 9th ACM-SIAM Symposium on Discrete Algorithms.

[9] Cf. Habermas (1968) Technik und Wssenschaft als Ideologie, Francfort.