1. La documentation : son histoire et son évolution
Présenter l’histoire de la documentation, c’est poursuivre simultanément plusieurs objectifs. Le premier concerne la jeunesse de cette « discipline » et donc la jeunesse de la profession de documentaliste. L’histoire nous apprend que les sciences émergentes naissent souvent en suscitant des oppositions. C’est le cas, par exemple, de la sociologie ou de la psychologie. Les enseignants documentalistes allient dans l’intitulé qui les désigne deux facettes temporelles : celle, ancienne, de l’enseignement ; celle, récente, de la documentation. Il n’est dès lors pas très difficile de comprendre les difficultés rencontrées pour la représentation de leur image et la reconnaissance de leurs doubles fonctions.
Faire référence au passé, c’est également tenter de répondre à la distinction que traduisent aujourd’hui les concepts de documentation et de sciences de l’information. La documentation est-elle une science ou une technique ? Ouvre-t-elle sur un métier ou une profession ? Les professions de l’information sont aujourd’hui très concernées par les technologies de l’information. L’informatisation des techniques documentaires débouchera-t-elle sur l’automation, c’est-à-dire à plus ou moins long terme à la suppression d’un métier devenu caduque ; les principales fonctions étant assurées par la machine ? Aujourd’hui, on parle beaucoup d’indexation et d’analyse automatique, de synthèse automatique ou fouille de textes et de recherche d’information automatisée. Que sont ces techniques ? Quelles sont leurs performances, dans quel contexte et à quel prix ? Laissent-elles une place au documentaliste ? Laquelle ?
Regarder derrière soi, c’est enfin tenter de comprendre l’environnement aujourd’hui ; pourquoi, par exemple, en France persiste une vue assez élitiste du savoir, de sa distribution et de son libre accès. Les documentalistes, comme Paul Otlet, que nous retrouvons plus tard, adhèrent à l’idée que le savoir appartient à tout le monde. Le document est un moyen de diffusion sans limites. Il donne l’autonomie d’accès à l’information. La culture de l’information (concept créé en 1995 et traduit de l’anglais : information literacy) et la culture du document deviennent donc indispensables. Cependant, ces concepts restent encore obscurs à certains, contrairement à ce qui se passe dans d’autres pays : Europe du Nord, pays anglo-saxons...
Enfin, d’une façon générale connaître l’histoire d’une science ou d’une technique, c’est en comprendre l’essence, c’est-à-dire non seulement les raisons de son émergence mais aussi l’environnement idéologique dans lequel elle naît, et préfigurer son avenir.
Par ailleurs, avant de commencer, il importe de préciser que les perspectives historiques impliquent toujours un choix dans les dates comme dans les événements qui marquent une discipline ou un savoir. Nous adressant à des enseignants documentalistes, il nous a semblé plus intéressant de regarder l’histoire de la documentation en soi et ce, principalement jusqu’à la naissance de la documentation pédagogique que nous supposons connue et qui démarre environ dans les années cinquante en France avec, en particulier, l’action d’un homme : Marcel Sire. Mais avant cette date, la documentation en promesse devient, peu à peu, réalité.
Les premiers pas
La collecte des informations, leur mémorisation et leur mise à disposition a toujours fait l’objet des préoccupations des hommes représentés par des bibliothécaires ou par des sociétés savantes. C’est ainsi, par exemple, qu’en 1830 est créé le centre de signalement Chemical Zentralblatt chargé de maîtriser la croissance du volume des documents traitant de la chimie, annonçant la préoccupation documentaire face à la surinformation ou explosion de l’information. En 1853, des bibliothécaires réunis à New York (une des premières réunions de ce genre dans le monde) émettent l’idée d’un Marché mondial continu du génie des nations. « Nous établirons sur chaque continent une agence centrale qui entrera en relation avec toutes les autres pour négocier ces accords d’échanges ; et nous publierons chaque mois... les titres des ouvrages ou documents échangés ». À peu près à la même date, la Royal Society entreprend un Catalogue manuscrit des titres de périodiques scientifiques dans toutes les langues préfigurant les catalogues collectifs contemporains et le directeur de la Smithsonian Institution propose à l’Association américaine pour l’avancement des sciences, un accord visant à répartir entre différentes institutions la responsabilité des travaux d’indexation concernant la littérature scientifique mondiale. il préfigure ainsi les actuels réseaux documentaires à l’origine de la production de banques de données bibliographiques. En 1877, The Library Association (for librarians and information managers) voit le jour, annonçant les nombreuses associations professionnelles en sciences de l’information chargées de coordonner et de promouvoir la documentation qui verront le jour par la suite, à l’échelle nationale, européenne ou internationale.
Ce qu’il importe de retenir de ces quelques dates et faits, c’est que la documentation repose essentiellement et profondément sur l’idée de l’échange et de la coopération nécessaire pour collecter, analyser et mémoriser l’information en vue de la retrouver lors de recherche émanant d’un besoin d’information. Les documentalistes se sont toujours situés à l’échelle planétaire, bien avant que ne soit à la mode le concept de mondialisation et cela, par la prise de conscience de plus en plus lucide de l’importance de l’information comme ressource essentielle pour le développement du monde.
Paul Otlet
En ce sens, un homme va profondément marquer cette science naissante. On le présente d’ailleurs communément comme le père de la « documentation », terme apparu vers 1870. Cet homme, Paul Otlet, mérite que l’on raconte son histoire et son oeuvre synthétisée dans son livre phare : le Traité de documentation : le livre sur le livre : théorie et pratique, publié en 1934, où convergent en amont les prémisses de la documentation qu’il crée, son présent et en aval, son devenir. Rappelons pour mémoire que cette année-là, Jean Gérard, autre nom important pour la documentation, organise un des plus importants centre de documentation de l’entre deux guerres : la maison de la chimie. Dans cette même période, Vannevar Bush publie le Memex, ancêtre de l’hypertexte et dont P. Otlet eut l’intuition avec la bibliophoto.
Paul Otlet est un avocat de nationalité belge, fils de « l’empereur des tramways » de Bruxelles. Il fait la connaissance d’un autre avocat : Henri La Fontaine, prix Nobel de la Paix. Ensemble, ils font naître la documentation et lui donnent ses lettres de noblesse à travers la création d’institutions, de rencontres, de publications mais surtout avec la création de techniques documentaires destinées à réaliser leur objectif sous-jacent et très bien explicité dans le chapitre O de son Traité intitulé Fundamenta.
« Les buts de la documentation organisée consistent à pouvoir offrir sur ordre de fait et de connaissance des informations documentées : 1° universelles quant à leur objet ; 2° sûres et vraies ; 3° complètes ; 4° rapides ; 5° à jour ; 6° faciles à obtenir ; 7° réunies d’avance et prêtes à être communiquées ; 8° mises à la disposition du plus grand nombre ». Avec cette définition, tout est dit. Les objectifs, les missions mais surtout l’idéologie sur laquelle se construit la documentation sont synthétisés dans ces quelques lignes qui disent la raison d’être de tous les documentalistes et plus spécifiquement des enseignants documentalistes. Il s’agit de veiller à la sélection de l’information, à son identification et sa fiabilité, à son accessibilité et donc à la possibilité donnée à son utilisateur d’y accéder (là, s’arrête le rôle du documentaliste) et se l’approprier (là, commence le rôle de l’enseignant).
C’est ce que fait Paul Otlet durant toute sa vie. On trouve en germe dans ses activités comme dans ses écrits tout ce qui caractérise et spécifie la documentation et, donc, le documentaliste contemporain.
C’est d’abord une idéologie. Otlet est un humaniste, pacifiste convaincu. Dans son Traité de paix général, il exprime pour la première fois, l’idée d’une société des nations. Pour lui, la mise en commun des savoirs de l’humanité, par l’intermédiaire des documents, est un gage contre la guerre. (« Livres et documents sont appelés à se mettre au service des plus hauts besoins de l’humanité »). Il plaide, en ce sens, pour l’instauration d’une civilisation. universelle. Certains passages du Traité de documentation rappellent d’ailleurs furieusement des textes écrits aujourd’hui à propos d’internet présenté comme une bibliothèque mondiale : La Cité mondiale sera un Livre colossal...
Ce Livre, il faut l’écrire. Pour cela, Paul Otlet va créer un certain nombre d’organisations chargées de missions répondant toutes au même descriptif : la coopération entre tous les hommes. C’est, par exemple, la création de l’Union des associations internationales chargée de dresser l’inventaire exhaustif des organismes internationaux et à l’origine de l’Annuaire des organisations internationales. C’est aussi et surtout la création, en 1895, de l’Institut international de bibliographie qui deviendra plus tard la Fédération internationale de l’information et de la documentation (HD). Pour les documentalistes, l’histoire de cet Institut comme ses activités sont essentielles à connaître car elles portent en elles toutes les facettes qui les caractérisent. C’est d’abord la collecte exhaustive des documents vus côté support. Paul Otlet ne renierait pas le terme de multimédia. il est en germe dans son oeuvre car il comprend très vite que le livre et le papier ne sont pas les seuls supports et formes du savoir humain. Le document est divers. Pour concrétiser cette diversité, il ouvre un musée de la presse, de l’affiche.... On doit surtout à Otlet le sens contemporain donné au concept de document. Ce dernier n’est plus seulement une preuve au sens juridique ou une illustration apportée pour renforcer un savoir. Le document est d’abord et avant tout, l’apport d’une information. C’est sur ce sens donné au document que Paul Otlet construit la documentation. C’est pour cette raison que l’Institut de bibliographie devient l’Institut International de documentation puis Fédération internationale de la documentation. Ces changements d’intitulés montrent la place qu’occupe cette nouvelle branche des sciences de l’information dans un environnement déjà existant. Il y avait les bibliothèques, les archives. Il existe désormais des services de documentation axés principalement sur le contenu informatif des documents.
Progressivement, Otlet crée ce que de nombreux manuels de documentation qualifient d’opérations de la chaîne documentaire. Il s’agit d’abord de la collecte des informations. En ce sens, il réalise un Répertoire bibliographique universel (RBU) comprenant les notices des ouvrages parus depuis l’invention de l’imprimerie. Il représente aujourd’hui une des plus vastes bases de données bibliographiques rétrospectives avec environ 17 millions de notices. À la collecte s’ajoutent le traitement matériel et intellectuel du document. Passionné par les problèmes d’échange de savoirs et de communication, il fait campagne avec son ami La Fontaine pour une fiche au format normalisé permettant l’échange des données à l’échelle universelle. Le traitement intellectuel le préoccupe également. Découvrant la Decimal Classification de Dewey, il obtient de ce bibliothécaire l’autorisation de la traduire et d’approfondir le schéma initial : il crée la Classification décimale universelle . Cette dernière lui vaudra d’être agressé, parfois violemment (il est traité de dangereux aliéné !). Cela pour une raison d’ordre épistémologique souvent avancée encore par les partisans du classement : des études montrent que deux livres sur trois entrent dans des catégories pré-établies. Dès lors, que faire d’ouvrages dont le contenu chevauche plusieurs classes ou sous-classes à la fois ?
À notre avis, il existe une autre raison, non explicitée, à l’agressivité de ses pairs : la classification repose prioritairement sur le libre accès. Dewey dit qu’il faut ranger les livres « dans l’ordre où l’utilisateur souhaiterait les trouver ». C’est une hérésie pour les bibliothécaires européens, en particulier français, pour qui le métier consiste essentiellement à créer des catalogues indispensables à la recherche. Ces outils, maîtrisés par ceux qui savent chercher, excluent donc ceux qui ne savent pas et ne sont donc pas dignes d’y accéder. Nous pensons que la vue élitiste des savoirs est encore aujourd’hui une réalité qui s’incarne, par exemple, dans les bibliothèques universitaires où coexistent un étage pour les nouveaux étudiants et un étage réservé aux chercheurs.
Une dernière réflexion sur la CDU porte sur la verticalité de l’organisation des savoirs. Certes, l’indice de la relation permet de croiser des classes, mais d’une façon abstraite. Sur les étagères des CDI, les élèves retrouvent cette organisation verticale. Aujourd’hui où les concepts de pluridisciplinarité, transdisciplinarité, multidisciplinarité sont si souvent évoqués, il serait peut-être bon que des documentalistes inventent une nouvelle forme matérielle de présentation des savoirs, peut-être en s’appuyant sur les classifications à facettes ?
Enfin et pour conclure sur Otlet, rappelons la préoccupation constante de ce pacifiste utopique : mettre le savoir à disposition de tout le monde. La création du Mundaneum répond à cette idéologie philosophique et superbement humaniste. Ce Palais Mondial propose cent cinquante salles aux visiteurs. Musée de l’humanité, technique et scientifique, il contient 80 000 affiches, 100 000 cartes postales ; une documentation iconographique et photographique ;1 000 000 petits documents divers (tracts, notes....)
Paul Otlet meurt en 1944. Il laisse aux documentalistes, en particulier aux enseignants documentalistes, une œuvre qui malgré sa date (1934) reste toujours d’actualité sur les questionnements essentiels de la documentation et ses fondements.
L’œuvre d’Otlet croise d’autres œuvres. D’autres dates sont importantes pour la documentation, présentées par la suite, par ordre chronologique et résumées à partir de quelques-unes de leurs principales caractéristiques.
1900/1940
- Classification documentaire des savoirs
1900 représente une date importante pour une des techniques documentaires essentielles puisque J.O.Kaiser introduit le concept d’indexation systématique des documents.
1905 en est une autre où Paul Otlet publie la première édition de la Classification décimale universelle.
1935 S.R. Ranganathan publie la Colon Classification, caractérisée par l’invention des facettes (méthode analytico-synthétique de classification).
Ces auteurs confirment la spécificité de la documentation comme sciences de l’information et le rôle d’analyste de l’information du documentaliste préoccupée par l’organisation des savoirs, c ’est-à-dire leur classification.
- Une profession pour quel intitulé ?
Cette plage de temps est importante par rapport au terme même de la profession. Documentaliste naît en concurrence avec le terme de documentiste recommandé par l’Office de la langue française, celui de documentateur ou documenteur, voire de fichiste proposé par Otlet et Jean Gérard. Documentaliste est adopté par le congrès de la Documentation Universelle de 1937. Aujourd’hui, après de nombreux débats et de nombreuses propositions pour changer d’appellation, le terme de documentaliste semble revivre...
- Les nouvelles technologies, déjà..
1932 Goldberg publie : The Retrieval problem in photography, premier article sur la recherche documentaire électronique ; celle-ci s’appuyant sur un sélecteur de microfilms utilisant une cellule photo-électrique.
Il est également intéressant de noter durant ces quarante années, la naissance d’associations professionnelles, de services ou centres de documentation ou certaines initiatives :
1928 GB : création de l’Association for Information Management (ASLIB)
1931 Union française des organismes de documentation (UFOD)
1932 Création du Centre national de documentation pédagogique
1933 Aux Etats-Unis : Association of Research Libraries
1937 American Society for Information Science and Technology
1939 Création du service de documentation du CNRS
l940/1950
Fondation en Grande-Bretagne du Classification Research Group, groupe de recherche dans le domaine documentaire pour l’élaboration de nouvelles classifications. Ce groupe, dans lequel travaille entre autres Brian Vickery, est à l’origine de l’introduction du concept de facettes dans les thésaurus.
Les premières formations en France
1950 Création du premier cycle de l’Institut national des techniques de la documentation (INTD).
Première directrice d’études de l’INTD, Suzanne Briet surnommée « Madame Documentation » publie Qu’est-ce que la documentation (5) ? dans lequel elle cherche à repousser les frontières au-delà sur texte pour qu’y soit inclus tout type d’objet documentaire. Un animal vivant est-il un document, interroge-t-elle ?
1950/1960. L’International Conference on Scientific Information (ICSI)
Les pays développés réalisent que si le volume des informations scientifiques et techniques était alors tel qu’une organisation systématique de leur collecte et de leur traitement n’était pas nécessaire, la situation a profondément changé. Les Russes ont envoyé dans l’espace un vaisseau spatial. Les Américains comprennent alors leur retard et pour le rattraper créent la Nasa et un vaste réseau d’échange avec les Européens. C’est en 1958 la tenue d’une importante rencontre americano-européenne à Washington :l’ICSI.
Nous retenons plusieurs résultats de cette conférence.
Le premier concerne l’idéologie, à l’opposé de l’idéologie pacifiste prônée par le père de la documentation. La recherche des informations sur l’espace est basée sur une atmosphère de guerre et non de paix. Le concept d’infoguerre, à la mode aujourd’hui traduit bien cette idéologie.
La deuxième, en apparence contradictoire, c’est que cette conférence est à l’origine d’un programme complètement utopiste sur la création d’un réseau mondial d’information scientifique, né en 1971 : l’UNISIST qui traduit dans son nom de baptême à la fois l’idée de l’union et celle d’information. Enfin, le retard pris par les Américains et les informations nécessaires étant en russe, conduisent ces derniers sur la voie de la traduction automatique. SYSTRAN (System of Translation) naît de ce retard. Nous retenons surtout de cette aventure spatiale, l’importance donnée à l’information, à son traitement et à sa conservation ; c’est-à-dire à la reconnaissance de la documentation.
Durant cette période, tellement d’autres événements, hommes, techniques jouent un rôle.. Nous en retenons deux :
1958 Publication du Rapport Boutry sur L’opportunité, les possibilités et éventuellement les conditions d’action concertées d’intérêt national en matière d’information scientifique et technique. Ce rapport insistant sur la nécessité de coordonner les efforts selon une politique bien définie et unique sera à l’origine de la création en 1973 du Bureau national de l’information scientifique et technique sur laquelle nous reviendrons.
1959 Dupont de Nemours publie le premier thésaurus au sens moderne du terme.
1960/1970
Le terme de documentaliste apparaît pour la première fois dans le Dictionnaire alphabétique et analogique de la langue française (le Robert). C’est le temps des prémisses de l’informatique documentaire, de la naissance du concept de politique de l’information, de la documentation pédagogique et des formations à la documentation d’entreprise.
Ces années-là peuvent se résumer dans les premiers systèmes de traitement semi automatisés de l’information qui font grand bruit alors, complètement oubliés aujourd’hui : fiches uniterm de Mortimer Taube, Selecto, Detectri... basés sur le principe des fiches perforées et qui portent en germe le traitement automatisé qu’apporte dans les années 70, l’ordinateur. C’est la naissance de l’informatique documentaire lourde et peu efficace où cartes et bandes perforées jouent les rôles vedettes. Retenons la date de 1961 où aux Etats-Unis apparaît le premier prototype de serveur documentaire au MIT. C’est le projet Technical Information Project. Les travaux d’Eugène Garfield permettent pour la première fois de naviguer dans une base de données bibliographiques.
Retenons également la date de 1963 où l’Engineers Joint Council publie le premier thésaurus avec indicateurs de rôles et où naît l’ADBS, Association des documentalistes et bibliothécaires spécialisés devenue aujourd’hui Association des professionnels de l’information et de la documentation.
En France en 1964, J.C Gardin publie Un modèle général SYNTOL (SYNTagmatic Organization Language) langage d’indexation applicable à tous les domaines scientifiques.
Aux Etats-Unis naissance du format MARC (Machine Readable Cataloguing)
En 1967, lancement du projet d’informatisation des bibliothèques universitaires de l’Ohio et création de l ’OCLC (Ohio College Library Center).
1970/1980 : Politique et Industrie de l’information. Les années minitel françaises !
Ces années-là voient apparaître sur le plan national comme international, l’émergence du concept de politique (au sens aristotélicien d’organisation rationnelle) de l’information. C’est en 1971, la création du réseau UNISIST basé sur une étude passionnante à lire encore aujourd’hui et la création, en 1973, en France du BNIST précédemment évoqué.
C’est aussi la naissance de la micro-informatique et de l’information « on line » qui révolutionnent, non seulement le travail documentaire mais aussi l’ensemble des professions du tertiaire. Les documentalistes ne sont pas les seuls à être concernés par les problématiques liés à l’informatisation qui remettent en question leurs raisons d’exister. Ils ont un peu tendance à l’oublier. À partir de ces années, et le progrès allant à toute allure, c’est toute la société qui entre dans le point d’interrogation de son avenir et de son devenir. Pour le documentaliste, cela se traduit par les questionnements sur l’informatisation de certaines opérations de la chaîne documentaire mais surtout sur la possibilité, grâce à l’ordinateur de créer des bases ou banques de données et de s’affranchir, en partie, des obstacles liés à la distance. On assiste à l’apparition d’une industrie de l’information organisée autour de serveurs encyclopédiques comme Dialog (1972) ou spécialisés comme STN, préfigurée dès 1967 par la National Library of Medicine décentralisant la fonction de recherche bibliographique en constituant le réseau Medlars mis en ligne en 1971 sous le nom de Medline. En France, le Centre national d’étude des télécommunications et l’institut national de recherche en informatique appliquée expérimentent Cyclades, réseau de transport de données qui relient entre elles plusieurs bibliothèques universitaires. Le rapport Aigrain en 1977 alerte sur le quasi-monopole américain en matière de bases et banques de données, souligne les risques d’aliénation, de contrôle du circuit de distribution des données. Ce rapport conduit le gouvernement français à créer en 1978 le premier centre serveur français : Télésystèmes Questel. Ces années-là sont également marquées par le minitel, invention géniale (trop ?) à l’origine du retard français dans la reconnaissance et surtout l’utilisation d’internet.
À retenir :
1970 : Création des Instituts universitaires de technologies.
1972 : Création de la FADBEN et du serveur ESA-IRS
Le programme IMPACT de l’Union Européenne suscite en 1977 le serveur ECHO et en 1978, EURONET. En 1977, M.U. Porat a publié un rapport qui fera date sur l’économie de l’information : The information economy : Definition and Measurement.. Et en France, en 1979 paraît le rapport Nora/Minc sur L’informatisation de la société.
1980/1990
Affranchissement du temps et de l’espace avec la télématique et du volume avec les mémoires optiques (cédéroms, disques optiques ...). Les nouvelles technologies jouent les premiers rôles !
Apparaissent les CADIST (Centre d’acquisition et de diffusion de l’information scientifique et technique...) : Application d’une politique d’acquisition entre bibliothèques universitaires que les Américains avaient mis en place dès 1943 avec le plan Farmington. C’est aussi la création des Unités régionales de Formation à l’information scientifique et technique (URFIST), témoins d’une prise de conscience sur la nécessité d’une formation aux techniques de recherche d’information.
De très nombreux rapports paraissent sur la société de l’information, les technologies de l’information. L’industrie de l’information s’affirme à travers de nombreux acteurs : serveurs, producteurs ou fournisseurs de banques de données
1990/2003. INTERNET
Ces années se résument en un terme : Internet, véritable tsunami pour les professions de l’information, certes mais aussi pour l’humanité qui prend conscience de ce que signifie vraiment le concept de mondialisation. Internet nous conduit sur les chemins de demain, que nous abordons dans la deuxième partie de cette intervention.
PS : 1990, c’est aussi l’année où naît le Capes de documentation !
2. Demain ? Perspectives en ouvrant les yeux sur aujourd’hui.
Les principales avancées technologiques peuvent être décrites en reprenant les opérations de la chaîne documentaire.
Elles concernent l’acquisition des documents ou des informations avec la découverte du web invisible.
Elles concernent également le traitement intellectuel de l’information avec l’indexation et la génération de textes.
Elles concernent enfin la diffusion de l’information avec, en particulier, le text mining et la cartographie de l’information.
On peut y ajouter, que nous ne traitons pas ici, enfin des problématiques génériques portant sur la gestion avec, par exemple, la notion de « records management » ou le travail en équipe, la coopération de professionnels entre eux avec le travail collaboratif et le « knowledge management » ou gestion des connaissances.
En filigrane autour de ces axes, une même question : la profession de documentaliste aura-t-elle encore du sens demain ?
Cependant, avant de commencer, il nous semble important de faire deux remarques :
La première concerne le changement de statut de l’information dans nos sociétés qualifiées de société de l’information. L’information est devenue un bien de consommation. Le contexte de la recherche documentaire a profondément changé : surinformation, hétérogénéité et personnalisation en sont les principales caractéristiques.
Notre deuxième remarque porte sur la technocratie. Il importe de se rappeler que dans nos sociétés existent des technocrates qui ont tendance, non seulement à présenter les technologies de l’information comme des baguettes magiques levant tous les maux, mais encore à émettre des néologismes ou à s’exprimer dans des jargons qui, en fait, cachent la non-nouveauté réelle de leur apport. « .. Le monde d’Internet, reconnaît P. Lefèvre, a sans doute fait, au départ, trop peu de cas des connaissances et des concepts mis au point depuis des décennies par les spécialistes de l’information. Certaines des « innovations fracassantes » de produits internet ne sont bien souvent que la remise au goût du jour de solutions appliquées depuis longtemps dans le monde de la documentation. Par exemple, le « push » n’est rien d’autre que la Diffusion sélective de l’information, et les « portails » sont nés du constat de la difficulté d’accès à l’information diffuse et non organisée. À travers les portails sont redécouvertes les vertus du « plan » de classement, concept qui n’est pas spécialement novateur. » (La recherche d’information. Hermès, 2000).
Le web invisible
Le web visible, composé de sites en accès libre offrant des pages reliées entre elles, est connu des documentalistes et du grand public. De plus en plus de personnes, en France, savent utiliser des moteurs de recherche et des annuaires. Cependant, depuis quelques années est apparue la notion de web cachée ou de web invisible composé de sites que les robots sont incapables d’explorer. Ce sont des sites qui ne sont pas construits sur le principe de l’arborescence. Ils donnent accès à leurs informations via un formulaire de recherche et non par des pages htlm statiques accessibles par clics successifs.
Le problème du web invisible, c’est qu’il contient des informations souvent très pertinentes lors d’une recherche d’information ; sorte de littérature grise trop peu connue et exploitée par les professionnels de l’information qui en reste à la partie immergée de l’iceberg et méconnaissent la partie immergée au volume impressionnant.
Il existe plusieurs guides du web invisible. Le site de l’URFIST de Lyon (http://urfist.univ-lyon.fr) propose ainsi plusieurs ressources le concernant et, en particulier, un répertoire de banques de données gratuites organisé à partir des classes de la Decimal Classification. Ce site est particulièrement riche qui contient également un cours sur la Recherche d’Information Sur Internet (RISI), un cours sur l’évaluation des sites (Le détective de l’internet) et des répertoires de banques de données commerciales ou non, des biographies, des banques de données numériques, ou banques d’images.
On peut également consulter le guide du web invisible :
http://www.apiguide.net/05scienc/03...
ou l’annuaire sélectif : http://www.invisibleweb.com
De plus la revue en français NETSOURCES publiée par FLA Consultants permet de se tenir au courant de tout ce qui concerne ce web invisible.
Le traitement documentaire : la génération de texte
Les opérations d’analyse : condensation et indexation sont directement concernées par les applications nées des recherches menées en intelligence artificielle, et plus spécialement par les travaux portant sur le traitement automatique du langage naturel, un des grands domaines de l’IA.
Analyse et traduction automatique reposent sur les mêmes approches complémentaires. L’approche statistique repose sur le principe qu’un terme qui revient souvent dans un texte a un poids plus important que les autres. Les approches linguistiques sont présentées traditionnellement sous la forme d’une pyramide inversée, signifiant la complexité croissante des problèmes langagiers posés à chacun de ses niveaux. L’analyse linguistique comprend, en ce sens, trois principaux niveaux :
Le niveau morpho-lexical a pour objectif l’identification des mots d’un texte. Les mots sont lemmatisés et les lemmes obtenus comparés au lexique de l’application afin de trouver la forme canonique correspondante. Cette opération est familière au documentaliste qui indexe un texte, puisque les règles concernant l’indexation l’oblige à mettre au singulier les mots clés sélectionnés. Ainsi « minéraux » (forme donnée dans le texte indexé) devient « minéral » dans la mémoire documentaire. Pluriel et singulier sont des formes qui illustrent parfaitement ce premier niveau. Mais la langue est riche qui nécessite aussi que le système reconnaisse un mot composé réunis par un trait d’union (porte-avions) et des mots réunis par ce même trait d’union sans constituer pour autant un mot composé (peut-on, par exemple).
Le niveau syntaxique étudie la structure grammaticale de la phrase dans le but de lever les ambiguïtés de sens dues aux homographes (le livre coûte une livre, l’avocat est là...)
Enfin, l’analyse sémantique a essentiellement pour but de permettre une recherche allant au delà du mot pour s’appuyer sur les concepts contenus dans le document. L’analyse sémantique permet de lever l’ambiguïté du sens à donner au terme « avocat » lorsque ce dernier est accompagné des termes de mayonnaise, de cuisine... ou de plaidoirie, de tribunal... Ce niveau ne dépayse pas le documentaliste qui est habitué aux schémas fléchés qui préfigurent les réseaux sémantiques suivis par les systèmes dits intelligents pour lever les ambiguïtés linguistiques.
Aujourd’hui, l’offre en infologiciels est relativement importante. Des revues tels archimag ou Documentaliste- Sciences de l’information établissent régulièrement des états de l’art qui permettent de se tenir informés. Si un grand nombre de ces logiciels sont payants, les documentalistes peuvent toutefois tester certains systèmes gratuits. Parmi les plus connus figurent Pertinence, Copernic summarizer... Pertinence propose toute une gamme de produits et services en ligne pour le traitement de l’information textuelle et, en particulier, la possibilité d’obtenir gratuitement des résumés en ligne. Ce service est à l’URL : http://www.pertinence.net. Le système repose sur l’extraction paramétrée des phrases les plus significatives du texte soumis à l’analyse ; les taux de contraction allant de 100 à 1% du texte. Pertinence traite des textes de formats variés et plusieurs langues vivantes.
La traduction automatique repose sur le même principe que l’analyse automatique. On distingue actuellement deux grands systèmes de traduction :
- La traduction automatique qui assure des traductions « à la volée ». Elle répond aux besoins de la veille d’information et malgré quelques erreurs grossières, elle permet d’obtenir la traduction d’une qualité moyenne d’un ou de plusieurs textes. Les principaux systèmes gratuits qui existent sur le marché sont Systran (http://www.systransoft.com) et Reverso (http://www.softissiomo.fr)
- La traduction assistée par ordinateur assure une excellente assistance au traducteur humain qui garde la main pour la production finale. Parmi les principaux systèmes payants actuels, on peut citer :
- Déjà-vu (http://www.atril.com)
- ou Trados (http://www.trados.com).
La communication de l’information : fouille de texte et cartographie de l’information
Nous ne voulons pas ici faire un cours sur le text-mining ou fouille de texte. Nous voulons simplement en donner une définition générale, les principes de fonctionnement. Nous voulons surtout comprendre leur utilité dans la diffusion de l’information et sa représentation. En ce sens nous nous attarderons davantage sur la cartographie de l’information
Le text mining consiste à utiliser des techniques linguistiques et mathématiques pour analyser et synthétiser de grands volumes de textes. L’un des objectifs du text mining est d’extraire des informations qu’il aurait été difficile de trouver sans une analyse automatique et systématique de gros volumes de données.
Une application importante du text mining est la classification automatique de documents. Lorsque l’on fait une recherche sur internet avec un moteur de recherche google, par exemple, celui-ci apporte des résultats de façon linéaire. Ce sont des pages successives que l’internaute devra ouvrir pour savoir si elles correspondent à sa demande. Avec les systèmes de text mining, les résultats arrivent classifiés ou organisés à partir de cartes. C’est pourquoi on parle de cartographie de l’information. Ce qualificatif a été contesté. Peu importe puisque ce qu’il est important de comprendre, c’est que la cartographie de 1 ’information a pour objectif de permettre une vision synthétique de l’information (On parle en ce sens aussi de synthèse de masse).
Des outils existent, payants, poursuivant des objectifs diversifiés. On peut citer par exemple des outils de gestion documentaire (Keeboo), de cartographie de forum (Netscan), de veille technologique (WordMapper) ou de recherche d’information en langage naturel (Leximine racheté récemment par SPSS) Il y a encore Sinbad, Tropes, Tétralogie...
CONCLUSION :
Comment établir la synthèse de ce regard sur hier, de ce regard sur aujourd’hui-demain ?
Notre regard retrouve son unité autour de deux constat :
La documentation est un métier très vivant.
À tous ceux qui ont annoncé sa disparition le temps et les technologies ont donné tort. Plus que jamais, la documentation apparaît comme un nécessaire maillon dans la division du travail, intermédiaire entre les volumes d’information qui ne cessent de croître et les usagers de ses services. Plus que jamais le documentaliste apparaît comme un médiateur chargé comme l’avait prévu Otlet de discipliner, d’organiser et de hiérarchiser l’information.
Dans l’école contemporaine, la documentation doit entrer à la fois comme un métier et comme un enseignement.
Comme métier, elle exige que le documentaliste exerce une veille technologique concernant sa profession très concernée par les technologies de l’information, mais aussi une veille au service de ses usagers, élèves comme enseignants. Il importe que le documentaliste soit à l’affût de sources peu connues, porteuses cependant de promesses pédagogiques comme, par exemple, la découverte du site du Conseil international de la langue française ou le Trésor de la langue française...
Comme enseignement, elle exige que le documentaliste participe au transfert des savoirs. Les savoirs documentaires sont d’ordre méthodologique. Ils concernent l’acquisition d’un esprit d’analyse et de synthèse. Ils concernent surtout dans nos environnements où l’information est omniprésente, l’acquisition d’un regard critique et déontologique.
Le documentaliste dans l’école contemporaine s’engage sur la voie d’une lourde responsabilité.
Partager cette page