10e anniversaire de Wikisource

Découvrir Wikisource ... et y contribuer

(actualisé le ) par Edith Boulo

Wikisource vient de fêter son 10e anniversaire !
L’occasion de découvrir une petite sœur trop mal connue de Wikipédia, d’y trouver des textes, et, pourquoi pas, d’y contribuer.

Qu’est-ce que Wikisource ?

Si Wikipédia est désormais incontournable, les autres projets de Wikimedia sont dans l’ensemble beaucoup moins connus. Wikisource, bibliothèque numérique, est l’un d’eux. Sa présentation sur Wikipédia :

Wikisource est un projet multilingue de bibliothèque numérique, soutenu par la Fondation Wikimedia, libre d’accès, sans publicité, librement distribuable, édifiée par des bénévoles qui s’appuient sur la technologie wiki. Le projet a été lancé le 24 novembre 2003 [...]. Le projet existe en plus de 50 langues.

Wikisource édite une large variété de textes [...], à condition que leur licence soit compatible avec la Licence Creative Commons CC-by-sa. Elle utilise les ressources éditoriales du wiki ce qui lui permet — entre autres — de classer les textes (par genre, époques…) ; de fournir des systèmes de navigation entre les chapitres ; de lier entre elles des références dans un texte… Elle permet d’éditer un document avec des images de la source de référence en regard, pour garantir la fiabilité du travail de relecture. [1]

Comme tous les projets Wikimedia, il existe une certaine autonomie pour chaque domaine linguistique, une fois posés les principes de base.
Les grandes lignes de la présentation du domaine francophone, sur Wikisource :

Trois principes généraux délimitent le contenu de Wikisource :
1. Des textes déjà publiés : Les documents placés sur Wikisource doivent avoir été déjà publiés ailleurs, sur papier.
2. Des textes dans le domaine public ou sous licence libre
3. Des textes conformes à une édition : Les documents placés sur Wikisource doivent être objectivement identiques à une édition de référence.

De fait, que trouve-t-on sur Wikisource ?

Un peu de tout, à condition que ce soit dans le domaine public. On y trouve surtout des textes littéraires, qui vont des grands classiques aux ouvrages rares, mais aussi des textes historiques, scientifiques, philosophiques, économiques, et même... le texte intégral de l’Encyclopédie de Diderot et d’Alembert [2] (cf. à ce propos le billet d’Olivier Ertzscheid). Des livres, mais aussi des revues, et même quelques manuscrits. Un peu comme sur Gallica, qui fournit une bonne partie des fac-similés disponibles sur le site – à une tout autre échelle, bien évidemment.

Quel est le format des textes disponibles sur Wikisource ?

On y trouve, du fait du mode de correction page par page (cf. infra), des fac-similés au format .djvu ou, plus rarement, .pdf, issus de Gallica, de Google Books, etc. Mais ces fac-similés ne sont que des outils permettant la relecture - et si l’on souhaite les consulter sous cette forme, d’autres sites sont plus performants pour cela.

L’essentiel des textes est disponible au format html, avec une version imprimable (accessible via le menu de gauche).

Icône epub Depuis quelque temps, la possibilité d’exporter les textes au format epub a été développée. Mais du fait de l’évolution de certains modèles et de certaines pratiques, tous les textes ne sont pas encore considérés comme exportables : ceux qui comportent cette icône sont des textes corrigés ou validés, et dont la compatibilité avec le format epub a été vérifiée. Un clic sur l’icône permet d’exporter la version actuelle du texte au format epub. Si l’on souhaite exporter en epub un texte ne disposant pas de cette icône, on peut faire appel à la bonne volonté des Wikisourciens pour rendre ce texte exportable, en laissant un message sur le scriptorium.
On peut aussi générer soi-même le document epub en allant sur Wsexport et en entrant le titre du document souhaité ; mais la compatibilité ni la qualité ne sont alors garantis.

Tous ces textes sont regroupés dans la catégorie « Bon pour export », qui commence à être un peu touffue : c’est bon signe (signe d’abondance), il faut maintenant espérer que des Wikisourciens ingénieux trouvent une présentation plus claire et une navigation plus aisée. Quoi qu’il en soit, c’est une mine.

Quelles sont les particularités de Wikisource par rapport aux autres sites proposant des textes libres de droit ?

1. Wikisource est un site collaboratif

Comme pour Wikipedia et les autres projets Wikimedia, il est possible à tout le monde de contribuer, en corrigeant des erreurs, en corrigeant des pages, etc. La contribution peut aller de la correction d’une coquille en passant, à l’import d’un nouveau texte sur le site. L’inscription est ouverte à tous, et n’est pas obligatoire pour contribuer (même si elle est fortement conseillée pour une contribution régulière).

2. La correction en « mode page »

C’est la grande originalité de Wikisource, qui permet à chacun d’améliorer la qualité des textes numérisés. La qualité de numérisation des textes que l’on trouve gratuitement sur internet est extrêmement variable :
Sur Gallica, sur Google Books, sur Archives.org, où l’on trouve la plupart des fac-similés, la couche texte correspondante est en texte brut : les alinéas ne sont pas toujours respectés, ni les italiques, par exemple. Et il s’agit d’un travail automatisé : les performances des logiciels d’OCR vont croissant, la qualité de cette couche texte aussi, mais elle n’est jamais parfaite, et dépend de la qualité et de l’ancienneté de l’ouvrage de départ, ainsi que du soin apporté à sa numérisation.

Les textes mis en forme et proposés en ebooks gratuits sur le net sont d’une qualité extrêmement variable ; leur origine est souvent inconnue ; les règles typographiques de base ne sont pas toujours respectées - et là, on n’a pas accès aux fac-similés.

Le principe de la correction en mode page est le suivant :
- les textes sont d’abord disponibles en fac-similé, qui intègre une couche texte issue du traitement par reconnaissance de caractère
- les documents sont ainsi enregistrés page par page, à partir d’un texte existant : pour chaque page, on dispose du fac-similé correspondant

Aperçu du mode page :
https://fr.wikisource.org/w/index.p...

- Une fois le texte corrigé page par page, il est « transclus » [3] : une page html est enregistrée, qui permet d’afficher toutes les pages d’un chapitre, d’un article, etc. Les modifications ultérieures apportées aux pages sont donc automatiquement répercutées dans la version html.
- Les fichiers epub sont générés à partir du dernier état du texte : toute modification apportée à une page est donc également apportée au fichier epub qui sera généré en cliquant sur l’icône correspondante.

3. Respect du droit

Normalement, tous les textes sont dans le domaine public, ou sous licence creative commons. Un certain flou a régné à une période, et on trouve quand même quelques textes qui ne sont pas dans le domaine public en droit français ; mais ils deviennent rares, et sont signalés par un bandeau d’avertissement.

4. Conformité à une édition

La plupart des textes que l’on trouve au format epub ou html sur le net ne comportent aucune mention d’édition (ni date, ni éditeur) ; les traducteurs sont souvent oubliés : il est rare qu’on sache à quel état du texte on a affaire. Ici, puisque la transcription des textes est conforme à un fac-similé, toutes ces informations sont connues.

De ce fait, on rencontre une habitude qui peut dérouter : c’est celle de respecter l’orthographe d’époque. Les textes du XIXe siècle comportent juste quelques particularités orthographiques : poëme, poëte, collége, siége, etc. - et l’adverbe très toujours suivi d’un tiret ; pour le XVIIIe siècle, c’est bien sûr plus éloigné de nos pratiques actuelles, et moins normé. Un bouton "modernisation" existe pour quelques-uns de ces textes, mais pas tous, et il ne fonctionne que pour la version html, pas (encore) pour l’export epub.

5. Multilinguisme

Comme Wikipédia, Wikisource a plusieurs domaines linguistiques, anglais, espagnol, allemand, latin, breton ... . Chaque fois que c’est possible, un texte est relié à son original et/ou à la traduction dans d’autres langues. La liste est dans la colonne de gauche. Si tout est au mieux, c’est-à-dire si l’organisation du texte est la même, il est possible d’afficher le même texte en deux langues côte à côte (indicateur <==> dans la colonne de gauche). Un certain nombre d’ouvrages en édition bilingue sont consultables (mais pas encore exportables) sous cette forme. On peut noter que l’export sous forme de livre numérique epub est disponible dans tous les domaines linguistiques, toujours via l’outil Wsexport (penser à remplacer dans ce cas le code de langue « fr » par le code désiré).

Qualité des textes sur Wikisource

La qualité des textes que l’on trouve sur Wikisource au format epub est bonne. Au format html, elle est très variable - mais, à condition de connaître un peu le fonctionnement du site, on sait à quoi l’on peut se fier.

Le principe de validation d’une page est basé sur une double lecture. Un premier correcteur marque un texte comme « corrigé » ; le suivant pourra le marquer « validé ». Des codes couleur correspondent aux différents états du texte :

  • sans couleur, avec un lien rouge : page à créer (si l’on clique sur ces pages, la couche texte s’affiche dans le cadre de gauche)
  • rose : page non corrigée, ou issue de textes qui n’étaient pas précédemment en mode page, ou corrigée mais sans mise en forme. La qualité en est donc extrêmement variable : elle va du texte totalement corrigé et mis en forme jusqu’à l’OCR brut de mauvaise qualité, en passant par le texte corrigé mais non formaté, etc.
  • jaune : page corrigée (= relue et mise en forme par un utilisateur inscrit)
  • vert : page validée (= mise en forme, et relue par deux utilisateurs inscrits)
  • les pages marqués en gris clair ne comportent pas de texte ; celles marquées en bleu sont des « pages à problème » (en général, des pages ne pouvant être correctement corrigées du fait d’un fac-similé déficient).

Normalement, des catégories permettent de savoir quel est l’état de correction d’un texte :

Adieu Cayenne d’Albert Londres est caractérisé comme "validé", parce que toutes ses pages ont été relues 2 fois. La petite étoile figurant en haut montre qu’il s’agit d’un texte validé ; la barre de couleur indique l’avancement des pages transcluses. Dans ce cas, il n’y a pas d’ambiguïté.

Mais si l’on ne voit pas d’étoile, ou si la couleur n’apparaît pas distinctement, le plus simple est encore de cliquer sur l’onglet "source", qui permet d’accéder au fac-similé, et de contrôler la couleur des pages.

Comment contribuer à Wikisource ?

Comme sur Wikipédia, il n’est pas indispensable d’être inscrit pour contribuer. Mais les contributions d’un utilisateur non inscrit sont forcément limitées à des corrections ponctuelles. Seuls les utilisateurs inscrits peuvent marquer une page comme "corrigée" ou "validée" ; et il faut également être inscrit pour pouvoir activer un certain nombre d’options (les gadgets, entre autres) qui facilitent nettement la correction.

- Corriger une erreur

En parcourant un texte, on a repéré une scanille [4] : pour la corriger, il suffit de repérer un petit numéro à gauche du texte : c’est le numéro de la page dans le fac-similé

Cliquer sur le numéro, pour accéder au texte en mode page ; cliquer ensuite sur "modifier" en haut à droite, comme sur wikipédia ; effectuer les modifications, et enregistrer.

- Créer un compte
Si l’on veut contribuer de manière plus approfondie, on peut créer un compte : cliquer en haut à droite sur « créer un compte » ; suivre les indications et enregistrer.

Au bout d’un temps variable, un wikisourcien [5] vous adressera un message d’aide et de bienvenue sur votre page de discussion ; vous en serez averti par une notification dans votre barre utilisateur (en haut à droite). Lisez attentivement les indications données, et en particulier le Mémo à l’usage des nouveaux contributeurs, qui vous donnera des indications précieuses sur la manière de procéder, le respect des conventions typographiques, les gadgets utiles d’aide à la correction et les modèles les plus courants.

- Demander de l’aide

La syntaxe est, au départ, la même que celle de Wikipédia ; mais pour les besoins de la mise en forme et de respect des conventions typographiques, elle est un peu plus complexe et utilise d’autres modèles de mise en forme - c’est pourquoi il est important de bien lire le mémo.

Les premiers pas peuvent donc être un peu difficiles ; mais il ne faut pas se décourager, et surtout, ne pas hésiter à demander de l’aide. Le lieu de discussion de Wikisource est le Scriptorium (l’équivalent wikisourcien du Bistro de Wikipédia). On peut y poser des questions techniques, demander un conseil ou même un parrain, trouver quelqu’un pour transcrire une citation en grec ou en hébreu, une formule de mathématiques, importer un fac-similé depuis un autre site... Il est rare qu’une question reste sans réponse, et l’accueil est généralement sympathique.

Pour poster sur le scriptorium, on clique sur "Scriptorium" dans le menu de gauche, puis sur "ajouter un sujet" - et on n’oublie pas de signer son message, comme indiqué dans le message d’accueil.

Enfin, comme sur Wikipédia, on communique avec un utilisateur en inscrivant un message sur sa page de discussion. L’utilisateur répondra soit sur sa page, soit sur la vôtre.

Conclusion

Le site est riche, et continue à s’enrichir et à s’améliorer. On peut regretter un certain manque d’ergonomie, et il faut un peu de temps pour y naviguer tout à fait à l’aise. Mais avec quelques indications, c’est le lieu idéal pour commencer une mise à disposition de textes classiques sous forme numérique dans les catalogues des CDI ou les ENT de nos établissements - et pour piocher des textes pour liseuses ou tablettes.

P.-S.

NB : Doc pour docs n’est pas un Wiki, mais si des wikisourciens veulent apporter des rectifications ou des précisions, qu’ils n’hésitent pas à m’en faire part. Merci à ManuD et à Wuyouyuan pour leurs remarques et suggestions.

Notes

[1Source : Article Wikisource de Wikipédia en français (auteurs). Page consultée le 1er décembre 2013.

[2à noter que les planches n’y figurent pas encore.

[3néologisme wikisourcien ; se conjugue comme inclure ; forme substantive : transclusion.

[4La scanille est l’équivalent d’une coquille, pour les documents scannés : certaines erreurs sont récurrentes (Gela pour Cela, celte pour celle, etc.)

[5Variante : Wikisourcier. Contributeur de Wikisource.