//
vous lisez...
Actualités, Outils, Ressources scientifiques et pédagogiques, Tutoriels

Numérisation et comparaison d’ouvrages

Contexte

Ce tutoriel explique comment scanner un ouvrage puis appliquer un logiciel de reconnaissance automatique de caractères pour obtenir le fichier texte correspondant (attention bien entendu aux droits de propriété intellectuelle qui peuvent limiter les droits de diffusion du fichier obtenu).

Le fichier texte obtenu en suivant ce tutoriel pourra alors être utilisé par exemple dans des logiciels de textométrie (en particulier ceux présentés dans le module doctoral « Approches textométriques / ergonomies numériques » d’Université Paris-Est) à des fins d’analyse.

Le tutoriel évoque aussi un logiciel de comparaison de textes similaires, qui permet de comparer le texte obtenu avec un texte proche (par exemple une autre édition de la même œuvre).

Étapes du processus

  1. Numérisation de l’ouvrage sur un photocopieur :
    1. par exemple celui du LIGM (de type Sharp 4100N), pour numériser sur une clé USB : envoi image, numérisation clé USB, niveaux de gris
    2. à titre indicatif : une heure pour un “Folio” de 500 pages.
  2. Combinaison des fichiers PDF :
    1. utilisation de jPDFtweak : http://jpdftweak.sourceforge.net/ :
      1. après téléchargement, extraire le contenu du fichier ZIP dans un même dossier
      2. exécuter le fichier jpdftweak.jar
      3. cocher multiple input file
      4. cliquer sur Select
      5. possibilité de changer les numéros de pages pris en compte :
        tutonumerisation1
      6. choisir le fichier de sortie dans l’onglet Output et le champ Filename :
        tutonumerisation2
  3. Conversion en fichier TIFF multi-pages :
    1. ouverture du fichier dans PDF-XChange Viewer (http://www.pdfxchange.fr/)
    2. menu Fichier, sous-menu Exporter, option Exporter vers image ; Type d’image : TIFF ; Dossier de destination à choisir ; Nom de fichier : utiliser le bouton Macro et choisir Nom de fichier, puis insérer un tiret, puis choisir numéro de pages, le champ correspondant se remplit alors par le code <File Name>-<PAGE> ; choisir le mode d’exportation Toutes les pages dans un seul document image multipage
    3. durée indicative : 20 minutes de temps de conversion pour un PDF de 216 pages (dont chacune contient deux pages du livre)
  4. Reconnaissance automatique de caractères sur le fichier TIFF :
    1. installer Tesseract pour Windows (http://3.onj.me/tesseract/, voir le fichier http://3.onj.me/tesseract/how%20to%20install.txt pour les instructions d’installation), par exemple dans le dossier
      C:\Users\votre_nom_d_utilisateur\Download\tesseract
    2. lancer la ligne de commande Windows : cliquer sur le bouton de démarrage Windows, puis écrire dans la barre de recherche cmd.exe puis appuyer sur la touche du clavier Entrée
    3. utiliser la commande cd pour aller dans le dossier de Tesseract de l’étape 4.1, par exemple :

      cd C:\Users\votre_nom_d_utilisateur\Download\tesseract
      

      (astuce : pour ne pas avoir à taper chaque mot en entier, utiliser la touche tabulation après les premières lettres de chaque mot)

    4. lancer Tesseract en utilisant la commande
      tesseract.exe C:\Users\votre_nom_d_utilisateur\Documents\Gary\fichierComplet.tif fichierDeSortie.txt -l fra
    5. le document fichierDeSortie.txt s’enregistre dans le dossier Tesseract de l’étape 4.1.
  5. Correction des fichiers textes :
    1. cette étape se fait de préférence avec un éditeur qui permet de faire des rechercher/remplacer complexes, par exemple Notepad2 ou Notepad++ ;
    2. il s’agit premièrement de supprimer les blancs entre pages successives. Cette tâche est difficilement automatisable, et prend environ 10 minutes par centaine de pages de l’ouvrage ;
    3. cette étape peut aussi permettre de corriger massivement quelques problèmes par des rechercher/remplacer semi-automatiques, par exemple :
      1. ‘ remplacé par ’ ;
      2. 5 remplacé par s, 01 remplacé par oi ;
      3. dans le cas où certains signes de ponctuation double (c’est-à-dire ; : ! ?) ne sont pas précédés par un espace : rechercher chaque signe de ponctuation double et le remplacer par lui-même précédé d’un espace (puis rechercher tous les doubles espaces et les remplacer par un seul espace) ;
    4. cette étape peut aussi permettre de supprimer les césures, c’est-à-dire les tirets suivis d’un retour à la ligne : là encore, cette tâche ne peut pas facilement se faire de manière automatique (il arrive que le tiret soit en fait un trait d’union, à conserver). Temps indicatif : environ 1500 lignes d’une édition de poche Folio, soit 150 césures, traitées en 10 minutes.
  6. Comparaison des fichiers textes :
    1. vérifier que les deux fichiers texte à comparer sont bien au format UTF8 (avec Notepad2, avec le menu File, Encoding, c’est UTF-8 qui doit être coché, sinon cliquer dessus pour effectuer la conversion) ;
    2. utiliser MEDITE pour comparer les deux fichiers : http://obvil.lip6.fr/medite/
      1. charger chacun des deux fichiers ;
      2. décocher Sensible aux séparateurs (!,;.?…) ;
      3. décocher Algorithme mots (cochée) ou caractères (non cochée) ;
      4. cliquer sur Comparer ;
      5. utiliser l’export sous Word pour commenter les changements (pour cela, cliquer sur l’icône avec un W sur la page de résultats de MEDITE) ;
  7. Poursuite de la correction des fichiers textes :
    1. la visualisation fournie par MEDITE peut aider à détecter les erreurs de reconnaissance automatique de caractères à corriger.
      TutoNumerisation3.png

À propos de ce tutoriel

Tutoriel préparé par Jonathan Barkate (LISAA) et Philippe Gambette (LIGM)

Advertisements

Discussion

Pas encore de commentaire.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :