A quoi sert l’OCR ? Tout ce que vous devez savoir

Dernière mise à jour :

15.10.2024

5 minutes

Factures, bons de commande, bons de livraison, contrats, devis, quittances, relevés bancaires, certificats... Lorsque vous avez des documents sous forme de PDF ou d'images, les données sont "piégées" et inutilisables pour l'entreprise. Cependant, grâce aux logiciels OCR, vous pouvez convertir vos documents non structurés en informations structurées, vous permettant ainsi de gagner du temps dans vos opérations.

Grâce à l'IA générative, les technologies d'OCR ont fait un bond en avant considérable.

Les méthodes traditionnelles : Machine learning & apprentissage supervisé

L’OCR permet de traiter une image numérique pour en extraire la donnée textuelle, et le cas échéant, enrichies (police, gras, titres, mise en page). Traditionnellement, l’analyse OCR s’appuie sur plusieurs couches de traitement :

  1. Une pré-analyse de l’image : la définition de l’image est améliorée grâce à des filtres, l’image est redressée et recadrée
  2. Une segmentation du texte : chaque bloc de texte est localisé sur l’image par rapport aux autres
  3. La reconnaissance des caractères : chaque caractère est comparé à une bibliothèque de formes pour l’identifier, notamment par des analyses via des réseaux neuronaux
  4. La reconnaissance des formulaires, des tableaux et des valeurs associées : notamment disponible pour des OCR tels que Amazon Textract (ici faire le lien avec le comparatif des OCRs)
  5. Le post-traitement : selon des règles statistiques, des erreurs sont éliminées.

Néanmoins, il existe 2 limites à l’apprentissage supervisé :

  • Absence de compréhension du langage. La machine ne tient pas compte de la signification des mots qui sont extraits, ce qui pose un problème de qualité de l’extraction. Les documents plus complexes (par exemple, les devis ou les contrats) renvoient des erreurs.
  • Gestion des exceptions. L’apprentissage ayant été réalisé sur un nombre limité de documents, il existe souvent des cas rares auxquels l’IA n’a encore pas été confrontée.

La révolution des LLM : précision et personnalisation

L’OCR reposait principalement sur l’apprentissage supervisé : les machines étaient entraînées en étiquetant manuellement les résultats sur les images.

Désormais, avec l’avènement des LLM, l’apprentissage est non supervisé. Cela signifie que les machines apprennent de manière générique, sans nécessiter de labellisation précise. Les résultats obtenus sont nettement meilleurs, avec une précision accrue et une capacité à traiter des documents complexes sans l’intervention humaine intensive requise auparavant.

Le comparatif Computer vision & LLM

Voici un tableau comparatif des différences des performances entre les OCR basé sur la computer vision et les OCR basé sur des LLM.

Logo Logo
Computer vision LLM (input visuel)
Détection des caractères Meilleur
Technologie aboutie
Meilleur résultats
Meilleur
Technologie aboutie
Meilleur résultats
Compréhension du texte Inexistant ou absent Meilleur
Excellent pour rapprocher de une donnée de sa catégorie (exemple : “M. Dupont” pour “Nom”)
Prise en compte de la mise en page & tableaux Des erreurs lorsque les tableaux sont complexes Meilleur
Excellent pour saisir le sens des titres/ sous titres, hiérarchisation des informations

La technologie de traitement de document Koncile combine le meilleur de la computer vision et des LLM pour obtenir les meilleurs résultats

PDF, JPEG, PNG, document scanné ou pris en photo : quelles différences ?

PDF searchable ou consultable

Votre fichier PDF a été produit par un logiciel, vous pouvez sélectionner le texte dans le document. On parle de PDF “searchable” ou consultable.
Verdict : Dans ce cas, la reconnaissance de caractères ne sera pas nécessaire. Le texte brut existe déjà dans le fichier. En revanche, la “mise en page” doit être captée pour hiérarchiser les informations.

PDF scanné ou numérisé à partir d’un document papier  

Le fichier PDF ne contient pas les informations textuelles. Le logiciel d’OCR devra réaliser la reconnaissance de caractères puis la détection de la mise en page. La nature du fichier (PDF, PNG ou JPEG) est généralement indifférente pour le traitement.

Document pris en photo

De même que pour un PDF scanné, les étapes de reconnaissance de caractères et de mise en page seront nécessaires. Attention, il existe un risque d’erreurs plus grand avec

Format électronique ou EDI

S’agissant des factures, les formats types “Facture-X” sont des PDF auquel sont attachés un fichier sous format XML. L’information est alors directement exploitable en base de donnée.
Néanmoins, il est souvent possible que le fichier PDF contienne plus d’informations que le fichier XML, notamment l’information du ligne à ligne des factures.

Document avec écriture manuscrite

La détection de l’existence de signature donne aujourd’hui de très bon résultats. La reconnaissance des caractères de l’écriture manuscrite est assez variable. Les lettres capitales sont bien captées, mais l’écriture cursive peut donner lieu à des erreurs.

Quels documents peuvent être océrisés ?

Pour répondre à cette question, 2 critères doivent être regardés de près

  • La variabilité du document : si les documents contiennent toujours les mêmes informations, sous le même format, la captation sera aisé
  • La longueur du document : des documents courts sont aisément traitables, la taille du document augmente de confusion entre plusieurs informations

Documents courts contenant des informations relativement standardisées

  • Passeport
  • Carte d’identité
  • Carte de visite
  • Permis de conduire

Documents courts avec des formats variableset des informations répétées

  • Factures
  • Bons de commande
  • Carte grise
  • Bons de livraison
  • CV
  • RIB
  • Bulletin de paie

Documents longs composés de plusieurs parties

  • Contrats
  • Ordonnance & documents médicaux
  • Rapport d’expertise
  • Documentation douanière
  • Documents fiscaux
  • Dossier immobilier

Quelles informations peuvent-être captées dans un document ?

Les OCR proposent une liste standard pour chaque type de documents. Grâce aux LLM, vous pouvez aujourd’hui aller plus loin en définissant vous même les champs qui font sens pour votre cas d’usage. La plateforme Koncile permet de spécifier en no code les champs à extraire. Pour gagner en précision, il peut être utile d’indiquer un exemple de résultat à obtenir.

Testez une version d’essai et comparez les résultats avec les OCR traditionnels.

Quels sont les coûts de l’océrisation ?

Le coût de l’océrisation peut varier entre 1 centime à 20 centimes par page.

Il existe également des librairies gratuites en accès libre pour réaliser l’extraction des caractères. A titre d’exemple, la librairie Tesseract qui est désormais sponsorisée par Google, ou encore la librairie GOCR  open-source écrite en C qui fonctionne sous Linux, Windows et macOS.

Quelle est la précision moyenne d’un OCR ?

La précision d’un OCR est variable selon l’éditeur logiciel. Aujourd’hui l’extraction du ligne à ligne reste encore un point difficile.

Découvrez notre comparatif complet des différentes solutions OCR.

Quel est le temps de traitement par un OCR ?

De quelques secondes à 1 minute selon le type d’OCR utilisé. Le temps de traitement dépend de la complexité et la longueur du document et de la résolution de l’image.

Des approches multi-traitement, incluant notamment de la détection de texte, puis des LLM peuvent allonger le temps de traitement, tout en améliorant la précision globale.

Commencez à économiser aujourd’hui.

O

Les ressources Koncile

T

Maîtriser la Détection et l'Extraction de Tableaux dans des Documents

Cet article présente des méthodes utilisées aujourd'hui pour extraire des tableaux de documents numérisés

Blog

10/10/2024

F

Les 8 fonctionnalités primordiales pour bien choisir son ERP BTP

Article présentant une liste de 8 fonctionnalités intéressante à avoir dans son ERP si l'on travaille dans le BTP

Fiche pratique

9/10/2024

&

Contrôle des Factures Fournisseurs pour les entreprises du BTP

Grâce à la technologie, automatisez les contrôles de vos factures fournisseurs.

Fiche pratique

8/10/2024