A quoi sert l’OCR ? Tout ce que vous devez savoir

Dernière mise à jour :

March 13, 2025

5 minutes

Découvrez comment l’OCR transforme vos documents PDF et images en données structurées. Quelles technologies utiliser ? Quels sont les coûts et la précision ? Faites le bon choix avec notre guide.

Ordinateur avec bannière Tout savoir sur l'OCR

Factures, bons de commande, bons de livraison, contrats, devis, quittances, relevés bancaires, certificats... Lorsque vous avez des documents sous forme de PDF ou d'images, les données sont "piégées" et inutilisables pour l'entreprise. Cependant, grâce à un logiciel OCR, vous pouvez convertir vos documents non structurés en informations structurées, vous permettant ainsi de gagner du temps dans vos opérations. Grâce à l'IA générative, les technologies d'OCR ont fait un bond en avant considérable.

Les méthodes traditionnelles : Machine learning & apprentissage supervisé

L’OCR permet de traiter une image numérique pour en extraire la donnée textuelle, et le cas échéant, enrichies (police, gras, titres, mise en page). Traditionnellement, l’analyse OCR s’appuie sur plusieurs couches de traitement :

  1. Une pré-analyse de l’image : la définition de l’image est améliorée grâce à des filtres, l’image est redressée et recadrée
  2. Une segmentation du texte : chaque bloc de texte est localisé sur l’image par rapport aux autres
  3. La reconnaissance des caractères : chaque caractère est comparé à une bibliothèque de formes pour l’identifier, notamment par des analyses via des réseaux neuronaux
  4. La reconnaissance des formulaires, des tableaux et des valeurs associées : notamment disponible pour des OCR tels que Amazon Textract (ici faire le lien avec le comparatif des OCRs)
  5. Le post-traitement : selon des règles statistiques, des erreurs sont éliminées.

Néanmoins, il existe 2 limites à l’apprentissage supervisé :

  • Absence de compréhension du langage. La machine ne tient pas compte de la signification des mots qui sont extraits, ce qui pose un problème de qualité de l’extraction. Les documents plus complexes (par exemple, les devis ou les contrats) renvoient des erreurs.
  • Gestion des exceptions. L’apprentissage ayant été réalisé sur un nombre limité de documents, il existe souvent des cas rares auxquels l’IA n’a encore pas été confrontée.

La révolution des LLM : précision et personnalisation

L’OCR reposait principalement sur l’apprentissage supervisé : les machines étaient entraînées en étiquetant manuellement les résultats sur les images.

Désormais, avec l’avènement des LLM, l’apprentissage est non supervisé. Cela signifie que les machines apprennent de manière générique, sans nécessiter de labellisation précise. Les résultats obtenus sont nettement meilleurs, avec une précision accrue et une capacité à traiter des documents complexes sans l’intervention humaine intensive requise auparavant.

Le comparatif Computer vision & LLM

Voici un tableau comparatif des différences des performances entre les OCR basé sur la computer vision et les OCR basé sur des LLM.

Computer vision LLM (input visuel)
Détection des caractères Meilleur
Technologie aboutie
Meilleur résultats
Meilleur
Technologie aboutie
Meilleur résultats
Compréhension du texte Inexistant ou absent Meilleur
Excellent pour rapprocher de une donnée de sa catégorie (exemple : “M. Dupont” pour “Nom”)
Prise en compte de la mise en page & tableaux Des erreurs lorsque les tableaux sont complexes Meilleur
Excellent pour saisir le sens des titres/ sous titres, hiérarchisation des informations

La technologie de traitement de document Koncile combine le meilleur de la computer vision et des LLM pour obtenir les meilleurs résultats

PDF, JPEG, PNG, document scanné ou pris en photo : quelles différences ?

PDF searchable ou consultable

Votre fichier PDF a été produit par un logiciel, vous pouvez sélectionner le texte dans le document. On parle de PDF “searchable” ou consultable.
Verdict : Dans ce cas, la reconnaissance de caractères ne sera pas nécessaire. Le texte brut existe déjà dans le fichier. En revanche, la “mise en page” doit être captée pour hiérarchiser les informations.

PDF scanné ou numérisé à partir d’un document papier  

Le fichier PDF ne contient pas les informations textuelles. Le logiciel d’OCR devra réaliser la reconnaissance de caractères puis la détection de la mise en page. La nature du fichier (PDF, PNG ou JPEG) est généralement indifférente pour le traitement.

Document pris en photo

De même que pour un PDF scanné, les étapes de reconnaissance de caractères et de mise en page seront nécessaires. Attention, il existe un risque d’erreurs plus grand avec

Format électronique ou EDI

S’agissant des factures, les formats types “Facture-X” sont des PDF auquel sont attachés un fichier sous format XML. L’information est alors directement exploitable en base de donnée.
Néanmoins, il est souvent possible que le fichier PDF contienne plus d’informations que le fichier XML, notamment l’information du ligne à ligne des factures.

Document avec écriture manuscrite

La détection de l’existence de signature donne aujourd’hui de très bon résultats. La reconnaissance des caractères de l’écriture manuscrite est assez variable. Les lettres capitales sont bien captées, mais l’écriture cursive peut donner lieu à des erreurs.

Quels documents peuvent être océrisés ?

Pour répondre à cette question, 2 critères doivent être regardés de près

  • La variabilité du document : si les documents contiennent toujours les mêmes informations, sous le même format, la captation sera aisé
  • La longueur du document : des documents courts sont aisément traitables, la taille du document augmente de confusion entre plusieurs informations

Documents courts contenant des informations relativement standardisées

  • Passeport
  • Carte d’identité
  • Carte de visite
  • Permis de conduire

Documents courts avec des formats variableset des informations répétées

  • Factures
  • Bons de commande
  • Carte grise
  • Bons de livraison
  • CV
  • RIB
  • Bulletin de paie

Documents longs composés de plusieurs parties

  • Contrats
  • Ordonnance & documents médicaux
  • Rapport d’expertise
  • Documentation douanière
  • Documents fiscaux
  • Dossier immobilier

Quelles informations peuvent-être captées dans un document ?

Les OCR proposent une liste standard pour chaque type de documents. Grâce aux LLM, vous pouvez aujourd’hui aller plus loin en définissant vous même les champs qui font sens pour votre cas d’usage. La plateforme Koncile permet de spécifier en no code les champs à extraire. Pour gagner en précision, il peut être utile d’indiquer un exemple de résultat à obtenir.

Testez une version d’essai et comparez les résultats avec les OCR traditionnels.

Capture d'écran du logiciel Koncile

Quels sont les coûts de l’océrisation ?

Le coût de l’océrisation peut varier entre 1 centime à 20 centimes par page.

Il existe également des librairies gratuites en accès libre pour réaliser l’extraction des caractères. A titre d’exemple, la librairie Tesseract qui est désormais sponsorisée par Google, ou encore la librairie GOCR  open-source écrite en C qui fonctionne sous Linux, Windows et macOS.

Quelle est la précision moyenne d’un OCR ?

La précision d’un OCR est variable selon l’éditeur logiciel. Aujourd’hui l’extraction du ligne à ligne reste encore un point difficile.

Découvrez notre comparatif complet des différentes solutions OCR.

Quel est le temps de traitement par un OCR ?

De quelques secondes à 1 minute selon le type d’OCR utilisé. Le temps de traitement dépend de la complexité et la longueur du document et de la résolution de l’image.

Des approches multi-traitement, incluant notamment de la détection de texte, puis des LLM peuvent allonger le temps de traitement, tout en améliorant la précision globale.

Jules Ratier

Co-fondateur de Koncile - Transformez n’importe quel document en données structurées grâce aux LLM - jules@koncile.ai

Jules dirige le développement produit chez Koncile. Il s’intéresse depuis des années à l’automatisation des processus métier, ainsi qu’aux applications concrètes des LLM dans les opérations quotidiennes.

Les ressources Koncile

Mistral AI vs ChatGPT : OCR fiable ?

Mistral AI vs ChatGPT. Précision, rapidité, fiabilité… Découvrez quel modèle extrait le mieux le texte des documents !

Blog

13/3/2025

Choisir un OCR en 2025 : la checklist

L'IA bouscule le classement des meilleures solutions de reconnaissance de caractère. La conversion de fichiers PDF image en Excel de vos documents est désormais facilitée grâce aux LLM. On liste ici les points de vigilance à garder en tête pour choisir le bon outil.

Blog

3/2/2025

Extraire toutes les tables d'un PDF en 2 minutes grâce à l'IA

Apprenez rapidement comment transformer vos documents contenant des tableaux, des données ligne par ligne ou d'autres structures complexes en données prêtes à être utilisées dans des feuilles de calcul ou Excel. Convertissez les informations non structurées en données organisées et exploitables.

Blog

14/1/2025