Choisir un OCR en 2025 : la checklist

Dernière mise à jour :

February 6, 2025

5 minutes

Vous êtes perdus dans l'offre de solutions OCR  ? Précision, rapidité, facilité d'utilisation, flexibilité, budget : vérifiez 17 points ci-dessous pour comparer les outils d'extraction de données. Attention, on s'intéresse ici aux documents courts avec format spécifique (factures, relevés bancaires, avis d'impôts, formulaires, etc.).

Bannière checklist 2025 pour choisir un OCR – Aperçu de l’interface Koncile analysant une facture sur un écran d'ordinateur

1. Taux de succès sur vos cas d'usage

Qu'est-ce qu'un bon taux de succès pour un OCR ? Sur la reconnaissance des champs uniques et simples, par exemple, le montant total d'une facture, le nom d'un fournisseur ou le nom du titulaire du compte, le taux de succès atteignable est de 99%.

Sur des champs complexes, comme des lignes de facture présentant beaucoup de champs, on peut atteindre 95-96%.

Si vous êtes en dessous de ces standards, il vaut la peine de tester un autre outil afin d'évaluer le gain possible en qualité. Mais certains documents demeurent complexes et il est possible que la technologie ne puisse pas encore relever le défi.

Point important : les éditeurs affichent souvent des taux de réussite. Ils restent génériques : les cas d'usage sont toujours différents, et il est indispensable de mettre l'outil en situation sur vos documents. Pour un test fiable, réunissez un jeu de 20 documents du même type pour mesurer la qualité.

2. Processus human-in-the-loop

Une solution OCR n'atteindra jamais 100% de fiabilité pour l'extraction de vos champs. L'enjeu est donc d'isoler automatiquement les documents avec des risques erreurs.

Vérifiez si l'outil propose un score de confiance pour identifier les fichiers présentant un taux faible. Les scores s'appliquent au niveau de chaque champ extrait ? Est-il fiable ? Peut-on déterminer un score en dessous duquel la vérification humaine doit être systématique. 

L'outil permet-il de paramétrer des alertes lorsqu'une condition est remplie ? Exemples de détections spécifiques : documents plus longs que la moyenne, documents présentant des annexes, documents pris en photo de biais ou encore documents "hors sujets".

3. Intégration en API à vos outils

L'outil propose-t-il un API et un SDK (software development kit) avec une documentation complète ? Les formats de sortie de l'API doivent être communs et facilement exploitables par les développeurs (JSON, XML ou CSV). Des intégrations natives avec vos outils peuvent être aussi regardées : Google Drive, Slack ou votre ERP.

Au-delà de la réception ou de l'envoi des informations, les fonctionnalités de l'API peuvent inclure : la création de "modèles d'extraction" de documents et le routage automatique vers un modèle de documents, le choix des pages à traiter ou l'exclusion de certains documents.

4. Budget à la page

Pour un volume entre 1000 à 10000 pages par mois, le budget varie entre 0,08€ et 0,40€ la page fonction de la puissance de l'outil et ses fonctionnalités.

Il existe des solutions open-source comme Tesseract qui peuvent être utilisées directement sur le cloud. Seuls les coûts d'hébergement sont à prévoir. 

Liste des points à vérifier lorsqu'on achète un OCR

5. Rapidité

La vitesse de traitement dépend du fonctionnement de l'OCR. S'il s'agit d'un moteur OCR traditionnel, avec un apprentissage par machine learning ou d'un modèle OCR basé sur des LLM (pour en savoir plus sur cette différence, consulter notre article sur la question).

Les OCR traditionnels ont tendance à être plus rapide : 1 à 4 secondes par documents, contre 5-10 secondes pour les LLM basés sur la technologie de vision des LLM. Des outils comme Koncile présente un modèle hybride combinant les deux techniques pour obtenir de meilleurs résultats. 

6. Ajout et édition de champs sur mesure

Si vous souhaitez ajouter un champ ou donner une instruction spécifique pour formatter une donnée de sortie, tournez-vous plutôt vers les OCR avec une composante LLM. Les OCR traditionnels ont souvent une liste de champs fixes extraits des documents.

Prenons un exemple, vous souhaitez extraire le nom d'un fournisseur, et vous souhaitez que l'outil "choisisse" entre une liste de 5 fournisseurs, en gardant exactement le même texte. Ce sera possible dans le cas d'un OCR LLM où vous pouvez préciser cette condition au sein d'un prompt. 

7. Utilisation et accès par les non-développeurs

Le test de la qualité d'un OCR doit être validé par des spécialistes du métier et les utilisateurs finaux des données extraites, et non uniquement par les équipes techniques. Vérifiez donc s'il est facile pour un non-développeur de consulter la plateforme OCR et effectuer des paramétrages.

Dans le cas des OCR LLM, une plateforme de définition des champs peut être conçue spécifiquement pour des personnes du métier, afin qu'elles puissent donner des instructions spécifiques pour l'extraction. 

8. Formattage, correction et enrichissement des données

Un OCR peut se contenter d'extraire la donnée brute du document. Pour une bonne exploitation des données, vérifiez si l'OCR prévoit des formattages automatiques : date au format anglais ou français, nombre au format international, format devise, etc.

Un OCR doté de fonctionnalités LLM pourra également effectuer des enrichissements et des catégorisations des données extraites. Par exemple : déduire la ville à partir d'un code postal, vérifier la cohérence entre 2 données extraites, répondre à une question simple par oui ou par non. 

Consultez d'autres exemples d'enrichissements possibles dans cette page de notre documentation technique.

9. Performance sur les tableaux

Grâce aux OCR, vous pouvez extraire deux types d'informations : (i) les informations uniques, comme par exemple, le nom du titulaire d'une carte d'identité, le nom du fournisseur d'un devis ou le montant total d'une facture, et (ii) les informations répétées ou présentées sous forme de tableaux.

Seuls certains OCR comme Koncile permettent de parser chaque information de chaque ligne d'un tableau, et renvoyer un fichier avec toutes les lignes.

10. Performance sur l'écriture manuscrite

Certains outils sont spécialisés dans l’extraction de texte manuscrit grâce à des modèles de reconnaissance spécifiques (HTR – Handwritten Text Recognition). Il est important de vérifier la performance de l’outil sur vos documents, en testant plusieurs types d’écritures (cursive, script, annotations rapides, etc.).

Les OCR traditionnels rencontrent souvent des difficultés à extraire avec précision les écritures manuscrites complexes, tandis que les modèles basés sur les LLM ou l’apprentissage profond offrent de meilleures performances.

Certains outils permettent également d’entraîner des modèles sur votre propre jeu de données pour améliorer la reconnaissance des écritures spécifiques à votre domaine.

11. Performance sur les photos à plus faible résolution

De nombreux documents sont scannés ou photographiés avec une qualité variable. Certains OCR offrent une correction automatique pour améliorer la lisibilité des documents dégradés. Il est essentiel de vérifier comment l’outil gère les images floues, les photos prises avec des ombres, des plis ou des documents de travers.

Un bon OCR inclura des technologies de pré-traitement comme l’amélioration du contraste, la correction de perspective ou le redressement automatique du document.

12. Performance multilingue et caractères spéciaux

Si vous traitez des documents en plusieurs langues, l’OCR doit être capable de détecter et d’extraire correctement les informations sans confusion entre langues similaires (français/espagnol, allemand/néerlandais, etc.). De plus, certains documents contiennent des caractères spécifiques comme des symboles monétaires (€,$,¥), des caractères diacritiques (accents, cédilles) ou encore des alphabets non latins (cyrillique, chinois, arabe). Vérifiez que l’OCR prend bien en charge ces éléments.

13. Performance sur les sauts de pages

Certains documents courts peuvent être scannés sur plusieurs pages, notamment lorsqu’ils contiennent des tableaux, des annexes ou des signatures séparées.

Un bon OCR doit être capable d’associer correctement les données des différentes pages et de reconstruire les informations liées. La gestion des sauts de pages est particulièrement importante dans le traitement des factures et des relevés bancaires. Vérifiez si l’outil permet de fusionner les données extraites en un seul fichier ou s’il segmente automatiquement chaque page.

14. Catégorisation automatique des documents

Un OCR avancé ne se limite pas à extraire du texte, il doit aussi être capable de classifier automatiquement les documents en fonction de leur type. Par exemple, reconnaître qu’un fichier est une facture et non un relevé bancaire, ou encore identifier automatiquement le fournisseur d’un document.

Cette fonctionnalité est particulièrement utile si vous traitez des volumes importants de documents variés. Certains OCR utilisent des modèles d’intelligence artificielle pour classifier les documents et orienter l’extraction des informations vers les bons modèles de traitement.

15. Sécurité et conformité

La sécurité des données est un point clé dans le choix d’un OCR, surtout si vous traitez des documents sensibles contenant des informations personnelles ou financières. Vérifiez si la solution est conforme aux normes en vigueur, telles que le RGPD (pour l’Europe), la CCPA (pour la Californie) ou encore la norme ISO 27001.

Assurez-vous également que l’outil propose des mécanismes de chiffrement des données en transit et au repos, ainsi que des contrôles d’accès pour limiter les risques de fuite d’informations.

16. Stockage des données

Certaines solutions OCR stockent temporairement ou définitivement les documents traités sur leurs serveurs. Il est important de comprendre où et combien de temps ces données sont conservées. Si vous traitez des documents sensibles, privilégiez les solutions offrant une suppression immédiate des fichiers après traitement ou la possibilité d’héberger les données sur votre propre infrastructure.

Vérifiez également si l’outil permet une intégration avec vos solutions de stockage existantes, comme Google Drive, AWS S3 ou un serveur interne.

17. Déploiement on-premise

Si vous avez des exigences strictes en matière de confidentialité ou si votre entreprise interdit l’utilisation de services cloud externes, il peut être essentiel de choisir une solution OCR qui propose un déploiement “on-premise” (installé sur vos propres serveurs). Cela vous permettra de garder un contrôle total sur vos données et d’adapter les capacités de traitement à vos besoins internes.

Cependant, toutes les solutions OCR ne proposent pas cette option. Vérifiez également si le déploiement local nécessite un serveur puissant et quelles sont les contraintes de maintenance et de mises à jour.

Commencez à économiser aujourd’hui.

Les ressources Koncile

Extraire toutes les tables d'un PDF en 2 minutes grâce à l'IA

Apprenez rapidement comment transformer vos documents contenant des tableaux, des données ligne par ligne ou d'autres structures complexes en données prêtes à être utilisées dans des feuilles de calcul ou Excel. Convertissez les informations non structurées en données organisées et exploitables.

Blog

14/1/2025

Où en est l’Europe dans la mise en place de la facturation électronique ?

Cet article présente le déploiement de la facturation électronique en Europe.

Blog

12/12/2024

Maîtriser la Détection et l'Extraction de Tableaux dans des Documents

Cet article présente des méthodes utilisées aujourd'hui pour extraire des tableaux de documents numérisés

Fiche pratique

10/10/2024