.png)
Comparez 4 OCR selon vos usages métiers, types de documents, intégration API, personnalisation et logique métier.
Blog
Dernière mise à jour :
April 18, 2025
5 minutes
Et si vos documents savaient où aller… sans que vous n’ayez à leur dire ? La gestion documentaire évolue : aujourd’hui, des technologies comme l’OCR intelligent sont capables de reconnaître, trier et orienter automatiquement des documents, même complexes ou multilingues. Dans cet article, nous mettons à l’épreuve un moteur de classification sur un cas concret : des documents d’identité issus de plusieurs pays. Découvrez comment automatiser ce tri avec précision — sans configuration manuelle.
Comment classer automatiquement avec précision grâce à l’OCR intelligent ? Cas concret à découvrir sur les documents d’identité.
Classification documentaire, catégorisation automatique, tri intelligent… autant de termes qui désignent une capacité clé dans un monde professionnel saturé de documents. Qu’il s’agisse de fiches de paie, de factures fournisseurs, de contrats, ou encore de documents d’identité, le besoin d’organiser et de trier efficacement l’information est devenu critique dans de nombreux secteurs.
Banques, assurances, santé, logistique, Ressources humaines ou encore secteurs publics : tous font face à un afflux massif de documents hétérogènes, souvent sensibles, à traiter rapidement et sans erreur.
Mais la gestion manuelle de ces flux atteint vite ses limites : lenteur, risque d’erreurs, coûts humains élevés. C’est ici que les technologies de traitement intelligent de documents entrent en jeu : intelligence artificielle, machine learning et reconnaissance optique de caractères (OCR) permettent désormais d’automatiser l’analyse et la classification de grands volumes de documents.
Il s’agit de la capacité à reconnaître automatiquement la nature d’un document (ex : « contrat », « passeport », « facture », etc.), sans intervention humaine, afin de l’orienter vers le bon traitement ou la bonne base de données.
Cette phase est cruciale dans un processus d'automatisation documentaire, car elle conditionne les étapes suivantes (extraction de données, validation, archivage…).
Dans cet article, nous illustrons cette capacité à travers un cas d’usage concret : la classification automatique de documents d’identité multilingues (cartes nationales d’identité, passeports, permis de conduire, titres de séjour) à l’aide de la solution Koncile.
Koncile est une solution d’OCR intelligente spécialisée dans l’extraction de données précises à partir de documents complexes tels que des contrats, fiches de paie, états de situation, ou documents de transport.
Notre objectif est simple : proposer un système rapide, fiable, sans configuration manuelle.
Dans cet exemple, nous avons testé notre moteur de classification automatique sur un jeu de documents d’identité (CNI, passeports, permis, titres de séjour) issus de plusieurs pays.
Nous avons utilisé un jeu de 18 documents (permis, titre de séjour, CNI, passeport) incluant :
Répartition des documents test:
Objectif: Evaluer la performance de notre système sans aucune indication contextuelle.
Voici les étapes de ce premier test :
1- Création d’un dossier pour les documents d’identités
2- Ajout des modèles d’extraction disponible
Dans ce premier test, nous ne rajoutons pas de description sur le type d’information à retrouver dans ce dossier et nous ajoutons uniquement les modèles des documents à extraire à partir des modèles d’extraction deja créer sur l’application.
3 - Importation des différents type de documents sans classification
Dans cette phase, nous avons procédé à l'importation brute de l'ensemble des 18 documents d’identité, sans appliquer de règle de tri ni de consigne spécifique. L’objectif est d’observer le comportement par défaut du moteur d’autoclassification de Koncile devant une collection de documents de natures différentes
L’objectif est d’observer si le moteur est capable :
Résultat du test 1
Malgré l’absence de consigne explicite, notre moteur a su identifier les types de documents (CNI, passeport, permis, etc.) et appliquer une classification automatique fondée sur leurs caractéristiques visuelles et textuelles. Chaque document a ainsi été correctement classé dans la bonne catégorie, et ce, malgré la diversité des langues utilisées.
Soit un taux de réussite de 100%.
Objectif : Tester la différenciation automatique entre les documents français et britanniques également sans aucune indication contextuelle.
1- Création de deux dossier documents d’identité
pour ce nouveau test nous allons compliquer les choses en créant deux dossier séparer à savoir un comportant les documents d’identité français et un comportant les documents d’identité exclusivement de Grande Bretagne. La classification se basera comme pour le test précedent uniquement sur le nom du dossier et du modèle sans description suplémentaire.
2- Ajout des modèles d’extraction disponible
Comme pour l’étape précédente nous ajoutons les différents modèles d’extraction dans les deux dossiers.
3 - Importation des différents type de documents sans classification
Résultat du test 2
Soit un taux de réussite de 83,33 %%.
Les permis de conduire et titres de séjour sont parfaitement reconnus (4/4 et 3/3). Les erreurs observées concernent deux cartes d’identité (l’une britannique, l’autre italienne) qui ont été classées à tort dans le dossier français, ainsi qu’un passeport italien également classé par erreur côté France.
Ces erreurs restent compréhensibles, notamment pour les documents italiens (qui représentent 2 des 3 cas de mauvaise classification), puisqu’aucune catégorie dédiée à l’Italie n’avait été créée à ce stade, et aucune consigne explicite n’indiquait d’exclure les documents étrangers. Le moteur a donc classé ces documents par similarité linguistique ou visuelle, en l’absence de directives précises.
Objectif : Observer les effets d’un prompt descriptif sur la précision de la classification.
Prompt du dossier "Documents d’identité étrangers" :
"Extraire uniquement les documents d'identité délivrés par des autorités officielles étrangères, à l’exclusion de tout document émis par la France. Peu importe la langue utilisée (français, anglais ou autre), tous les documents provenant de pays autres que la France doivent être inclus : passeports, permis de conduire, cartes d'identité, etc. Les documents français (c’est-à-dire émis par des institutions françaises), doivent être systématiquement ignorés, même s’ils sont rédigés en anglais ou en toute autre langue."
Prompt du dossier "Documents d’identité FR" :
"Extraire uniquement les documents d'identité délivrés par des autorités officielles françaises. Tous les documents doivent avoir été émis par des institutions françaises : passeports, cartes d'identité, permis de conduire, titres de séjour, etc. Les documents émis par des pays étrangers doivent être systématiquement ignorés, même s’ils sont rédigés en français"
Résultat du test 3
Ce troisième test de classification automatique des documents d’identité marque une nette progression par rapport au précédent. Lors du second test, le taux de réussite atteignait 83,33 %, avec plusieurs erreurs de classification, notamment sur les cartes nationales d’identité (CNI).
Dans cette nouvelle itération, l’intégralité des 18 documents a été correctement classée soit un taux de réussite de 100 %.
Cette amélioration significative s’explique notamment par l’ajout d’un prompt contextualisé, qui a permis à l’outil d’interpréter les documents avec plus de précision. En fournissant un cadre clair et des consignes explicites, les performances du modèle se sont nettement améliorées, en particulier sur les cas précédemment sources d’erreurs.
Dans le cas de situations encore plus complexes que celui-ci (par exemple : absence de libellé explicite du type de document, peu d’éléments distinctifs visuels, document technique...), plusieurs pistes d’optimisation peuvent être envisagées pour améliorer encore la précision de la classification.
La classification documentaire automatique n’est plus une simple fonctionnalité technique : c’est un levier stratégique pour toutes les organisations confrontées à des volumes massifs de documents hétérogènes.
Comme l’illustrent nos tests, notre solution démontre une précision élevée, même sans paramétrage préalable, grâce à ses capacités avancées d’analyse visuelle, textuelle et contextuelle.
En intégrant des prompts descriptifs ou en affinant les catégories de tri, il est possible d’atteindre des niveaux de performance encore supérieurs, rendant la gestion documentaire plus fluide, plus fiable, et surtout moins dépendante de l’intervention humaine.
Les ressources Koncile
Comparez 4 OCR selon vos usages métiers, types de documents, intégration API, personnalisation et logique métier.
Blog
Comparatif complet des meilleures solutions OCR : Performances, cas d’usage, tarifs.
Blog
Automatiser le KYC, c’est réduire les erreurs, gagner du temps et renforcer la conformité. Découvrez comment l’intelligence documentaire révolutionne les processus d’identification client dans les secteurs les plus exigeants.
Blog