Document Categorization par OCR intelligent : vers un tri automatique et fiable

Dernière mise à jour :

April 18, 2025

5 minutes

Et si vos documents savaient où aller… sans que vous n’ayez à leur dire ? La gestion documentaire évolue : aujourd’hui, des technologies comme l’OCR intelligent sont capables de reconnaître, trier et orienter automatiquement des documents, même complexes ou multilingues. Dans cet article, nous mettons à l’épreuve un moteur de classification sur un cas concret : des documents d’identité issus de plusieurs pays. Découvrez comment automatiser ce tri avec précision — sans configuration manuelle.

Comment classer automatiquement avec précision grâce à l’OCR intelligent ? Cas concret à découvrir sur les documents d’identité.

Gros plan sur des mains triant des dossiers dans une boîte de classement jaune. Un texte en surimpression indique : « Classification documentaire avec OCR intelligent – Vers un tri automatisé et fiable », accompagné d’un encadré jaune avec la lettre « K », représentant la solution Koncile de traitement intelligent de documents.

Classification documentaire, catégorisation automatique, tri intelligent… autant de termes qui désignent une capacité clé dans un monde professionnel saturé de documents. Qu’il s’agisse de fiches de paie, de factures fournisseurs, de contrats, ou encore de documents d’identité, le besoin d’organiser et de trier efficacement l’information est devenu critique dans de nombreux secteurs.

Banques, assurances, santé, logistique, Ressources humaines ou encore secteurs publics : tous font face à un afflux massif de documents hétérogènes, souvent sensibles, à traiter rapidement et sans erreur.

Mais la gestion manuelle de ces flux atteint vite ses limites : lenteur, risque d’erreurs, coûts humains élevés. C’est ici que les technologies de traitement intelligent de documents entrent en jeu : intelligence artificielle, machine learning et reconnaissance optique de caractères (OCR) permettent désormais d’automatiser l’analyse et la classification de grands volumes de documents.

Qu’est-ce que la classification documentaire ?

Il s’agit de la capacité à reconnaître automatiquement la nature d’un document (ex : « contrat », « passeport », « facture », etc.), sans intervention humaine, afin de l’orienter vers le bon traitement ou la bonne base de données.

Cette phase est cruciale dans un processus d'automatisation documentaire, car elle conditionne les étapes suivantes (extraction de données, validation, archivage…).

Dans cet article, nous illustrons cette capacité à travers un cas d’usage concret : la classification automatique de documents d’identité multilingues (cartes nationales d’identité, passeports, permis de conduire, titres de séjour) à l’aide de la solution Koncile.

Classification documentaire appliquée à l'identité

Koncile est une solution d’OCR intelligente spécialisée dans l’extraction de données précises à partir de documents complexes tels que des contrats, fiches de paie, états de situation, ou documents de transport.

Notre objectif est simple : proposer un système rapide, fiable, sans configuration manuelle.

Dans cet exemple, nous avons testé notre moteur de classification automatique sur un jeu de documents d’identité (CNI, passeports, permis, titres de séjour) issus de plusieurs pays.

Protocole de test

Nous avons utilisé un jeu de 18 documents (permis, titre de séjour, CNI, passeport)  incluant :

  • Des documents d’identité français
  • Des documents britanniques
  • Et des documents italiens, volontairement non ciblés dans notre test pour vérifier l'exclusion automatique.

Répartition des documents test:

Type de document Détail par langue et total
Permis Français : 2 / Anglais : 2 / Italien : x / Total : 4
Titre de séjour Français : 2 / Anglais : 1 / Italien : x / Total : 3
CNI Français : 4 / Anglais : 2 / Italien : 1 / Total : 7
Passeport Français : 2 / Anglais : 1 / Italien : 1 / Total : 4
Total général Français : 10 / Anglais : 6 / Italien : 2 / Total : 18

Test 1: Classification par type de document

Objectif: Evaluer la performance de notre système sans aucune indication contextuelle.

Voici les étapes de ce premier test :

1- Création d’un dossier pour les documents d’identités

2- Ajout des modèles d’extraction disponible

Dans ce premier test, nous ne rajoutons pas de description sur le type d’information à retrouver dans ce dossier et nous ajoutons uniquement les modèles des documents à extraire à partir des modèles d’extraction deja créer sur l’application.

3 - Importation des différents type de documents sans classification

Dans cette phase, nous avons procédé à l'importation brute de l'ensemble des 18 documents d’identité, sans appliquer de règle de tri ni de consigne spécifique. L’objectif est d’observer le comportement par défaut du moteur d’autoclassification de Koncile devant une collection de documents de natures différentes

L’objectif est d’observer si le moteur est capable :

  • D’identifier les documents pertinents
  • De déterminer leur nature (CNI, passeport, permis…)
  • De classer automatiquement sans aide humaine

Résultat du test 1

Malgré l’absence de consigne explicite, notre moteur a su identifier les types de documents (CNI, passeport, permis, etc.) et appliquer une classification automatique fondée sur leurs caractéristiques visuelles et textuelles. Chaque document a ainsi été correctement classé dans la bonne catégorie, et ce, malgré la diversité des langues utilisées.

Type de document Résultat de la classification
Permis 4 documents correctement classés sur 4
Titre de séjour 3 documents correctement classés sur 3
CNI 7 documents correctement classés sur 7
Passeport 4 documents correctement classés sur 4
Total général 18 documents classés avec succès sur 18

Soit un taux de réussite de 100%.

Test 2: Classification par pays  

Objectif : Tester la différenciation automatique entre les documents français et britanniques également sans aucune indication contextuelle.

1- Création de deux dossier documents d’identité

pour ce nouveau test nous allons compliquer les choses en créant deux dossier séparer à savoir un comportant les documents d’identité français et un comportant les documents d’identité exclusivement de Grande Bretagne. La classification se basera comme pour le test précedent uniquement sur le nom du dossier et du modèle sans description suplémentaire.

2- Ajout des modèles d’extraction disponible

Comme pour l’étape précédente nous ajoutons les différents modèles d’extraction dans les deux dossiers.

3 - Importation des différents type de documents sans classification

Résultat du test 2

Type de document Résultat de la classification
Permis 4 documents correctement classés sur 4
Titre de séjour 3 documents correctement classés sur 3
CNI 5 documents correctement classés sur 7
Passeport 3 documents correctement classés sur 4
Total général 15 documents classés avec succès sur 18

Soit un taux de réussite de 83,33 %%.

Les permis de conduire et titres de séjour sont parfaitement reconnus (4/4 et 3/3). Les erreurs observées concernent deux cartes d’identité (l’une britannique, l’autre italienne) qui ont été classées à tort dans le dossier français, ainsi qu’un passeport italien également classé par erreur côté France.

Ces erreurs restent compréhensibles, notamment pour les documents italiens (qui représentent 2 des 3 cas de mauvaise classification), puisqu’aucune catégorie dédiée à l’Italie n’avait été créée à ce stade, et aucune consigne explicite n’indiquait d’exclure les documents étrangers. Le moteur a donc classé ces documents par similarité linguistique ou visuelle, en l’absence de directives précises.

Test 3 : Rajouter une description au dossier

Objectif : Observer les effets d’un prompt descriptif sur la précision de la classification.

Prompt du dossier "Documents d’identité étrangers" :
"Extraire uniquement les documents d'identité délivrés par des autorités officielles étrangères, à l’exclusion de tout document émis par la France. Peu importe la langue utilisée (français, anglais ou autre), tous les documents provenant de pays autres que la France doivent être inclus : passeports, permis de conduire, cartes d'identité, etc. Les documents français (c’est-à-dire émis par des institutions françaises), doivent être systématiquement ignorés, même s’ils sont rédigés en anglais ou en toute autre langue."

Prompt du dossier "Documents d’identité FR" :
"Extraire uniquement les documents d'identité délivrés par des autorités officielles françaises. Tous les documents doivent avoir été émis par des institutions françaises : passeports, cartes d'identité, permis de conduire, titres de séjour, etc. Les documents émis par des pays étrangers doivent être systématiquement ignorés, même s’ils sont rédigés en français"

Résultat du test 3

Type de document Résultat de la classification
Permis 4 documents correctement classés sur 4
Titre de séjour 3 documents correctement classés sur 3
CNI 7 documents correctement classés sur 7
Passeport 4 documents correctement classés sur 4
Total général 18 documents classés avec succès sur 18

Ce troisième test de classification automatique des documents d’identité marque une nette progression par rapport au précédent. Lors du second test, le taux de réussite atteignait 83,33 %, avec plusieurs erreurs de classification, notamment sur les cartes nationales d’identité (CNI).

Dans cette nouvelle itération, l’intégralité des 18 documents a été correctement classée soit un taux de réussite de 100 %.

Cette amélioration significative s’explique notamment par l’ajout d’un prompt contextualisé, qui a permis à l’outil d’interpréter les documents avec plus de précision. En fournissant un cadre clair et des consignes explicites, les performances du modèle se sont nettement améliorées, en particulier sur les cas précédemment sources d’erreurs.

Les solutions pour améliorer la fiabilité

Dans le cas de situations encore plus complexes que celui-ci (par exemple : absence de libellé explicite du type de document, peu d’éléments distinctifs visuels, document technique...), plusieurs pistes d’optimisation peuvent être envisagées pour améliorer encore la précision de la classification.

  • Créer des catégories/dossier supplémentaires pour améliore la classification : en ajoutant des dossiers , le moteur pourra mieux répartir les documents par origine, évitant les confusions dues à la similarité visuelle ou linguistique avec d'autres documents européens par exemple.
  • Utiliser des prompts spécifiques par type de document : des descriptions ciblées peuvent être définies par modèle documentaire (CNI, passeport, permis…), ce qui permet au système d'appliquer des critères encore plus fins (autorité émettrice, langue, format, etc.).
  • Exploiter la structure visuelle du document: Prendre en compte la disposition des blocs (photo, champs, signatures) peut aider à différencier des documents visuellement similaires.
  • Définir un mécanisme de doute ou de vérification humaine: En cas de faible confiance, soumettre le document à une validation manuelle permet de garantir la qualité tout en affinant les modèles.

La classification documentaire automatique n’est plus une simple fonctionnalité technique : c’est un levier stratégique pour toutes les organisations confrontées à des volumes massifs de documents hétérogènes.

Comme l’illustrent nos tests, notre solution démontre une précision élevée, même sans paramétrage préalable, grâce à ses capacités avancées d’analyse visuelle, textuelle et contextuelle.

En intégrant des prompts descriptifs ou en affinant les catégories de tri, il est possible d’atteindre des niveaux de performance encore supérieurs, rendant la gestion documentaire plus fluide, plus fiable, et surtout moins dépendante de l’intervention humaine.

Jules Ratier

Co-fondateur de Koncile - Transformez n’importe quel document en données structurées grâce aux LLM - jules@koncile.ai

Jules dirige le développement produit chez Koncile, en particulier comment transformez des documents non-structurés en valeur pour l'entreprise.

Les ressources Koncile

Automatiser le KYC, c’est réduire les erreurs, gagner du temps et renforcer la conformité. Découvrez comment l’intelligence documentaire révolutionne les processus d’identification client dans les secteurs les plus exigeants.

Blog

10/4/2025