L'OCR (Optical Character Recognition, ou Reconnaissance Optique de Caractères) est une technologie qui permet de convertir différents types de documents, tels que des images numérisées, des fichiers PDF ou des photos de texte, en données textuelles modifiables et consultables. En d'autres termes, l'OCR transforme une image contenant du texte en un fichier texte que vous pouvez éditer.
Cette technologie fonctionne en analysant l'image d'un texte et en identifiant les caractères individuels ainsi que leur disposition, pour ensuite les transformer en texte éditable. Les logiciels OCR utilisent généralement des algorithmes d'intelligence artificielle et d'apprentissage automatique pour améliorer leur précision de reconnaissance. Les logiciels OCR "classiques" se contentent de transcrire le texte brut.
Cependant, des solutions avancées comme vont bien au-delà de la simple transcription. Elles ne se contentent pas de transformer tout le texte d'un document en données. Grâce à l'intégration de l'IA, et en particulier des LLM (grands modèles de langage), ces logiciels sont capables d'identifier et d'extraire les données spécifiques que recherche l'utilisateur. Par exemple, dans une facture, Koncile peut automatiquement trouver et extraire le montant total, le nom du fournisseur, la date, le détail des lignes (produits, quantités, prix unitaires), les numéros de TVA, et bien plus encore. Koncile comprend le document et en extrait les informations pertinentes de manière structurée, prêtes à être utilisées dans d'autres systèmes (comptabilité, ERP, etc.). C'est ce qu'on appelle l'extraction intelligente de données.