Tesseract.js apporte la traduction OCR des images aux navigateurs

La traduction OCR n’est toujours pas parfaite, mais elle s’est considérablement améliorée au cours des dernières années. Tesseract ouvre la voie moteur de traduction actuellement open source dans C++.

Bien que cette bibliothèque soit incroyable, elle est toutefois limitée aux logiciels. Heureusement, quelqu'un a transformé un port de Tesseract en JavaScript, appelé Tesseract.js. Il supporte jusqu'à 60 langues et bien que ce ne soit certainement pas parfait, il fait bien le travail.

L'installation et la configuration est un jeu d'enfant où vous pouvez cibler n'importe quel élément d'image sur la page et lancez le Tesseract.recognize () une fonction. Cela peut prendre n'importe quel type d'image et ça va automatiquement compresser et traduire directement dans le navigateur.

Vous pouvez avoir beaucoup plus compliqué mais la beauté est comment vous pouvez exécuter OCR avec une seule ligne de code.

Consultez la page de renvoi de Tesseract.js si vous souhaitez voir une démonstration en direct. Cela fonctionne directement dans le navigateur où vous pouvez Glissez-déposez n'importe quelle image numérisée de texte pour obtenir une traduction automatique par OCR..

Vous pouvez également télécharger cet exemple localement via la page GitHub ou créer votre propre application en incluant le script Tesseract.js directement à partir d'un CDN..

L'exemple de code le plus simple ressemble à l'exemple suivant: mon image est une référence directe à un élément d'image HTML:

 Tesseract.recognize (myImage) .then (function (result) console.log (result));

Quoi qu'il en soit, cette bibliothèque est très utile pour démarrer avec l'OCR sur le Web. C'est loin d'être parfait mais c'est aussi le meilleure ressource pour les développeurs Web qui veulent une fonctionnalité OCR dynamique sur la page.

Pour en savoir plus, visitez la page GitHub de Tesseract.js où vous pouvez visionner une démonstration en direct et parcourir la documentation en ligne..