Page d'accueil » Téléchargements de logiciels gratuits » Extraire du texte à partir de fichiers PDF et image

    Extraire du texte à partir de fichiers PDF et image

    Avez-vous un document PDF dont vous voudriez extraire tout le texte? Qu'en est-il des fichiers image d'un document numérisé que vous souhaitez convertir en texte modifiable? Voici quelques-uns des problèmes les plus courants rencontrés sur mon lieu de travail lorsque je travaille avec des fichiers..

    Dans cet article, je vais parler de différentes manières d’essayer d’extraire du texte d’un fichier PDF ou d’une image. Les résultats de votre extraction varient en fonction du type et de la qualité du texte du fichier PDF ou de l’image. De plus, vos résultats varient en fonction de l'outil que vous utilisez. Il est donc préférable d'essayer le plus grand nombre possible des options ci-dessous pour obtenir les meilleurs résultats..

    Extraire le texte de l'image ou du PDF

    Le moyen le plus simple et le plus rapide de commencer est d’essayer un service d’extraction de texte PDF en ligne. Celles-ci sont normalement gratuites et peuvent vous donner exactement ce que vous cherchez sans rien installer sur votre ordinateur. En voici deux que j'ai utilisées avec des résultats très bons à excellents:

    ExtrairePDF

    ExtractPDF est un outil gratuit permettant de récupérer des images, du texte et des polices dans un fichier PDF. La seule limite est que la taille maximale du fichier PDF est de 10 Mo. C'est un peu petit. Par conséquent, si vous avez un fichier plus volumineux, essayez une des méthodes ci-dessous. Choisissez votre fichier puis cliquez sur le Envoyer le fichier bouton. Les résultats sont normalement très rapides et vous devriez voir un aperçu du texte lorsque vous cliquez sur l'onglet Texte..

    C'est aussi un avantage supplémentaire non négligeable de pouvoir extraire des images du fichier PDF, juste au cas où vous en auriez besoin! Dans l’ensemble, l’outil en ligne fonctionne très bien, mais j’ai rencontré quelques documents PDF qui me donnent des résultats amusants. Le texte est bien extrait, mais pour une raison quelconque, il y aura un saut de ligne après chaque mot! Ce n’est pas un gros problème pour un fichier PDF court, mais un problème pour les fichiers contenant beaucoup de texte. Si cela vous arrive, essayez l'outil suivant.

    OCR en ligne

    La reconnaissance optique de caractères en ligne a généralement tendance à fonctionner pour les documents qui n'ont pas été convertis correctement avec ExtractPDF. Il est donc judicieux d'essayer les deux services pour voir lesquels vous offrent le meilleur résultat. L'OCR en ligne offre également des fonctionnalités plus utiles qui peuvent s'avérer utiles pour quiconque possède un fichier PDF volumineux qui n'a besoin que de convertir du texte sur quelques pages plutôt que du document entier..

    La première chose à faire est de créer un compte gratuit. C'est un peu agaçant, mais si vous ne créez pas le compte gratuit, il ne convertira que partiellement votre PDF plutôt que le document entier. De plus, au lieu de pouvoir uniquement télécharger un document de 5 Mo, vous pouvez télécharger jusqu'à 100 Mo par fichier avec un compte..

    Commencez par choisir une langue, puis choisissez le type de format de sortie souhaité pour le fichier converti. Vous avez plusieurs options et vous pouvez en choisir plusieurs si vous le souhaitez. Sous Document multipage, vous pouvez choisir Numéros de page puis choisissez uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur Convertir!

    Après la conversion, vous serez dirigé vers la section Documents (si vous êtes connecté) où vous pouvez voir le nombre de pages libres disponibles et de liens pour télécharger vos fichiers convertis. Il semble que vous ne disposiez que de 25 pages gratuites par jour. Si vous avez besoin de plus que cela, vous devrez soit attendre un peu, soit acheter plus de pages..

    OCR en ligne a fait un excellent travail de conversion de mes PDF, car il était capable de conserver la mise en page réelle du texte. Lors de mon test, j'ai pris un document Word qui utilisait des puces, différentes tailles de police, etc., et je l'ai converti au format PDF. Ensuite, j'ai utilisé OCR en ligne pour le reconvertir au format Word, qui était à peu près identique à l'original. C'est assez impressionnant pour moi.

    De plus, si vous souhaitez convertir une image en texte, OCR en ligne peut le faire aussi facilement que l'extraction de texte à partir de fichiers PDF..

    OCR en ligne gratuit

    Comme je parlais d’OCR d’image en texte, permettez-moi de mentionner un autre bon site Web qui fonctionne très bien avec les images. L'OCR en ligne gratuit était très bon et très précis lors de l'extraction de texte de mes images test. J'ai pris quelques photos de mon iPhone sur des pages de livres, de brochures, etc. et j'ai été surpris de voir à quel point il était possible de convertir le texte..

    Choisissez votre fichier, puis cliquez sur le bouton Télécharger. Sur l'écran suivant, il y a quelques options et un aperçu de l'image. Vous pouvez le rogner si vous ne voulez pas faire de la ROC. Ensuite, cliquez simplement sur le bouton OCR et votre texte converti apparaîtra sous l'aperçu de l'image. Il n'a pas non plus de limitations, ce qui est vraiment sympa.

    Outre les services en ligne, je souhaite mentionner deux convertisseurs de PDF gratuits, au cas où vous auriez besoin d'un logiciel s'exécutant localement sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d’une connexion Internet, ce qui peut ne pas être possible pour tout le monde. Cependant, j'ai remarqué que la qualité des conversions à partir des programmes gratuits était bien pire que celle des sites Web..

    Extracteur de texte A-PDF

    A-PDF Text Extractor est un logiciel gratuit qui extrait assez bien le texte à partir de fichiers PDF. Une fois que vous l'avez téléchargé et installé, cliquez sur le bouton Ouvrir pour choisir votre fichier PDF. Puis cliquez sur Extraire le texte pour lancer le processus..

    Il vous demandera un emplacement pour stocker le fichier de sortie texte, puis l'extraction commencera. Vous pouvez aussi cliquer sur le bouton Option bouton, qui vous permet de choisir uniquement certaines pages à extraire et le type d'extraction. La deuxième option est intéressante car elle extrait le texte dans différentes dispositions et il est intéressant d'essayer les trois pour voir laquelle vous donne le meilleur résultat..

    PDF2Text Pilot

    PDF2Text Pilot effectue un travail correct d’extraction de texte. Il n'a pas d'options vous ajoutez simplement des fichiers ou des dossiers, convertissez et espérez le meilleur. Cela fonctionnait bien sur certains PDF, mais pour la majorité d'entre eux, il y avait de nombreux problèmes.

    Cliquez simplement sur Ajouter des fichiers, puis cliquez sur Convertir. Une fois la conversion terminée, cliquez sur Parcourir pour ouvrir le fichier. Votre kilométrage variera selon ce programme, alors n’attendez pas grand chose.

    En outre, il convient de mentionner que si vous êtes dans un environnement d'entreprise ou pouvez mettre la main sur une copie d'Adobe Acrobat du travail, vous pouvez vraiment obtenir de bien meilleurs résultats. Acrobat n’est évidemment pas gratuit, mais il offre des options pour convertir les PDF en format Word, Excel et HTML. Il fait également le meilleur travail de maintenir la structure du document original et de convertir un texte compliqué.