Comment copier du texte à partir d'un PDF tout en préservant la mise en forme?
PDF, le format de document omniprésent, est idéal pour partager des documents tout en préservant les polices, les images et la disposition générale sur toutes les plateformes. Existe-t-il un moyen simple de conserver cette mise en forme lors de la copie et du collage de texte hors du document??
La séance de questions et réponses d'aujourd'hui nous est offerte par SuperUser, une sous-division de Stack Exchange, un groupe de sites Web de questions-réponses dirigé par la communauté..
La question
Lecteur SuperUser Colen recherche un moyen d'extraire du texte à partir de PDF tout en préservant le formatage:
Lorsque je copie du texte d'un fichier PDF dans un éditeur de texte, il finit par être endommagé de différentes manières. Le formatage, comme gras et italique, est perdu; Les sauts de ligne souples dans un paragraphe de texte sont convertis en sauts de ligne durs; les tirets pour casser un mot sur deux lignes sont conservés même s'ils ne devraient pas l'être; et les guillemets simples et doubles sont remplacés par? des signes.
Idéalement, j'aimerais pouvoir copier du texte à partir d'un fichier PDF et convertir le formatage en codes HTML, convertir les "guillemets intelligents" en "et", ainsi que les sauts de ligne correctement. Y a-t-il un moyen de faire ça?
Existe-t-il un moyen simple et rapide pour Colen (et le reste d’entre nous) d’obtenir un texte instantané sans sacrifier la mise en forme??
La réponse
Contributeur de SuperUser Frabjous offre une solution combinée avec une forte dose de prudence:
Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée et sont conçus uniquement comme un format de sortie, pas un format de saisie. Un PDF est essentiellement une carte contenant l'emplacement exact des caractères (lettres individuelles ou ponctuation, etc.) ou des images. Dans la plupart des cas, un fichier PDF ne stocke même pas d'informations sur la fin d'un mot et le début d'un autre, et encore moins sur les points faibles et les points durs pour les fins de paragraphe..
(Quelques fichiers PDF récents stockent des informations sur ces éléments, mais il s’agit d’une nouvelle technologie et vous auriez de la chance de trouver de tels fichiers. Même si vous l’aviez fait, votre lecteur de PDF ne l’aurait peut-être pas appris.)
Quoi qu'il en soit, il appartient à votre logiciel d'implémenter une sorte d '«intelligence artificielle» pour extraire simplement à partir des emplacements de caractères individuels ce qui est un mot, ce qui est un paragraphe, etc. Différents logiciels le feront mieux que d’autres, et cela dépendra également de la façon dont le PDF a été créé. Dans tous les cas, vous ne devez jamais vous attendre à des résultats parfaits. Avoir le fichier PDF en sortie n'est pas la même chose que d'avoir le document source. Il est de loin préférable d’obtenir que si vous le pouvez.
La solution standard à votre type de problème consiste à utiliser Adobe Acrobat Professional (le cher, pas le lecteur gratuit) pour convertir le PDF en HTML. Même cela ne va pas donner des résultats parfaits.
Il existe un logiciel gratuit qui peut être utilisé pour extraire du texte à partir de PDF avec une partie de la mise en forme intacte, mais encore une fois, ne vous attendez pas à des résultats parfaits. Voir, par exemple, calibre (qui peut convertir au format RTF), pdftohtml / pdfreflow ou le traitement de texte AbiWord (avec tous les plug-ins d'importation / exportation activés). Il y a aussi un plugin d'importation PDF pour OpenOffice.
Mais s'il vous plaît ne vous attendez pas à la perfection avec aucun de ces résultats. Vous allez à contre-courant ici. PDF n'est tout simplement pas conçu comme un format d'entrée éditable.
Si vous ne parvenez pas à choisir l'outil par lequel commencer, Calibre est un véritable couteau suisse de document. Vous pouvez également l'utiliser pour convertir des fichiers PDF à utiliser sur votre lecteur de livre électronique et organiser votre bibliothèque de livres / documents électroniques..
Avez-vous quelque chose à ajouter à l'explication? Sound off dans les commentaires. Voulez-vous lire plus de réponses d'autres utilisateurs de Stack Exchange doués en technologie? Découvrez le fil de discussion complet ici.