Extraction de données Chaîne de PDF de plusieurs pages colonnes avec Python

voix
0

J'ai des fichiers PDF qui sont organisés en colonnes que je dois gratter. Le problème est que chaque colonne est de plusieurs pages et ne sont pas dans la disposition typique des colonnes, par exemple:

******Column 1******************Column 2*************

Sombody once told me Finger and her thumb The world was gonna In the shape of an L Roll me. I ain't the On her forehead. Well *******************NEXT PAGE************************** Sharpest tool in the The years start coming Shed. She was looking And they don't stop coming Kind of dumb with her

Je l'ai essayé d'utiliser des racleurs standard PDF comme PDFMiner mais elle retournera une chaîne qui se lit comme:

Sombody m'a dit une fois
le monde allait
me rouler. Je ne suis pas le
doigt et son pouce

Toute aide serait appréciée!

Créé 02/09/2018 à 05:04
source utilisateur
Dans d'autres langues...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more