pdf scraping
- Awesomatic
- Δημοσιεύσεις: 6553
- Εγγραφή: 16 Μάιος 2018, 00:11
- Phorum.gr user: Awesomatic
Re: pdf scraping
Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.
"Taxation is theft, purely and simply even though it is theft on a grand and colossal scale which no acknowledged criminals could hope to match. It is a compulsory seizure of the property of the State’s inhabitants, or subjects."
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Ιδέα δεν έχω. Αλλά τα Ελληνικά γράμματα βγαίνουν - μόνο που οι θέσεις τους δεν είναι στάνταρ μερικές φορές στο παραγόμενο text, τη σnick έγραψε: ↑21 Μάιος 2021, 11:22Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).wooded glade έγραψε: ↑21 Μάιος 2021, 11:17Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
στιγμή που όταν το διαβάζεις σαν pdf είναι.
* κάπου είδα που λέει αυτό αν εξηγεί τίποτα:
Producer(ώ M i c r o s o f t ® E x c e l ® f o r O f f i c e 3 6 5)
δεν είναι όλα κρού-σμα-τα
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Τι έκανα με το χέρι ;Awesomatic έγραψε: ↑21 Μάιος 2021, 11:25Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.
Αν θες να πεις ο adobe δεν σώνει καλά, ποιό σώνει ;
δεν είναι όλα κρού-σμα-τα
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Βλέπω εδώ ένα σωρό pdf to text converters.
Ένα που κατέβασα δεν εκτελεί αλλά υπάρχουν κι άλλα.
Πάντως η λογική μας είναι ότι ο adobe δεν σώνει καλά, οπόταν ποιό σώνει καλύτερα ;
Η άλλη λογική είναι να διορθώνω τα λαθάκια που το προσπαθώ βέβαια αλλά δεν πετυχαίνει 100%.
Ένα που κατέβασα δεν εκτελεί αλλά υπάρχουν κι άλλα.
Πάντως η λογική μας είναι ότι ο adobe δεν σώνει καλά, οπόταν ποιό σώνει καλύτερα ;
Η άλλη λογική είναι να διορθώνω τα λαθάκια που το προσπαθώ βέβαια αλλά δεν πετυχαίνει 100%.
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Κανε μια upload εδω.
https://www.pdftron.com/pdf-tools/article-extraction/
https://www.pdftron.com/pdf-tools/article-extraction/
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Ε τι ; Αυτό pdf μου ξανάβγαλε (μιά σελίδα από τις 16).nick έγραψε: ↑21 Μάιος 2021, 11:33Κανε μια upload εδω.
https://www.pdftron.com/pdf-tools/article-extraction/
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.klg έγραψε: ↑21 Μάιος 2021, 10:41
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Όποιος δε θέλει να ζυμώσει, είκοσι χρόνια σεχταρίζει
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Δεν μου φαίνεται να το προκαλούν οι σπάσες.vatraxos έγραψε: ↑21 Μάιος 2021, 11:49Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.klg έγραψε: ↑21 Μάιος 2021, 10:41
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Αφού λέμε πάνε ανάκατα.
Εκεί που πρέπει να λέει "όνομα" και στην από κάτω σειρά "ποσόν" λέει πάνω το "ποσόν" και από κάτω το "όνομα". Τέτοια λάθη - ενώ την ίδια στιγμή επί του PDF φαίνονται όλα ολόσωστα.
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Όποιος δε θέλει να ζυμώσει, είκοσι χρόνια σεχταρίζει
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
δεν είναι όλα κρού-σμα-τα
- Awesomatic
- Δημοσιεύσεις: 6553
- Εγγραφή: 16 Μάιος 2018, 00:11
- Phorum.gr user: Awesomatic
Re: pdf scraping
Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;wooded glade έγραψε: ↑21 Μάιος 2021, 11:59Ξέρεις απ' αυτά ;
https://www.mediafire.com/file/znux3987 ... b.pdf/file
"Taxation is theft, purely and simply even though it is theft on a grand and colossal scale which no acknowledged criminals could hope to match. It is a compulsory seizure of the property of the State’s inhabitants, or subjects."
Re: pdf scraping
wooded τον αυγολέμονο τον ξέρεις;
Re: pdf scraping
Θα ζητήσω βοήθεια από τον ΑΛΟΓΟΜΟΥΡΗΣ αν χρειαστεί.wooded glade έγραψε: ↑21 Μάιος 2021, 11:59Ξέρεις απ' αυτά ;
https://www.mediafire.com/file/znux3987 ... b.pdf/file
Όποιος δε θέλει να ζυμώσει, είκοσι χρόνια σεχταρίζει
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Ναι από την 5 και μετά.Awesomatic έγραψε: ↑21 Μάιος 2021, 12:04Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;wooded glade έγραψε: ↑21 Μάιος 2021, 11:59Ξέρεις απ' αυτά ;
https://www.mediafire.com/file/znux3987 ... b.pdf/file
Ας πάρουμε τους τζόκεϋ.
Είναι όπως βλέπεις οι Ruis S., Αττίκος Κ., Duporte A., Michel M., Bourgois V., Neuville L., της σελίδας 5.
Ο τρίτος, ο Duporte A., στο text βγαίνει εκτός θέσεως. Γιατί ;
δεν είναι όλα κρού-σμα-τα