pdf scraping

Λογισμικό, λειτουργικά συστήματα, προγραμματισμός, hardware, δίκτυα, Internet
Άβαταρ μέλους
Awesomatic
Δημοσιεύσεις: 6553
Εγγραφή: 16 Μάιος 2018, 00:11
Phorum.gr user: Awesomatic

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από Awesomatic » 21 Μάιος 2021, 11:25

Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.
"Taxation is theft, purely and simply even though it is theft on a grand and colossal scale which no acknowledged criminals could hope to match. It is a compulsory seizure of the property of the State’s inhabitants, or subjects."

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:27

nick έγραψε:
21 Μάιος 2021, 11:22
wooded glade έγραψε:
21 Μάιος 2021, 11:17
nick έγραψε:
21 Μάιος 2021, 11:09


Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...
Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).
Ιδέα δεν έχω. Αλλά τα Ελληνικά γράμματα βγαίνουν - μόνο που οι θέσεις τους δεν είναι στάνταρ μερικές φορές στο παραγόμενο text, τη σ
στιγμή που όταν το διαβάζεις σαν pdf είναι.


* κάπου είδα που λέει αυτό αν εξηγεί τίποτα:

Producer(ώ M i c r o s o f t ® E x c e l ® f o r O f f i c e 3 6 5)
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:28

Awesomatic έγραψε:
21 Μάιος 2021, 11:25
Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.
Τι έκανα με το χέρι ;
Αν θες να πεις ο adobe δεν σώνει καλά, ποιό σώνει ;
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:32

Βλέπω εδώ ένα σωρό pdf to text converters.
Ένα που κατέβασα δεν εκτελεί αλλά υπάρχουν κι άλλα.
Πάντως η λογική μας είναι ότι ο adobe δεν σώνει καλά, οπόταν ποιό σώνει καλύτερα ;
Η άλλη λογική είναι να διορθώνω τα λαθάκια που το προσπαθώ βέβαια αλλά δεν πετυχαίνει 100%.
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
nick
Δημοσιεύσεις: 6290
Εγγραφή: 25 Μάιος 2018, 22:21

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από nick » 21 Μάιος 2021, 11:33


Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:40

nick έγραψε:
21 Μάιος 2021, 11:33
Κανε μια upload εδω.
https://www.pdftron.com/pdf-tools/article-extraction/
Ε τι ; Αυτό pdf μου ξανάβγαλε (μιά σελίδα από τις 16).
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
vatraxos
Συντονιστής
Δημοσιεύσεις: 10556
Εγγραφή: 30 Μαρ 2018, 22:26
Τοποθεσία: Ειδυλλιακή

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από vatraxos » 21 Μάιος 2021, 11:49

klg έγραψε:
21 Μάιος 2021, 10:41

Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.
Όποιος δε θέλει να ζυμώσει, είκοσι χρόνια σεχταρίζει

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:54

vatraxos έγραψε:
21 Μάιος 2021, 11:49
klg έγραψε:
21 Μάιος 2021, 10:41

Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.
Δεν μου φαίνεται να το προκαλούν οι σπάσες.
Αφού λέμε πάνε ανάκατα.
Εκεί που πρέπει να λέει "όνομα" και στην από κάτω σειρά "ποσόν" λέει πάνω το "ποσόν" και από κάτω το "όνομα". Τέτοια λάθη - ενώ την ίδια στιγμή επί του PDF φαίνονται όλα ολόσωστα.
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
vatraxos
Συντονιστής
Δημοσιεύσεις: 10556
Εγγραφή: 30 Μαρ 2018, 22:26
Τοποθεσία: Ειδυλλιακή

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από vatraxos » 21 Μάιος 2021, 11:56

Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Όποιος δε θέλει να ζυμώσει, είκοσι χρόνια σεχταρίζει

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:59

vatraxos έγραψε:
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
sys3x
Δημοσιεύσεις: 40061
Εγγραφή: 31 Μαρ 2018, 21:40
Τοποθεσία: m lagou

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από sys3x » 21 Μάιος 2021, 12:01

Είναι παγίδα Γουντ, μη τσιμπάς.
ΛΕΥΤΕΡΙΑ ΣΤΟΝ ΛΑΟ ΤΗΣ ΠΑΛΑΙΣΤΙΝΗΣ

.

Άβαταρ μέλους
Awesomatic
Δημοσιεύσεις: 6553
Εγγραφή: 16 Μάιος 2018, 00:11
Phorum.gr user: Awesomatic

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από Awesomatic » 21 Μάιος 2021, 12:04

wooded glade έγραψε:
21 Μάιος 2021, 11:59
vatraxos έγραψε:
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;
"Taxation is theft, purely and simply even though it is theft on a grand and colossal scale which no acknowledged criminals could hope to match. It is a compulsory seizure of the property of the State’s inhabitants, or subjects."

dotcom
Δημοσιεύσεις: 2354
Εγγραφή: 26 Ιουν 2019, 15:45
Phorum.gr user: dotcom

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από dotcom » 21 Μάιος 2021, 12:08

wooded τον αυγολέμονο τον ξέρεις;

Άβαταρ μέλους
vatraxos
Συντονιστής
Δημοσιεύσεις: 10556
Εγγραφή: 30 Μαρ 2018, 22:26
Τοποθεσία: Ειδυλλιακή

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από vatraxos » 21 Μάιος 2021, 12:09

wooded glade έγραψε:
21 Μάιος 2021, 11:59
vatraxos έγραψε:
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Θα ζητήσω βοήθεια από τον ΑΛΟΓΟΜΟΥΡΗΣ αν χρειαστεί.
Όποιος δε θέλει να ζυμώσει, είκοσι χρόνια σεχταρίζει

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 12:12

Awesomatic έγραψε:
21 Μάιος 2021, 12:04
wooded glade έγραψε:
21 Μάιος 2021, 11:59
vatraxos έγραψε:
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;
Ναι από την 5 και μετά.
Ας πάρουμε τους τζόκεϋ.
Είναι όπως βλέπεις οι Ruis S., Αττίκος Κ., Duporte A., Michel M., Bourgois V., Neuville L., της σελίδας 5.
Ο τρίτος, ο Duporte A., στο text βγαίνει εκτός θέσεως. Γιατί ;
δεν είναι όλα κρού-σμα-τα

Απάντηση

Επιστροφή στο “Πληροφορική”

Phorum.com.gr : Αποποίηση Ευθυνών