pdf scraping

Awesomatic

Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.

wooded glade

nick έγραψε: ↑
21 Μάιος 2021, 11:22

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:17

nick έγραψε: ↑
21 Μάιος 2021, 11:09

Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...
Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).

Ιδέα δεν έχω. Αλλά τα Ελληνικά γράμματα βγαίνουν - μόνο που οι θέσεις τους δεν είναι στάνταρ μερικές φορές στο παραγόμενο text, τη σ
στιγμή που όταν το διαβάζεις σαν pdf είναι.

* κάπου είδα που λέει αυτό αν εξηγεί τίποτα:

Producer(ώ M i c r o s o f t ® E x c e l ® f o r O f f i c e 3 6 5)

wooded glade

Awesomatic έγραψε: ↑
21 Μάιος 2021, 11:25
Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.

Τι έκανα με το χέρι ;
Αν θες να πεις ο adobe δεν σώνει καλά, ποιό σώνει ;

wooded glade

Βλέπω εδώ ένα σωρό pdf to text converters.
Ένα που κατέβασα δεν εκτελεί αλλά υπάρχουν κι άλλα.
Πάντως η λογική μας είναι ότι ο adobe δεν σώνει καλά, οπόταν ποιό σώνει καλύτερα ;
Η άλλη λογική είναι να διορθώνω τα λαθάκια που το προσπαθώ βέβαια αλλά δεν πετυχαίνει 100%.

nick

Κανε μια upload εδω.
https://www.pdftron.com/pdf-tools/article-extraction/

wooded glade

nick έγραψε: ↑
21 Μάιος 2021, 11:33
Κανε μια upload εδω.
https://www.pdftron.com/pdf-tools/article-extraction/

Ε τι ; Αυτό pdf μου ξανάβγαλε (μιά σελίδα από τις 16).

klg έγραψε: ↑
21 Μάιος 2021, 10:41

Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)

Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.

wooded glade

vatraxos έγραψε: ↑
21 Μάιος 2021, 11:49

klg έγραψε: ↑
21 Μάιος 2021, 10:41

Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.

Δεν μου φαίνεται να το προκαλούν οι σπάσες.
Αφού λέμε πάνε ανάκατα.
Εκεί που πρέπει να λέει "όνομα" και στην από κάτω σειρά "ποσόν" λέει πάνω το "ποσόν" και από κάτω το "όνομα". Τέτοια λάθη - ενώ την ίδια στιγμή επί του PDF φαίνονται όλα ολόσωστα.

Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;

wooded glade

vatraxos έγραψε: ↑
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;

Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file

sys3x

Είναι παγίδα Γουντ, μη τσιμπάς.

Awesomatic

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:59

vatraxos έγραψε: ↑
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file

Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;

dotcom

wooded τον αυγολέμονο τον ξέρεις;

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:59

vatraxos έγραψε: ↑
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file

Θα ζητήσω βοήθεια από τον ΑΛΟΓΟΜΟΥΡΗΣ αν χρειαστεί.

wooded glade

Awesomatic έγραψε: ↑
21 Μάιος 2021, 12:04

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:59

vatraxos έγραψε: ↑
21 Μάιος 2021, 11:56
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;

Ναι από την 5 και μετά.
Ας πάρουμε τους τζόκεϋ.
Είναι όπως βλέπεις οι Ruis S., Αττίκος Κ., Duporte A., Michel M., Bourgois V., Neuville L., της σελίδας 5.
Ο τρίτος, ο Duporte A., στο text βγαίνει εκτός θέσεως. Γιατί ;

pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Αποποίηση Ευθυνών Διαχείρισης Φόρουμ (Phorum.com.gr)