pdf scraping

Λογισμικό, λειτουργικά συστήματα, προγραμματισμός, hardware, δίκτυα, Internet
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 07:00

Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.

Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
δεν είναι όλα κρού-σμα-τα


Άβαταρ μέλους
GReaper
Δημοσιεύσεις: 706
Εγγραφή: 25 Οκτ 2019, 17:23

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από GReaper » 21 Μάιος 2021, 07:11

Αυτό το pdf είναι λίγο παλιό, αλλά έχει εξονυχιστική λεπτομέρεια για το πώς λειτουργεί το φορμάτ.
https://www.adobe.com/content/dam/acom/ ... erence.pdf

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 07:30

GReaper έγραψε:
21 Μάιος 2021, 07:11
Αυτό το pdf είναι λίγο παλιό, αλλά έχει εξονυχιστική λεπτομέρεια για το πώς λειτουργεί το φορμάτ.
https://www.adobe.com/content/dam/acom/ ... erence.pdf
Ναι αλλά πως γίνεται ;
Λέει π.χ. "Κώστας 500".
Από κάτω "Γιάννης 1500".
Όπου Κώστας-Γιάννης κάποια ονόματα και 500, 1500 κάποιες μονάδες που αντιστοιχούν στον καθένα.
Την άλλη φορά λέει "Ηλίας 1200" και από κάτω "Μαρία 800".
Ίδια format οπτικά.
Στο text οι Κώστας-Γιάννης κλπ κανονικά καταλαμβάνουν τις θέσεις (σειρές) 80-82 ας πούμε και τα 500-1500 τις θέσεις 81-83.
Αλλά μερικές φορές ο Γιάννης έχει φύγει και έχει πάει στην 87 και η ρουτίνα-reader άρα που να τον βρει ;
Γιατί γίνεται αυτό ; Διορθώνεται ή υπάρχει κάποιος άλλου είδους μετατροπέας ;
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
klg
Δημοσιεύσεις: 3485
Εγγραφή: 15 Οκτ 2018, 12:14
Phorum.gr user: klg

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από klg » 21 Μάιος 2021, 10:41

wooded glade έγραψε:
21 Μάιος 2021, 07:00
Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.

Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Ενπηρειά και σθένος σου πήρε 6 σελίδες να κάνεις άρνηση απαιτούμενος. Είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα. Ακόμα και οι Ζαίοι δεν χρειάζονται τα δύο χρώματα σαν κυρίες.

Thank you Google Translate.

Άβαταρ μέλους
ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ
Δημοσιεύσεις: 31055
Εγγραφή: 30 Μαρ 2018, 21:47

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ » 21 Μάιος 2021, 10:44

Αυτά τα διάφορα mendeley δε βοηθάνε;
Ο χρήστης που γκρέμισε τον εθνολαϊκισμό

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 10:45

klg έγραψε:
21 Μάιος 2021, 10:41
wooded glade έγραψε:
21 Μάιος 2021, 07:00
Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.

Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Δεν σε πιάνω αλλά κάνω κάποιες διορθωτικές κινήσεις αν λείπει κάτι και μερικές από αυτές πετυχαίνουν.
Σε τι ωφείλεται όμως το μπέρδεμα ;
Μάλλον είναι δύο μορφές pdf που επεξεργάζομαι. Η μία είναι πιό απλή χωρίς πολλές εικόνες να παρεμβάλλονται και καλλιτεχνίες και παρουσιάζει λιγώτερο μπέρδεμα ή καθόλου. Η άλλη που έχει τα πιό πολλά καλλιτεχνικά κάνει το μπέρδεμα.
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 10:45

ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ έγραψε:
21 Μάιος 2021, 10:44
Αυτά τα διάφορα mendeley δε βοηθάνε;
Τι είναι τα mendeley ;
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
Απολλόδωρος Βρυξελλιώτης
Δημοσιεύσεις: 1004
Εγγραφή: 27 Μάιος 2018, 18:20
Phorum.gr user: Stavros ΚΟΣΜΆ Πετρης
Τοποθεσία: σ' αυτή τη χώρα που ζεις / όλοι βρίζουν την τάξη

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από Απολλόδωρος Βρυξελλιώτης » 21 Μάιος 2021, 10:50

κάνε δοκιμαστικό λογαριασμό στο smallpdf.com και ακύρωσε τον μέσα στην πρώτη εβδομάδα για να μη σου έρθει χρέωση.

Άβαταρ μέλους
ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ
Δημοσιεύσεις: 31055
Εγγραφή: 30 Μαρ 2018, 21:47

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ » 21 Μάιος 2021, 10:52

wooded glade έγραψε:
21 Μάιος 2021, 10:45
ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ έγραψε:
21 Μάιος 2021, 10:44
Αυτά τα διάφορα mendeley δε βοηθάνε;
Τι είναι τα mendeley ;
Κάτι εφαρμογές που χειρίζονται pdfs
Ο χρήστης που γκρέμισε τον εθνολαϊκισμό

Άβαταρ μέλους
nick
Δημοσιεύσεις: 6290
Εγγραφή: 25 Μάιος 2018, 22:21

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από nick » 21 Μάιος 2021, 11:00

Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:05

nick έγραψε:
21 Μάιος 2021, 11:00
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
nick
Δημοσιεύσεις: 6290
Εγγραφή: 25 Μάιος 2018, 22:21

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από nick » 21 Μάιος 2021, 11:09

wooded glade έγραψε:
21 Μάιος 2021, 11:05
nick έγραψε:
21 Μάιος 2021, 11:00
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από wooded glade » 21 Μάιος 2021, 11:17

nick έγραψε:
21 Μάιος 2021, 11:09
wooded glade έγραψε:
21 Μάιος 2021, 11:05
nick έγραψε:
21 Μάιος 2021, 11:00
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...
Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
δεν είναι όλα κρού-σμα-τα

Άβαταρ μέλους
nick
Δημοσιεύσεις: 6290
Εγγραφή: 25 Μάιος 2018, 22:21

Re: pdf scraping

Μη αναγνωσμένη δημοσίευση από nick » 21 Μάιος 2021, 11:22

wooded glade έγραψε:
21 Μάιος 2021, 11:17
nick έγραψε:
21 Μάιος 2021, 11:09
wooded glade έγραψε:
21 Μάιος 2021, 11:05


Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...
Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).

Απάντηση

Επιστροφή στο “Πληροφορική”

Phorum.com.gr : Αποποίηση Ευθυνών