pdf scraping

wooded glade

Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.

Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;

GReaper

https://en.wikipedia.org/wiki/PDF#File_format

GReaper

Αυτό το pdf είναι λίγο παλιό, αλλά έχει εξονυχιστική λεπτομέρεια για το πώς λειτουργεί το φορμάτ.
https://www.adobe.com/content/dam/acom/ ... erence.pdf

wooded glade

GReaper έγραψε: ↑
21 Μάιος 2021, 07:11
Αυτό το pdf είναι λίγο παλιό, αλλά έχει εξονυχιστική λεπτομέρεια για το πώς λειτουργεί το φορμάτ.
https://www.adobe.com/content/dam/acom/ ... erence.pdf

Ναι αλλά πως γίνεται ;
Λέει π.χ. "Κώστας 500".
Από κάτω "Γιάννης 1500".
Όπου Κώστας-Γιάννης κάποια ονόματα και 500, 1500 κάποιες μονάδες που αντιστοιχούν στον καθένα.
Την άλλη φορά λέει "Ηλίας 1200" και από κάτω "Μαρία 800".
Ίδια format οπτικά.
Στο text οι Κώστας-Γιάννης κλπ κανονικά καταλαμβάνουν τις θέσεις (σειρές) 80-82 ας πούμε και τα 500-1500 τις θέσεις 81-83.
Αλλά μερικές φορές ο Γιάννης έχει φύγει και έχει πάει στην 87 και η ρουτίνα-reader άρα που να τον βρει ;
Γιατί γίνεται αυτό ; Διορθώνεται ή υπάρχει κάποιος άλλου είδους μετατροπέας ;

klg

wooded glade έγραψε: ↑
21 Μάιος 2021, 07:00
Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.

Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;

Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)

ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ

Αυτά τα διάφορα mendeley δε βοηθάνε;

wooded glade

klg έγραψε: ↑
21 Μάιος 2021, 10:41

wooded glade έγραψε: ↑
21 Μάιος 2021, 07:00
Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.

Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)

Δεν σε πιάνω αλλά κάνω κάποιες διορθωτικές κινήσεις αν λείπει κάτι και μερικές από αυτές πετυχαίνουν.
Σε τι ωφείλεται όμως το μπέρδεμα ;
Μάλλον είναι δύο μορφές pdf που επεξεργάζομαι. Η μία είναι πιό απλή χωρίς πολλές εικόνες να παρεμβάλλονται και καλλιτεχνίες και παρουσιάζει λιγώτερο μπέρδεμα ή καθόλου. Η άλλη που έχει τα πιό πολλά καλλιτεχνικά κάνει το μπέρδεμα.

wooded glade

ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ έγραψε: ↑
21 Μάιος 2021, 10:44
Αυτά τα διάφορα mendeley δε βοηθάνε;

Τι είναι τα mendeley ;

Απολλόδωρος Βρυξελλιώτης

κάνε δοκιμαστικό λογαριασμό στο smallpdf.com και ακύρωσε τον μέσα στην πρώτη εβδομάδα για να μη σου έρθει χρέωση.

ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ

wooded glade έγραψε: ↑
21 Μάιος 2021, 10:45

ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ έγραψε: ↑
21 Μάιος 2021, 10:44
Αυτά τα διάφορα mendeley δε βοηθάνε;
Τι είναι τα mendeley ;

Κάτι εφαρμογές που χειρίζονται pdfs

nick

Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.

wooded glade

nick έγραψε: ↑
21 Μάιος 2021, 11:00
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.

Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;

nick

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:05

nick έγραψε: ↑
21 Μάιος 2021, 11:00
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;

Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...

wooded glade

nick έγραψε: ↑
21 Μάιος 2021, 11:09

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:05

nick έγραψε: ↑
21 Μάιος 2021, 11:00
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...

Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.

nick

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:17

nick έγραψε: ↑
21 Μάιος 2021, 11:09

wooded glade έγραψε: ↑
21 Μάιος 2021, 11:05

Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...
Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.

Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).

pdf scraping

pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Re: pdf scraping

Αποποίηση Ευθυνών Διαχείρισης Φόρουμ (Phorum.com.gr)