pdf scraping
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
pdf scraping
Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.
Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.
Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Αυτό το pdf είναι λίγο παλιό, αλλά έχει εξονυχιστική λεπτομέρεια για το πώς λειτουργεί το φορμάτ.
https://www.adobe.com/content/dam/acom/ ... erence.pdf
https://www.adobe.com/content/dam/acom/ ... erence.pdf
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Ναι αλλά πως γίνεται ;GReaper έγραψε: ↑21 Μάιος 2021, 07:11Αυτό το pdf είναι λίγο παλιό, αλλά έχει εξονυχιστική λεπτομέρεια για το πώς λειτουργεί το φορμάτ.
https://www.adobe.com/content/dam/acom/ ... erence.pdf
Λέει π.χ. "Κώστας 500".
Από κάτω "Γιάννης 1500".
Όπου Κώστας-Γιάννης κάποια ονόματα και 500, 1500 κάποιες μονάδες που αντιστοιχούν στον καθένα.
Την άλλη φορά λέει "Ηλίας 1200" και από κάτω "Μαρία 800".
Ίδια format οπτικά.
Στο text οι Κώστας-Γιάννης κλπ κανονικά καταλαμβάνουν τις θέσεις (σειρές) 80-82 ας πούμε και τα 500-1500 τις θέσεις 81-83.
Αλλά μερικές φορές ο Γιάννης έχει φύγει και έχει πάει στην 87 και η ρουτίνα-reader άρα που να τον βρει ;
Γιατί γίνεται αυτό ; Διορθώνεται ή υπάρχει κάποιος άλλου είδους μετατροπέας ;
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)wooded glade έγραψε: ↑21 Μάιος 2021, 07:00Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.
Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
Ενπηρειά και σθένος σου πήρε 6 σελίδες να κάνεις άρνηση απαιτούμενος. Είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα. Ακόμα και οι Ζαίοι δεν χρειάζονται τα δύο χρώματα σαν κυρίες.
Thank you Google Translate.
Thank you Google Translate.
- ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ
- Δημοσιεύσεις: 31055
- Εγγραφή: 30 Μαρ 2018, 21:47
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Δεν σε πιάνω αλλά κάνω κάποιες διορθωτικές κινήσεις αν λείπει κάτι και μερικές από αυτές πετυχαίνουν.klg έγραψε: ↑21 Μάιος 2021, 10:41Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)wooded glade έγραψε: ↑21 Μάιος 2021, 07:00Έχω κάτι pdf από τα οποία θέλω να βγάζω κάποιες λέξεις και νούμερα για επεξεργασία, να τα μετατρέπω σε πίνακες με τη visual basic.
Σώνω σαν text από τον adobe.
Μετά το text επειδή είναι UTF-8 και δεν διαβάζονται τα Ελληνικά στη visual basic το ξανασώνω από το notepad σαν ANSI που διαβάζονται.
Κοίταξα με προσοχή που πάνε τα νούμερα μέσα σ' αυτά τα τελικά text και τα διαβάζω με τη visual basic και δημιουργώ τους πίνακες.
Αλλά μερικές φορές μπερδεύει και δεν βρίσκει να διαβάσει τα data η visual basic, δεν είναι ίδιες οι θέσεις.
Κοιτάω και τα original pdf τώρα μήπως υπάρχουν διαφορές μεταξύ τους και άρα δικαιολογημένα τα text files βγαίνουν αλλοιώτικα, αλλά όλα τα pdf είναι πανομοιότυπα (εκτός βέβαια από τα data που αλλάζουν κάθε φορά). Πως γίνεται αυτό ;
Πως αλλοιώς μπορώ να κάνω το scraping ;
Σε τι ωφείλεται όμως το μπέρδεμα ;
Μάλλον είναι δύο μορφές pdf που επεξεργάζομαι. Η μία είναι πιό απλή χωρίς πολλές εικόνες να παρεμβάλλονται και καλλιτεχνίες και παρουσιάζει λιγώτερο μπέρδεμα ή καθόλου. Η άλλη που έχει τα πιό πολλά καλλιτεχνικά κάνει το μπέρδεμα.
δεν είναι όλα κρού-σμα-τα
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
- Απολλόδωρος Βρυξελλιώτης
- Δημοσιεύσεις: 1004
- Εγγραφή: 27 Μάιος 2018, 18:20
- Phorum.gr user: Stavros ΚΟΣΜΆ Πετρης
- Τοποθεσία: σ' αυτή τη χώρα που ζεις / όλοι βρίζουν την τάξη
Re: pdf scraping
κάνε δοκιμαστικό λογαριασμό στο smallpdf.com και ακύρωσε τον μέσα στην πρώτη εβδομάδα για να μη σου έρθει χρέωση.
- ΣΑΤΑΝΙΚΟΣ ΕΓΚΕΦΑΛΟΣ
- Δημοσιεύσεις: 31055
- Εγγραφή: 30 Μαρ 2018, 21:47
Re: pdf scraping
Κάτι εφαρμογές που χειρίζονται pdfs
Ο χρήστης που γκρέμισε τον εθνολαϊκισμό
Re: pdf scraping
Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;nick έγραψε: ↑21 Μάιος 2021, 11:00Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...wooded glade έγραψε: ↑21 Μάιος 2021, 11:05Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;nick έγραψε: ↑21 Μάιος 2021, 11:00Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: pdf scraping
Δεν ξέρω. Θες να στο στείλω ;nick έγραψε: ↑21 Μάιος 2021, 11:09Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...wooded glade έγραψε: ↑21 Μάιος 2021, 11:05Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;nick έγραψε: ↑21 Μάιος 2021, 11:00Πονεμένη ιστορία το text from pdf.
Υπάρχουν πολλοί τρόποι να γραφτεί το text γιαυτο και η εξαγωγή είναι δύσκολη.
Ένα library pdftron που χρησιμοποιούσα πριν πολλά χρόνια έδινε καλά αποτελέσματα.
Οι σειρές/στήλες δεν υπάρχουν σαν έννοια στο pdf. Όλα είναι x-y coordinates. Μόνος σου πρέπει να δεις αν δυο λέξεις είναι στην ίδια σειρά αν έχουν (σχεδόν) ίδιο y.
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
δεν είναι όλα κρού-σμα-τα
Re: pdf scraping
Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).wooded glade έγραψε: ↑21 Μάιος 2021, 11:17Δεν ξέρω. Θες να στο στείλω ;nick έγραψε: ↑21 Μάιος 2021, 11:09Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...wooded glade έγραψε: ↑21 Μάιος 2021, 11:05
Δηλαδή να παίζει ρόλο τι πληκτρολόγησε πρώτα ο τυπάς/τύπισσα που το γράφει ;
Αν πήγε με τη σειρά, Κώστας-Γιάννης, να σχηματίζεται σωστά ενώ αν έγραψε το Γιάννη πρώτα να μπερδεύει μέσα ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.