Dynamischer Daten Import / Export

datenbank

weil Einfach - produktiver ist
Mit der Freeware Version können bis zu 10.000 Datensätze verarbeitet werden!
Willkommen, Gast
Benutzername: Passwort: Angemeldet bleiben:
Willkommen im FlowHeater Support Forum!

Hier werden Fragen zum Umgang mit dem FlowHeater beantwortet.

THEMA: PDF Dateien einlesen und auswerten!

PDF Dateien einlesen und auswerten! 1 Jahr 9 Monate her #1902

  • Tim
  • Tims Avatar
  • Offline
  • Junior Member
  • Beiträge: 32
Hallo, nach langer Zeit mal wieder!

Als Teil eines Projekts müssen zahlreiche Gutachten, als PDF-Format vorliegend,ausgewertet werden.
Sie haben unterschiedliche Inhalte, jedoch selben Aufbau.

Nun fand ich keinen passenden Ansatz zu "PDF auslesen" und gehe davon aus, die PDF-Dateien zu Text-Dateien umwandeln zu müssen, ist das so?

Vermutlich wäre das ein Nachteil. Zwar blieben mir die Werte der Tabellen erhalten, doch die Formatierung ginge verloren. Wie kann ich in der Textdatei noch erkennen, was eine Überschrift und was ein Wert war.


Ich bin lange raus aus dem FH-Thema und schaffe es gerade nicht mal einen Ordner mit Text-Dateien einzulesen.Ich war der Meinung es genüge im Read-Adapter den Pfad zum Ordner und eine Dateiendung mit Wildcard (*.pdf oder *.txt) anzugeben.
Wie funktioniert das richtig?

Gab es bereits ein ähnliches Projekt, eine sog. 'best practice' mit dem FH?
Eine pdf habe ich angehängt.

Dateianhang:

Dateiname: testgaAudi...0423.pdf
Dateigröße:308 KB


Danke,

Tim
Der Administrator hat öffentliche Schreibrechte deaktiviert.

PDF Dateien einlesen und auswerten! 1 Jahr 9 Monate her #1903

  • Tim
  • Tims Avatar
  • Offline
  • Junior Member
  • Beiträge: 32
Ach so,

die Textversion des PDF habe vergessen. Denn wenn es keine andere Möglichkeit gibt, bleibt nur Text oder XML übrig.


Dateianhang:

Dateiname: testgaAudi...0423.txt
Dateigröße:28 KB



Mehrere Dateien können, das weis ich noch, mit dem Net-Heater eingelesen werden. Ich meine jedoch das es noch komfortabler mit Bordmitteln ging.
Der Administrator hat öffentliche Schreibrechte deaktiviert.

PDF Dateien einlesen und auswerten! 1 Jahr 9 Monate her #1904

  • FlowHeater-Team
  • FlowHeater-Teams Avatar
  • Offline
  • Administrator
  • Beiträge: 1099
Hallo Tim,

PDF Dokumente können leider nicht direkt gelesen werden. Der Ansatz das als Text zu speichern und dann zu verarbeiten ist schon nicht schlecht. Allerdings ist die Verarbeitung von unstrukturierten Textdateien sehr kompliziert. In Ihrem Fall müsste erstmal spezifiziert werden welche Daten Sie überhaupt weiterverarbeiten möchten und in welchem Format?

Was z.B. möglich wäre ist alle Zeilen erstmal überlesen bis zu einem bestimmten Wort/Wert. Ab hier dann alle weiteren Zeilen lesen und verarbeiten bis zu einem weiteren bestimmten Wort/Wert.

Verarbeitung von mehrere Dateien) Über das Batch Modul werden Wildcards unterstützt. Hier ist es möglich alle Dateien eines Verzeichnisses mit der gleichen FlowHeater Definition zu verarbeiten.
z.B.

FHBatch.exe /ReadFileName C:\Temp\*.csv import-all-csv.fhd

Hier gibt es auch ein Beispiel dazu: Automatisierter Batch CSV Import mit MS Access
gruß
Robert Stark

Wurde Ihre Frage damit beantwortet? Bitte geben Sie ein kurzes Feedback, Sie helfen damit auch anderen die evtl. ein ähnliches Problem haben. Danke.
Letzte Änderung: 1 Jahr 9 Monate her von FlowHeater-Team.
Der Administrator hat öffentliche Schreibrechte deaktiviert.

PDF Dateien einlesen und auswerten! 1 Jahr 8 Monate her #1905

  • Tim
  • Tims Avatar
  • Offline
  • Junior Member
  • Beiträge: 32
Hallo Robert,

das war ernüchternd, ich hatte es am gleichen Abend noch gelesen.
und brauchte Zeit um mir einen neuen Weg zu überlegen.

Können neuere FH Versionen XML Dokumente verarbeiten, also anders als die Variante mit der Net DLL und dem DataTable Adapter?
Der Administrator hat öffentliche Schreibrechte deaktiviert.

PDF Dateien einlesen und auswerten! 1 Jahr 8 Monate her #1906

  • FlowHeater-Team
  • FlowHeater-Teams Avatar
  • Offline
  • Administrator
  • Beiträge: 1099
Hallo Tim,

XML wird in der aktuellen Version leider nicht direkt unterstützt. Hier ist der Umweg über den .NET DataTable Adapter notwendig.

In Version 4 wird es aber endlich einen nativen XML Adapter geben. Über folgende Links können Sie sich eine erste Alpha Preview herunterladen.

FlowHeater 4.0.0. Alpha2 (32 Bit) und ebenfalls neu FlowHeater 4.0.0 Alpha2 (64 Bit)

Die Version wird ca. Ende April offiziell erscheinen, bis dahin ist diese Version ohne Einschränkungen nutzbar.
gruß
Robert Stark

Wurde Ihre Frage damit beantwortet? Bitte geben Sie ein kurzes Feedback, Sie helfen damit auch anderen die evtl. ein ähnliches Problem haben. Danke.
Der Administrator hat öffentliche Schreibrechte deaktiviert.

PDF Dateien einlesen und auswerten! 1 Jahr 8 Monate her #1911

  • Tim
  • Tims Avatar
  • Offline
  • Junior Member
  • Beiträge: 32
Hi Robert,

das ist super nett von dir, danke sehr.

Ich werde mein Glück damit probieren. Leider musste ich heute feststellen, dass sich die PDFs nicht in konformes XML konvertieren lassen.
Da ists gut das die Lizenz noch etwas länger hält, denn den FH werde ich wohl erst einsetzen können wenn wir hierfür eine Lösung gezaubert haben.

Danke
Der Administrator hat öffentliche Schreibrechte deaktiviert.
Moderatoren: FlowHeater-Team
Ladezeit der Seite: 0.084 Sekunden