Also so wie ihr mir das jetzt erzählt scheint PDF ziemlich bescheiden zu sein.
Im Gegenteil,
PDF ist ein PostScript-Dialekt und
sehr mächtig. Wenn es »bescheiden« wäre, wäre es kein Problem, deinen gewünschten Text auszulesen. Und mit den aktuellen Erweiterungen für Formulare ist es noch mächtiger geworden. Aber PDF ist keine
db mit geordneten bzw. indizierten Datensätzen, wie Du es gerne hättest.
Nur, nochmal: In der Datei müssen die Ausgaben nicht geordnet vorliegen. Es ist einem Drucker oder Bildschirm ziemlich egal, in welcher Reihenfolge er Ausgabeelemente bekommt, wenn diese alle mit Koordinaten versehen sind. Ob zuerst unten, dann oben links, dann in der Mitte rechts ... ausgegeben wird, ist dem Endausgabegerät ziemlich wurscht. Deshalb braucht das PDF-erzeugende Tool auch keine Rücksicht auf solche »Ordnung« zu nehmen.
Wenn Du die PDF nicht komplett interpretierst, kommst du nicht an einzelne Elemente heran. Für das Interpretieren gibt es bestimmt fertige Units im Web. Allerdings fängt danach deine Arbeit erst richtig an - und wehe, der Aufbau, das Layout der PDF wird geändert *g