Optimierung 3:
Native PDF-Texterkennung

Erkennung von nativem PDF-Text

  • Der Text in PDF-Dateien kann als nativer PDF-Text, als in Zeilen zerlegter Text, als in Schraffuren zerlegter Text und als in Rasterbildern dargestellter Text platziert werden.
  • Um diese Art von Text zu erkennen, verwendet das Programm Methoden der künstlichen Intelligenz der OCR (Optical Character Recognition) und der Symbolerkennung.

Konvertierung von Native PDF-Texten

  • Der native Text in PDF-Dateien kann als Zeichenfolgen oder einzelne Zeichen platziert werden. Die beste Methode, um herauszufinden, ob Ihre PDF-Datei echten Text enthält, besteht darin, die PDF-Datei mit der Analysefunktion von Print2CAD zu analysieren und zu sehen, ob Textelemente angezeigt werden.
  • Eine andere Methode besteht darin, die PDF-Datei in einem PDF-Reader zu öffnen und den Text auf maximale Ansicht zu zoomen. Wenn die Buchstaben noch glatte Kanten haben, enthält Ihre PDF-Datei höchstwahrscheinlich echten Text. Wenn die Kanten der Buchstaben nicht glatt sind, konvertiert Print2CAD den „Text“ nicht in echten Text, ohne die OCR-Funktion zu aktivieren.

Parameter: Native PDF-Texte in bearbeitbare CAD-Texte konvertieren

  • In PDF-Dateien wird Text normalerweise als einzelne Zeichen oder Zeichengruppen mit eigenen Einfügepunkten definiert. Mit Hilfe spezieller interner Methoden fügt Print2CAD Zeichen zu Zeichenketten zusammen und platziert diese Zeichenketten als Texte in den DWG- oder DXF-Zeichnungen.

Parameter: Native PDF-Texte in Schraffuren umwandeln

  • Print2Cad wandelt alle Texte in Polylinien mit gefüllten Flächen (Schraffuren) um.
  • Es ist nicht immer möglich, Text aus einem PDF zu extrahieren, insbesondere wenn die Unicode-Zuordnung fehlt oder „benutzerdefiniert“ ist. Es gibt viele Konstruktionszeichnungen, die diese Art von Trick verwenden, um Menschen daran zu hindern, die Daten zu extrahieren.
  • Wenn es nicht möglich ist, den richtigen Text aus Acrobat auszuschneiden und einzufügen, haben Sie kaum eine Chance, den Text selbst zu konvertieren. Wenn Acrobat ihn nicht extrahieren kann, ist es sehr unwahrscheinlich, dass Print2CAD den Text korrekt extrahieren kann.
  • Diesen Text in Schraffuren umzuwandeln oder OCR-Funktionen darauf anzuwenden, ist die einzige Möglichkeit, mit dieser Art von Text umzugehen.

Parameter: Visualisierung eines Textes mit korruptem Codec

  • Wenn der Font-Codec und die Kodiertabelle manuell erstellt werden, verwendet das Programm Print2CAD Methoden der künstlichen Intelligenz, um die richtigen Codes herauszufinden.

Parameter: Text auf separater Ebene sortieren

  • Wenn Sie diese Funktion aktivieren, werden alle nativen oder erkannten Texte auf einer vorgegebenen Ebene sortiert. Wenn kein richtiger Text vorhanden ist, sondern nur Polylinien, Schraffuren oder Rasterbilder, werden die Buchstaben nicht als Text erkannt.

Parameter: Alle Schriftarten durch eine SHX- oder TTF-Schriftart ersetzen

  • Wenn Sie diese Option aktivieren, wird allen Textstilen dieselbe ausgewählte SHX- oder TTF-Schriftart zugewiesen.

Parameter: Skalierungsfaktoren für die Leerzeichenbreite

  • Text in PDF-Dateien wird oft als einzelne Buchstaben platziert. In diesem Fall sind die Leerzeichen nicht verfügbar.
  • Wenn Print2CAD Buchstaben in Text umwandelt, werden Leerzeichen mit Hilfe einer Ersatz-Leerzeichenbreite erkannt, die dem Buchstaben „a“ entspricht.
  • Sollte die Leerzeichenerkennung nicht richtig funktionieren, erhöhen oder verringern Sie den Ersatz-Leerzeichenfaktor gemäß der folgenden Grafik (durch Ausprobieren):
  • Parameter: Skalierungsfaktoren für Textbreite und -höhe

    • Wenn Print2CAD die in der PDF-Datei verwendeten Schriftarten im Windows-System nicht finden kann, wählt Print2CAD eine ähnliche Schriftart aus. Dabei kann sich die Textbreite ändern.
    • Ein Workaround dafür ist die Verwendung von Skalierungsfaktoren für die Textbreite und -höhe. Der Text wird um den angegebenen Faktor skaliert und linksbündig in der CAD-Zeichnung platziert.
    • Die Schriften in PDF-Dateien sind meist eingebettet, sodass Sie die Schriften in Ihrem Windows-System nicht benötigen, wenn Sie die PDF-Dateien anzeigen.
    • In DWG- oder DXF-Dateien können die Schriftarten nicht eingebettet werden. Sie benötigen alle Schriftarten, die in den auf Ihrem Windows-System installierten DWG- oder DXF-Dateien verwendet werden.
    • Print2CAD ist nicht in der Lage, PDF-eingebettete Schriftarten in Ihr Windows-System zu extrahieren.