Sprachanteil ermitteln

Beschreibung

Dieser Rob dient dazu, den Sprachanteil Deutsch oder Englisch eines Dokumentes zu ermitteln. Dabei wird ein OCR-Leseergebnis benötigt, wenn es sich um Bilddaten als Ursprungsdokument handelt. Bei E-Mail-Dokumenten wird der Nachrichtentext selbst verwendet.
Anhand von Wortlisten der jeweiligen Sprache wird der Inhalt prozentual bewertet und das Ergebnis ein anzugebende Metadatenfelder geschrieben. Auf diese Weise kann im weiteren Fortschritt des Workflows eine Entscheidung getroffen werden.

Arbeitsweise

Trifft der Workflow auf den Rob „Sprachanteil ermitteln“ so wird Wort für Wort des Ursprungsdokumentes mit den beiden Resourcen-Dateien „DE.txt“ und „EN.txt“ (hier herunterladbar) verglichen.
Für jeden Treffer in der entsprechenden Datei erhöht sich der Sprachanteil für das Dokument.
Am Ende der Bewertung werden die Anteile für Englisch und Deutsch in die angegebenen Metadatenfelder eingetragen.

Parameter

Kategorie Name Typ Beschreibung
Allgemein Ressourcen Pfad Pfad, in welchem die Ressourcen-Dateien EN.txt und DE.txt gefunden werden können
Allgemein DE-Worte Feldauswahl Name des Metadatenfeldes, in welches der Prozentwert für die Übereinstimmung des Dokumenttextes mit der Deutschen Referenzdatei eingetragen wird
Allgemein EN-Worte Feldauswahl Name des Metadatenfeldes, in welches der Prozentwert für die Übereinstimmung des Dokumenttextes mit der Englischen Referenzdatei eingetragen wird

Anschlüsse

Connector_Yes Wird gewählt, wenn die Anteilsermittlung erfolgreich durchgeführt werden konnte.
Connector_Fault Im Falle eines Fehlers wird dieser Ausgang gewählt