Beschreibung
Dieser Rob dient dazu, den Sprachanteil Deutsch oder Englisch eines Dokumentes zu ermitteln. Dabei wird ein OCR-Leseergebnis benötigt, wenn es sich um Bilddaten als Ursprungsdokument handelt. Bei E-Mail-Dokumenten wird der Nachrichtentext selbst verwendet.
Anhand von Wortlisten der jeweiligen Sprache wird der Inhalt prozentual bewertet und das Ergebnis ein anzugebende Metadatenfelder geschrieben. Auf diese Weise kann im weiteren Fortschritt des Workflows eine Entscheidung getroffen werden.
Arbeitsweise
Trifft der Workflow auf den Rob „Sprachanteil ermitteln“ so wird Wort für Wort des Ursprungsdokumentes mit den beiden Resourcen-Dateien „DE.txt“ und „EN.txt“ (hier herunterladbar) verglichen.
Für jeden Treffer in der entsprechenden Datei erhöht sich der Sprachanteil für das Dokument.
Am Ende der Bewertung werden die Anteile für Englisch und Deutsch in die angegebenen Metadatenfelder eingetragen.
Parameter
Kategorie |
Name |
Typ |
Beschreibung |
Allgemein |
Ressourcen |
Pfad |
Pfad, in welchem die Ressourcen-Dateien EN.txt und DE.txt gefunden werden können |
Allgemein |
DE-Worte |
Feldauswahl |
Name des Metadatenfeldes, in welches der Prozentwert für die Übereinstimmung des Dokumenttextes mit der Deutschen Referenzdatei eingetragen wird |
Allgemein |
EN-Worte |
Feldauswahl |
Name des Metadatenfeldes, in welches der Prozentwert für die Übereinstimmung des Dokumenttextes mit der Englischen Referenzdatei eingetragen wird |
Anschlüsse
|
Wird gewählt, wenn die Anteilsermittlung erfolgreich durchgeführt werden konnte. |
|
Im Falle eines Fehlers wird dieser Ausgang gewählt |