Rob-Dokumentation

Beschreibung

Dieser Rob dient dazu, den Sprachanteil Deutsch oder Englisch eines Dokumentes zu ermitteln. Dabei wird ein OCR-Leseergebnis benötigt, wenn es sich um Bilddaten als Ursprungsdokument handelt. Bei E-Mail-Dokumenten wird der Nachrichtentext selbst verwendet.
Anhand von Wortlisten der jeweiligen Sprache wird der Inhalt prozentual bewertet und das Ergebnis ein anzugebende Metadatenfelder geschrieben. Auf diese Weise kann im weiteren Fortschritt des Workflows eine Entscheidung getroffen werden.

Arbeitsweise

Trifft der Workflow auf den Rob „Sprachanteil ermitteln“ so wird Wort für Wort des Ursprungsdokumentes mit den beiden Resourcen-Dateien „DE.txt“ und „EN.txt“ (hier herunterladbar) verglichen.
Für jeden Treffer in der entsprechenden Datei erhöht sich der Sprachanteil für das Dokument.
Am Ende der Bewertung werden die Anteile für Englisch und Deutsch in die angegebenen Metadatenfelder eingetragen.

Parameter

Kategorie	Name	Typ	Beschreibung
Allgemein	Ressourcen	Pfad	Pfad, in welchem die Ressourcen-Dateien EN.txt und DE.txt gefunden werden können
Allgemein	DE-Worte	Feldauswahl	Name des Metadatenfeldes, in welches der Prozentwert für die Übereinstimmung des Dokumenttextes mit der Deutschen Referenzdatei eingetragen wird
Allgemein	EN-Worte	Feldauswahl	Name des Metadatenfeldes, in welches der Prozentwert für die Übereinstimmung des Dokumenttextes mit der Englischen Referenzdatei eingetragen wird

Anschlüsse

	Wird gewählt, wenn die Anteilsermittlung erfolgreich durchgeführt werden konnte.
	Im Falle eines Fehlers wird dieser Ausgang gewählt