- Registriert
- 11.09.07
- Beiträge
- 3.561
Hallo,
ich versuche zur Zeit für ein kleines Projekt einen Text mit Part-of-Speech-Tags (also Informationen über die Wortart zu jedem Wort in einem Text) zu versehen. Dazu nutze ich das Programm TreeTagger. Leider bekomme ich immer recht schnell einen Error:
Davor steht eine vierstellige Zahl (1000, 2000 oder 3000). Dank Google kann ich schonmal erahnen, dass sed nichts mit Sozialismus zu tun hat, sondern ein UNIX-Programm ist, auf welches mein POS-Tagger anscheinend aufbaut. Ebenfalls Dank Google glaube ich nun, dass es irgendetwas mit Codierung zu tun hat. Es handelt sich bei dem Text, den das Programm schlucken soll, um ein UTF-8-Dokument mit deutschem Text. Ich habe hier den Textfetzen
entdeckt, welches das ganze Problem angeblich recht schnell und einfach lösen soll. Leider habe ich keine Ahnung, was ich mit diesem Textfetzen jetzt anstellen soll. Vor allem die drei Punkte am Ende verwirren mich.
Weiß da jemand mehr zu?
Viele Grüße!
ich versuche zur Zeit für ein kleines Projekt einen Text mit Part-of-Speech-Tags (also Informationen über die Wortart zu jedem Wort in einem Text) zu versehen. Dazu nutze ich das Programm TreeTagger. Leider bekomme ich immer recht schnell einen Error:
Code:
sed: RE error: illegal byte sequence
Davor steht eine vierstellige Zahl (1000, 2000 oder 3000). Dank Google kann ich schonmal erahnen, dass sed nichts mit Sozialismus zu tun hat, sondern ein UNIX-Programm ist, auf welches mein POS-Tagger anscheinend aufbaut. Ebenfalls Dank Google glaube ich nun, dass es irgendetwas mit Codierung zu tun hat. Es handelt sich bei dem Text, den das Programm schlucken soll, um ein UTF-8-Dokument mit deutschem Text. Ich habe hier den Textfetzen
Code:
LANG=C sudo sed ...
entdeckt, welches das ganze Problem angeblich recht schnell und einfach lösen soll. Leider habe ich keine Ahnung, was ich mit diesem Textfetzen jetzt anstellen soll. Vor allem die drei Punkte am Ende verwirren mich.
Weiß da jemand mehr zu?

Viele Grüße!