• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Viele hassen ihn, manche schwören auf ihn, wir aber möchten unbedingt sehen, welche Bilder Ihr vor Eurem geistigen Auge bzw. vor der Linse Eures iPhone oder iPad sehen könnt, wenn Ihr dieses Wort hört oder lest. Macht mit und beteiligt Euch an unserem Frühjahrsputz ---> Klick

Worddokumente entschlüsseln?

C64

Kaiser Alexander
Registriert
12.04.06
Beiträge
3.957
Hallo,

ich hatte von einem Prof an der Uni gehört, dass man Worddokumente vollständig unter Unix anschauen kann. Windowsdateien sind ja irgendwie standardmäßig verschlüsselt, weshalb man ja nie genau sieht, was alles drinsteckt.
Aber so genau hab ich das nicht verstanden...
Jedenfalls bekomme (vor allem bei Rundmails) immer und immer wieder .doc-Dateien. Das nervt mich persönlich, dashalb würde ich gerne die Worddokumente entschlüsseln und den kompletten Inhalt, falls etwas ungewolltes drin ist;) zurückschicken. Denn oft sind ja in den Dokumenten mehr Dinge drin, als man vermutet.... so der Prof in der Vorlesung.
Wie aber mache ich das. Ich bin was Unix angeht leider noch etwas unbefleckt;)
Danke für eure Hilfe:-D
 

Hobbes_

Gast
ich hatte von einem Prof an der Uni gehört, dass man Worddokumente vollständig unter Unix anschauen kann.

Die OpenSource Office Pakete wie OpenOffice.org oder NeoOffice können Word-Dokumente lesen. Diese gibt es als Implementation auf den verschiedensten OS (zumindest OOo für Win, Mac, Linux (leider nicht direkt UNIX, evtl nur als Versuch möglich??); NeoOffice nur Mac).

Auf was für einem UNIX brauchst Du das ganze denn?

Daneben gibt es noch Konverter (zB word2text oder wv) --> am einfachsten mal nach diesen Begriffen und Deinem UNIX googeln...

Gruss
psc
 

C64

Kaiser Alexander
Registriert
12.04.06
Beiträge
3.957
Mmh... Mir geht es ja nicht um Inhalte, die man in Word sieht... die sehe ich mit Pages auch.
Hab mich wohl missverständlich ausgedrückt.
in Unix wird ja nur mit ASCII gearbeitet. Windows arbeitet aber standardmäßig mit einem erweiterten Code, also statt mit 128 mit 256 Zeichen (so ähnlich hab ich das in Erinnerung)... Und irgendwie werden mit den 256 Zeichen mehr Infos gespeichert, als dem Nutzer recht sein kann.
Mein Prof hat damals aus einer Worddatei noch zwei Briefe rausgeholt, die der Verfasser vorher getippt hatte, die aber nicht für den Prof bestimmt waren. In den normalen Officeprogrammen werden die auch nicht angezeigt, aber irgendwie hat er es über das Terminal (so weit ich weiß) die "Nebeninfos" rausgeholt.
Versteht jemand was ich meine?
 

Hobbes_

Gast
Aufgrund der zahlreichen Sonderzeichen wird nicht mehr mit dem originalen ASCII-Code (7 Bit) sondern mit 8 Bit (256 Zeichen-Zeichentabelle) oder noch mehr (siehe auch UTF-8) gearbeitet. Jedoch arbeitet auch UNIX nicht mehr nur mit den originalen 7 Bit ASCII (ausser Du hast ein historisches Gerät).

In diesem zusätzlichen Bit sind (ausser jemand kreiert eine eigene Codemaschien, welche das 8. Bit beispielsweise als Morse-Code verwendet, wäre noch cool :) ) jedoch keine Geheimcodes aufgezeichnet, sondern einfach die Informationen für die Zeichentabelle (siehe oben).

Word jat jedoch die Unart, mehr Informationen zu speichern, als man direkt sieht. So kann man (je nachdem ob die Option eingeschaltet ist) den ganzen Verlauf des Projektes rekonstruieren. Je nachdem, wenn jemand innerhalb der Datei verschiedene Dokumente geschrieben hat, kann man so auch mehr rekonstruieren. Dazu genügt jedoch Word selbst und es braucht kein top geheimes Programm.

Dieses Problem wurde übrigens schon einigen Firmen und auch Personen der Klatschpresse zum Verhängnis (siehe Google, wie immer, wenn nicht Wikipedia zur Anwendung kommt :) ).

Auch deshalb eignen sich Word-Dateien nicht, um beispielsweise Texte zu publizieren. Dazu ist eine Postscript oder eine PDF Datei wesentlich besser geeignet.

------

Kurze Frage: Kannst Du nicht am einfachsten den Professor direkt fragen, wie er das damals gemacht hat?

Hope it helps
psc
 

C64

Kaiser Alexander
Registriert
12.04.06
Beiträge
3.957
Den hab ich auch schon angeschrieben, aber er hat sich leider noch nicht gemeldet... aber hat ja auch Zeit. Hatte nur gedacht ich frag hier mal;)
Jetzt hab ich das mit dem 7-Bit und 8-Bit Codes auch gleich besser verstanden:-D
Dankeschön... dann werd ich mal auch googlen und ansonsten die Antwort von meinem Prof abwarten;)
 

C64

Kaiser Alexander
Registriert
12.04.06
Beiträge
3.957
So, jetzt habe ich mal eine Antwort:)
unter Unix ist die simpelste Methode
strings datei.doc
Es werden alle unverschlüsselten Zeichenketten erkannt (oder was
dafür gehalten wird. Um spezielle Kontrollzeichen zu entschlüsseln,
wird deren Kenntnis und ein C-Programm ausreichen. Das ist aber
komplizierter.
Schade. Ich kann damit relativ wenig anfangen, weil man mit dem Befehl strings vermutlich nur das bekommt, was man auch in Pages, Word, OpenOffice etc... bekommt....
Vielleicht weiß jemand noch was;)
 

Tengu

Apfel der Erkenntnis
Registriert
05.02.07
Beiträge
721
Kann es sein, dass ihr eigentlich ohne es zu wissen, von antiword redet.

Nach Installation einfach:
antiword -t Datei.doc

eingeben und das Dokument wird im Terminal angezeigt.

Naja fast... grundsätzlich ist das proprietäre Format von *.docx nicht einsehbar. Das ist das neue 2007er Format. xml verschlüsselt ist natürlich zuvor eine Entschlüsselung notwendig!

- Daher sind OpenSource Implementationen ins Terminal nie 100%ig kompatibel. Genausowenig wie NeoOffice und OO es sind.

Im Terminal selbst... mit antiword. ;) Sonst, also darüber hinaus ist das hier ja das falsche Forum.