• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung

[Safari] Historische Webarchive öffnen

rakader

Gelbe Schleswiger Reinette
Registriert
29.10.06
Beiträge
1.756
Ich habe hier historische Webarchive von 2005, deren Suffix beim Kopieren verlustig gegangen ist. Mit .webarchive ist jedenfalls nichts zu machen. Bei der Sicht mit TextEdit sieht man eine HTML-Struktur, was mich zu dem Schluss führt, dass es sich um ein Archivformat handelt. Nur welches?
Die Dateistruktur sagt mir, dass es sich um eine Webseite mit verlinktem waf-Dokument handelt.

Code:
.WAFL (l
íªî@6ø§\¿—Ñ<˝Ôƒé$q åntry(•
∆€YËõìúÑ¢±¢]8ø§\¿—Ñ<˝Ôƒé$q å)êUurl /http://zeus.zeit.de/text/2005/12/siebeckincorkmime
text/htmlhvrsdata<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
<title>Die Zeit -

Leben
          : Was ich noch sagen wollte</title>
<meta name="ICBM" content="Politic Newspaper">
<meta name="DC.title" content="DIE ZEIT">

Um diese Zeit habe ich Safari, Internet Explorer und Firefox genutzt. Weiß jemand welche Archiv-Suffixe damals verwendet wurden, dann kann ich probieren…

Viele Grüße
Radulph
 

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.432
Ich würde einfach mal .html anhängen und dann im Browser öffnen. Es scheinen nur oben Metainformationen hinzugefügt worden zu sein. Die wirst du evtl. im Browser sehen, was aber vielleicht nicht so schlimm ist. Notfalls kannst du die auch (in einer Kopie) mit einem Texteditor entfernen.

Ich frage mich allerdings, wo die Bilder usw. sind. Liegen die auch im Verzeichnis?
 
  • Like
Reaktionen: rakader

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.147
Die Dateiendung ist *.webarchive und die Dateien kannst du mit Safari (und wenigen anderen Tools) öffnen.

Ich frage mich allerdings, wo die Bilder usw. sind. Liegen die auch im Verzeichnis?

Die wurden inline als Binärcode gespeichert. Nein, das macht keinen Sinn und hat auch nie Sinn gemacht. Außer natürlich mal wieder zu versuchen, ohne Sinn und Verstand ein proprietäres Format für Inhalte einzuführen, die ansonsten die ganze Welt bewusst nicht-proprietär speichert...

Mit .webarchive ist jedenfalls nichts zu machen.

Dann ist vmtl. mehr kaputt als nur die Endung. Mal versucht, die Datei dediziert in Safari zu laden? Ansonsten mal mit einem HEX-Editor anschauen, ob sie dann sinnvoller aussieht. So als Textausgabe ist es schwer zu sagen, ob die Sonderzeichen am Anfang Datenmüll sind (=kaputte Datei) oder das favicon... Was heisst denn "nichts zu machen"? "Bei Doppelklick passiert nichts", "Fehlermeldung" (welche?), ...?
 

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.432
Die wurden inline als Binärcode gespeichert.
Ja, das ist heute so. Aber wie es scheint, hat sich das Format ja geändert. Ein aktuelles Webarchive beinhaltet bei mir XML und codiertes Binärzeug.

Außer natürlich mal wieder zu versuchen, ohne Sinn und Verstand ein proprietäres Format für Inhalte einzuführen, die ansonsten die ganze Welt bewusst nicht-proprietär speichert...
Wie wahr. Hätte er sich die Seiten mal besser als PDF gespeichert.
 
  • Like
Reaktionen: rakader

Scotch

Graue Herbstrenette
Registriert
02.12.08
Beiträge
8.147
Aber wie es scheint, hat sich das Format ja geändert. Ein aktuelles Webarchive beinhaltet bei mir XML und codiertes Binärzeug.

Naja, XML ist der Container, darin kann man ja munter proprietären Kram sammeln. Klingt eher so, als hätte sich da nix geändert. Wenn das eigentlich XML sein soll, dann bestätigt das aber meine Vermutung, dass die Dateien kaputt sind, denn oben in dem Code-Schnipsel ist gar kein XML-Header enthalten.
 
  • Like
Reaktionen: Wuchtbrumme

Wuchtbrumme

Golden Noble
Registriert
03.05.10
Beiträge
21.996
für mich sieht das eher so aus, als hätte er irgendwann mal eine Datenrettungssoftware drüberlaufen lassen, die fälschlich (oder ratenderweise) Dateibruchstücke unter
Naja, XML ist der Container, darin kann man ja munter proprietären Kram sammeln. Klingt eher so, als hätte sich da nix geändert. Wenn das eigentlich XML sein soll, dann bestätigt das aber meine Vermutung, dass die Dateien kaputt sind, denn oben in dem Code-Schnipsel ist gar kein XML-Header enthalten.
es sieht ein wenig wie zusammengefrickelte Fragmente unterschiedlicher Dateien durch einen Datenrettungsversuch aus, bei dem hier zufällig ein HTML-Header angezeigt wird, der Anfang jedoch ein Rest aus einer Binärdatei ist.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: rakader

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.432
Naja, XML ist der Container, darin kann man ja munter proprietären Kram sammeln.
Klar, dem wollte ich nicht widersprechen, aber es sieht eben ganz anders aus als das da oben. Vielleicht kaputt, ja.

Interessant wäre noch zu wissen, womit @rakader das Ding geöffnet hat, um es hier zu zeigen.
 

rakader

Gelbe Schleswiger Reinette
Registriert
29.10.06
Beiträge
1.756
Kann alles sein. Auch der Datenrettungsversuch. Mit HTML kann ich das wichtigste - den Text - sichtbar machen. Das andere stirbt halt in Schönheit. Bei einem Kopiervorgang in früherer Zeit muss es die ganzen Dateiendungen rausgehauen haben.

Darunter sind auch noch jede Mange Quark-Dateien, die man heute nicht mehr ohne größte Verrenkungen öffnen kann (der Document-Converter muss auf einem alten System laufen).

Es sind alles Dokumente mit teils historischem Wert, die ins Archiv sollen, ggf. auch für Museen interessant sind (die Umbrüche in Osteuropa von 1989-1995). Das Zeug wurde natürlich x-mal konvertiert.

Klar, dem wollte ich nicht widersprechen, aber es sieht eben ganz anders aus als das da oben. Vielleicht kaputt, ja.

Interessant wäre noch zu wissen, womit @rakader das Ding geöffnet hat, um es hier zu zeigen.

mit TextEdit - ganz normal. Anhand der ersten Buchstaben kann man normalerweise Rückschlüsse auf das frühere Datenformat ziehen; bei dem Webarchiv gelang das nicht. Kann sein, dass es früher mal mit FileMaker in Berührung kam.

Hatte heute auch noch andere Fälle mit Word-6-Dateien von 1994/95. Die kann man immerhin mit Libre Office öffnen.

Danke Euch aber für die Unterstützung.
Jedenfalls weiß ich jetzt, dass ich nie wieder einem Archivformat außer PDF vertraue

@Wuchtbrumme Ich kann jetzt auch nachvollziehen, wie es zu dem Suffix-Verlusten kam. Bei einer Datensicherung 2011 legte ich mit irgendeinem Programm die Sicherungen als DMG an. Das erklärt vermutlich die Dateibruchstücke…
 
Zuletzt bearbeitet:
  • Like
Reaktionen: ottomane

rakader

Gelbe Schleswiger Reinette
Registriert
29.10.06
Beiträge
1.756
Vielleicht findest du die Artikel unter Archive.org und kannst sie noch einmal speichern.

Beispiel:


Man muss nur etwas Geduld haben :D
Geduld ist gut bei 5.000 Dokumenten
…die Wayback-Maschine von archive.org habe ich hier sogar installiert :)

Am schlimmsten waren heute die Word 6 und QuarkXPress 4 Dateien. Das ist alles mein Material, und das konnte ich – ohne Verluste! - retten👍
 
  • Like
Reaktionen: ottomane

MacAlzenau

Golden Noble
Registriert
26.12.05
Beiträge
22.588
Aktuelle Safari-Sicherungen kann man mit TextEdit öffnen, da sehen sie genauso aus wie im Browser, nicht nur Texte wie in einem Editor. Wäre einen schnellen Test wert.
Anfang des Jahrtausends hatte ich iCab benutzt, weil das damals schon Webseiten nicht als Ordner sondern als (im Finder) einzelne Datei speicherte, und die Dateien kann ich weiterhin problemlos mit dem aktuellen iCab öffnen (wobei vor allem auffällt, welch schreckliches Grafikdesign damals viele Seiten hatten).
 

rakader

Gelbe Schleswiger Reinette
Registriert
29.10.06
Beiträge
1.756
iCab - stimmt, das war das andere Browserprogramm, dessen Name mir entfallen war. Das probierte ich zwar aus, muss aber gestehen, dass ich ein stoischer Mensch bin und ihm keine Chance gab, heißt, iCab nicht produktiv nutzte.

Die Vorteile von iCab erschlossen sich mir damals nicht. Wenn ein Programm seinen Vorteil nicht auf Anhieb vermitteln kann, hat es bei mir verloren. Ich erinnere mich nur, dass es schick war, dass reichte aber nicht.

(In der Historie noch mehr als iCab zurück: Das schlechte Design vieler Seiten war damals nicht nur den begrenzten Möglichkeiten geschuldet, sondern auch der Überzeugung vieler Propheten, das Netz sei eine reines Textmedium und werde niemals kommerziell. Ersteres war natürlich eine Ausrede, letzteres der berühmte Tellerrand. Wer stöbert, wird diesbezüglich heute sicher noch bei de.comp.sys.mac.misc fündig.)