Wie funktioniert Archivarix?

Gepostet von: 2019-12-03

Das Archivarix-System dient zum Herunterladen und Wiederherstellen von Websites, auf die im Webarchiv nicht mehr zugegriffen werden kann, sowie von Websites, die derzeit online sind. Dies ist der Hauptunterschied zu den anderen "Downloadern" und "Site-Parsern". Ziel von Archivarix ist nicht nur das Herunterladen, sondern auch das Wiederherstellen der Website in einer Form, auf die auf Ihrem Server zugegriffen werden kann.

Beginnen wir mit dem Modul, das Websites aus dem Webarchiv herunterlädt. Dies sind virtuelle Server in Kalifornien. Ihr Standort wurde so gewählt, dass die höchstmögliche Verbindungsgeschwindigkeit mit dem Webarchiv selbst erzielt wird, da sich die Server in San Francisco befinden. Nachdem Sie Daten in das entsprechende Feld auf der Seite des Moduls https://de.archivarix.com/restore/ eingegeben haben, wird ein Screenshot der archivierten Website erstellt und die Web Archive API aufgerufen, um eine Liste der zum angegebenen Wiederherstellungsdatum enthaltenen Dateien anzufordern .

Nachdem das System eine Antwort auf die Anfrage erhalten hat, generiert es eine Nachricht mit der Analyse der empfangenen Daten. Der Benutzer muss nur die Bestätigungstaste in der empfangenen Nachricht drücken, um den Download der Website zu starten.

Die Verwendung der Web Archive API bietet zwei Vorteile gegenüber dem direkten Download, wenn das Skript einfach den Links der Website folgt. Zunächst sind alle Dateien dieser Wiederherstellung sofort bekannt. Sie können das Website-Volumen und die zum Herunterladen erforderliche Zeit abschätzen. Aufgrund der Art des Webarchivierungsvorgangs funktioniert dies manchmal sehr instabil, sodass Verbindungsunterbrechungen oder ein unvollständiger Download von Dateien möglich sind. Daher überprüft der Modulalgorithmus ständig die Integrität der empfangenen Dateien und versucht in solchen Fällen, den Inhalt durch erneutes Herstellen einer Verbindung mit herunterzuladen der Web Archive Server. Zweitens können aufgrund der Besonderheiten der Website-Indizierung durch Web Archive nicht alle Websitedateien direkte Links enthalten. Wenn Sie also versuchen, eine Website einfach durch Folgen der Links herunterzuladen, sind diese nicht verfügbar. Die Wiederherstellung über die von Archivarix verwendete Webarchiv-API ermöglicht es daher, die maximal mögliche Menge an archiviertem Website-Inhalt für ein bestimmtes Datum wiederherzustellen.

Nach Abschluss des Vorgangs überträgt das Download-Modul aus dem Webarchiv Daten an das Verarbeitungsmodul. Es bildet eine Website aus den empfangenen Dateien, die für die Installation auf einem Apache- oder Nginx-Server geeignet sind. Der Website-Betrieb basiert auf der SQLite-Datenbank. Um zu beginnen, müssen Sie diese lediglich auf Ihren Server hochladen. Es ist keine Installation zusätzlicher Module, MySQL-Datenbanken und Benutzererstellung erforderlich. Das Verarbeitungsmodul optimiert die erstellte Website; Es beinhaltet Bildoptimierung sowie CSS- und JS-Komprimierung. Dies kann die Download-Geschwindigkeit der wiederhergestellten Website im Vergleich zur ursprünglichen Website erheblich steigern. Die Downloadgeschwindigkeit einiger nicht optimierter Wordpress-Sites mit einer Reihe von Plugins und unkomprimierten Mediendateien kann nach der Verarbeitung durch dieses Modul erheblich erhöht werden. Es ist offensichtlich, dass eine anfängliche Optimierung der Website die Download-Geschwindigkeit nicht wesentlich erhöht.

Das Verarbeitungsmodul entfernt Werbung, Zähler und Analysen, indem die empfangenen Dateien mit einer umfangreichen Datenbank von Werbe- und Analyseanbietern abgeglichen werden. Das Entfernen externer Links und klickbarer Kontakte erfolgt einfach durch Prüfsummencode. Im Allgemeinen führt dieser Algorithmus eine recht effiziente Bereinigung der Website von "Spuren des Vorbesitzers" durch, obwohl dies manchmal nicht ausschließt, dass etwas manuell korrigiert werden muss. Beispielsweise wird ein selbst geschriebenes Java-Skript, das den Website-Benutzer zu einer bestimmten Monetarisierungs-Website umleitet, vom Algorithmus nicht gelöscht. Manchmal müssen Sie fehlende Bilder als Spam-Gästebuch hinzufügen oder unnötige Rückstände entfernen. Daher muss ein Redakteur für die resultierende Website eingestellt werden. Und es existiert bereits. Es heißt Archivarix CMS.

Dies ist ein einfaches und kompaktes CMS zur Bearbeitung von Websites, die mit dem Archivarix-System erstellt wurden. Es ermöglicht das Suchen und Ersetzen von Code auf der gesamten Website mithilfe regulärer Ausdrücke, das Bearbeiten des Inhalts im WYSIWYG-Editor sowie das Hinzufügen neuer Seiten und Dateien. Archivarix CMS kann zusammen mit jedem anderen CMS auf einer Website verwendet werden.

Lassen Sie uns nun über ein anderes Modul sprechen, das zum Herunterladen vorhandener Websites verwendet wird. Anders als beim Modul zum Herunterladen von Websites aus dem Webarchiv kann nicht vorhergesagt werden, wie viele und welche Dateien Sie herunterladen müssen, sodass die Server des Moduls auf völlig andere Weise funktionieren. Server Spider folgt einfach allen Links, die auf einer Website vorhanden sind, die Sie herunterladen möchten. Damit das Skript nicht in den endlosen Download-Zyklus einer automatisch generierten Seite fällt, ist die maximale Linktiefe auf zehn Klicks begrenzt. Die maximale Anzahl von Dateien, die von der Website heruntergeladen werden können, muss im Voraus festgelegt werden.

Für das vollständige Herunterladen der von Ihnen benötigten Inhalte wurden in diesem Modul verschiedene Funktionen erfunden. Sie können einen anderen User-Agent-Service-Spider auswählen, z. B. Chrome Desktop oder Googlebot. Referrer für Cloaking Bypass - Wenn Sie genau das herunterladen möchten, was der Benutzer sieht, wenn er über die Suche angemeldet ist, können Sie einen Referrer für Google, Yandex oder eine andere Website installieren. Zum Schutz vor IP-Sperren können Sie die Website über das Tor-Netzwerk herunterladen, während sich die IP-Adresse der Service-Spinne in diesem Netzwerk zufällig ändert. Andere Parameter wie Bildoptimierung, Anzeigenentfernung und Analyse ähneln den Parametern des Download-Moduls aus dem Webarchiv.

Nach Abschluss des Downloads wird der Inhalt in das Verarbeitungsmodul übertragen. Die Funktionsprinzipien ähneln vollständig der oben beschriebenen Funktionsweise der aus dem Webarchiv heruntergeladenen Website.

Erwähnenswert ist auch die Möglichkeit, wiederhergestellte oder heruntergeladene Websites zu klonen. Manchmal kommt es vor, dass man während der Wiederherstellung andere Parameter gewählt hat, als es sich am Ende als notwendig erwiesen hat. Das Entfernen externer Links war beispielsweise nicht erforderlich, und einige externe Links mussten nicht erneut heruntergeladen werden. Sie müssen lediglich neue Parameter auf der Wiederherstellungsseite festlegen und die Site neu erstellen.

 

Die Verwendung von Artikelmaterialien ist nur zulässig, wenn der Link zur Quelle veröffentlicht wird: https://de.archivarix.com/blog/how-does-it-works/

Neueste Nachrichten:
2020.02.14
Neuer Freitag, neue Updates!
In Archivarix CMS wurde viel Neues und Nützliches getan:
- In Suchen und Ersetzen können Sie jetzt nach URL-Datum filtern.
- Jetzt können externe Links von allen Seiten der Site mit einem Klick auf eine Schaltfläche entfernt werden. Anker bleiben erhalten.
- Ein neuer Parameter ACMS_SAFE_MODE, der das Ändern der Loader / CMS-Einstellungen und das Laden benutzerdefinierter Dateien verbietet. Das Importieren von Einstellungen und benutzerdefinierten Dateien ist ebenfalls verboten.
- Die JSON-Einstellungsdateien für den Loader und das CMS können jetzt von einer Datei auf dem Computer auf Ihren Computer heruntergeladen und auf das CMS heruntergeladen werden. Dadurch ist die Übertragung von Einstellungen auf andere Websites noch einfacher geworden.
- Das Erstellen benutzerdefinierter Regeln ist praktischer geworden. Es gibt häufig verwendete Muster, die Sie auswählen können.
- Neue benutzerdefinierte Dateien können im Dateimanager erstellt werden, ohne dass die Datei heruntergeladen werden muss.
- Der URL-Baum für die Hauptdomain steht immer an erster Stelle.
- Wenn Sie den URL-Baum für die Domain / Subdomain ausblenden, wird diese Einstellung während der Arbeit mit dem CMS gespeichert.
- Öffnen / reduzieren Sie anstelle von zwei Schaltflächen den URL-Baum, der jetzt beides kann.
- Das Erstellen einer neuen URL wurde vereinfacht. Beim Erstellen können Sie die Datei sofort vom Computer aus angeben.
- Im mobilen Layout steht der Hauptarbeitsteil an erster Stelle.
- Nach jeder Bearbeitung der Datei wird ihre Größe in der Datenbank aktualisiert.
- Feste Schaltflächen für selektive Verlaufs-Rollbacks.
- Das Erstellen neuer URLs für Subdomains, die Nummern im Domainnamen enthalten, wurde behoben.
2020.02.07
Neuer Teil der Updates!
Der Quellcode der Dateien muss jetzt nicht mehr geändert werden.
- Jetzt können Sie Websites auf den Server hochladen, indem Sie nur ein Skript aus unserem Archivarix CMS auf den Server hochladen.
- Um etwas in den CMS-Einstellungen zu ändern, müssen Sie den Quellcode nicht mehr öffnen. Sie können ein Passwort oder niedrigere Grenzwerte direkt im Abschnitt Einstellungen festlegen.
- Um Ihre Zähler, Tracker und benutzerdefinierten Skripte zu verbinden, wird jetzt ein separater Ordner "Includes" im Ordner .content.xxxxxx verwendet. Sie können benutzerdefinierte Dateien auch direkt über den neuen Dateimanager in CMS hochladen. Das Hinzufügen von Zählern und Analysen zu allen Seiten der Website ist ebenfalls bequem und verständlich geworden.
- Importe unterstützen eine neue Dateistruktur mit Einstellungen und dem Ordner "Includes".
- Tastaturkürzel für die Arbeit im Code-Editor hinzugefügt.

Diese und viele andere Verbesserungen in der neuen Version. Der Loader wurde ebenfalls aktualisiert und arbeitet mit den vom CMS erstellten Einstellungen.
2020.01.23
Ein weiteres Mega-Update von Archivarix CMS!

Es wurden sehr nützliche Tools hinzugefügt, die das Klicken auf eine Schaltfläche ermöglichen:
- alle defekten internen Links säubern,
- fehlende Bilder löschen,
- für alle externen Links rel = "nofollow" setzen.

Jetzt kann zusätzliche Wiederherstellung direkt aus dem CMS selbst importiert werden. Sie können verschiedene Wiederherstellungen in einer Arbeitsumgebung kombinieren.

Für diejenigen, die mit großen Websites arbeiten oder schlechtes Hosting verwenden - alle Aktionen, die zuvor zum Zeitlimit Ihres Hostings abgebrochen wurden, werden jetzt in Teile unterteilt und automatisch fortgesetzt, bis sie abgeschlossen sind. Möchten Sie einen Ersatz im Code von 500.000 Dateien vornehmen? Mehrere Gigabyte Recovery importieren? All dies ist jetzt auf jedem, auch sehr günstigen Hosting möglich. Die Timeout-Zeit (standardmäßig 30 Sekunden) kann im Parameter ACMS_TIMEOUT geändert werden.

Unser Loader (index.php) funktioniert nun unabhängig von den Build-Parametern mit den Protokollen http und https. Sie können das Protokoll erzwingen, indem Sie den Wert des Parameters ARCHIVARIX_PROTOCOL ändern.
2020.01.07
Das nächste Update von Archivarix CMS mit neuen Funktionen. Jetzt kann jede alte Site mit einem Klick korrekt auf UTF-8 konvertiert werden. Die Suchfilterung ist noch besser geworden, weil Jetzt können die Ergebnisse nach MIME-Typ gefiltert werden.
2019.12.20
Wir haben das lang erwartete Archivarix CMS-Update veröffentlicht. In der neuen Version gibt es neben verschiedenen Verbesserungen und Optimierungen eine sehr nützliche Funktion zum zusätzlichen Filtern von Suchergebnissen und zur vollständigen Unterstützung der Baumstruktur von URLs für Wiederherstellungen mit einer großen Anzahl von Dateien. Weitere Details finden Sie im Änderungsprotokoll des Archivarix CMS- Skripts.