[Global-announce] [Info] Folgen und Konsequenzen zum Ausfall des Servers hopi
uwe mueller
global@hostsharing.net
Wed, 16 Jan 2002 16:29:52 +0100
Liebe Mitglieder,
zunächst nochmal vielen Dank für euren tollen Einsatz, der Kreativität
und die Hilfsbereitschaft, auch an euren Freunden und Kollegen die uns
geholfen haben.
In diesem Zusammenhang wurde deutlich wie nie zuvor, dass JEDER bei
Hostsharing SEINE Ideen auch aktiv einbringen und UMSETZEN kann. Wir sehen
diese Aktion als ein gutes Zeichen, dass Hostsharing in Zukunft eine noch
breitere aktive Basis von Mitgliedern und Freunden hat. Danke!
Der Serverausfall hat uns zu einem sehr ungünstigen Zeitpunkt
getroffen. Der Umzug auf unserem neuen Server bei Datapipe war für
das letzte Wochenende am Samstag geplant. Die Einrichtung eines sauber
funktionierenden Backstage-Servers in Berlin und dann erst
den Umzug auf den neuen Server bei Datapipe machte durchaus Sinn.
Uns, dem Vorstand, den Hostmaster, und vermutlich allen Mitgliedern, ist
klar, dass ein solcher Unfall in Zukunft nie wieder passieren darf.
Als Konsequenz aus dem Ausfall des Servers stellen wir daher folgendes zur
Diskussion:
- Erhöhung der Anzahl der Hostmaster:
Mehr Augen sehen mehr, Arbeitsbereiche könnten besser überlappt werden
als es heutzutage der Fall ist.
Es haben sich in der jüngeren Vergangenheit schon weitere Mitglieder
hierfür angeboten. Wir denken, das wir das jetzt in konkret in
Angriff nehmen sollten. Wie das konkret aussehen kann, können wir
auf Technik besprechen. Wir denken z.B. daran, das zumindest erstmal
Teilgebiete bearbeitet werden können, um so in die Aufgabe
hereinzuwachsen, da wohl sehr heterogene Kenntnisse vorliegen.
- Dezentralisierung der zentralen Passwörter:
Diese sollten auf mehrere Personen verteilt werden
(auch Nicht-Hostmaster). Vorausetzung ist natürlich, Vertrauen,
allg. gute Erreichbarkeit und persönlich bekannt beim Vorstand.
Es muß eine entsprechende Erklärung unterschrieben werden, damit wir
auch in rechtlicher Hinsicht abgesichert sind (z.B. die Erklärung
der Hostmaster). Die Passwortträger haben aber keine Erlaubnis als
Root tätig zu werden. Hiermit hoffen wir, das Risiko, das Passwörter
verlegt werden oder nicht notiert werden, zu vermindern.
- weitere Dezentralisierung der Server-Dienste,
Spiegelung auf unserem Server in Berlin usw.
- Erweiterung des Backups:
im Bezug auf die bisher ungesicherten Bereiche, als da wären:
- externer mySQL
- PostgreSQL
- POP3 Mailboxen
- mailman Mailinglist-Archive
- cronjobs
im Bezug auf den Zeitlichen Rahmen
- Datenbanken stündlich (via remote realtime Logging)
- POP3 stündlich
- Vorbereitung einer Fehlerseite,
die nicht in Suchmaschineen landet, ggf. sogar
für jede Domain eine eigene Notfallsite.
- Vorbereitung eines "Notfall-systems"
Dieses sollte es erlauben, die "wichtigsten" Dienste schnell zu
ersetzen. Idealerweise wäre es, wenn dieses "Notfall-system" soweit
automatisierbar wäre, das es auch Mitglieder mit gewissen
Grundkenntnissen hochfahren können.
Es wäre zu eruieren, ob dies technisch machbar und sinnvoll wäre.
(Voraussetzungen für die Mitglieder wie oben bei Passwörter,
zusätzlich ein Nachweiß von Systemkenntnissen).
- Austellung eines "Notfall-Plans":
Wer, Wo, Was, Wie, Warum etc. Aufstellung eines Schema´s,
wer für was in solchen Situationen zuständig ist.
Was geht noch nicht?
Bis auf den https (Apache-SSL) stehen alle Dienste grundsätzlich wieder
zur Verfügung, allerdings teilweise noch halb-manuell (z.B. der
Domain-Robot). Der Verlust an Daten hält sich in Grenzen, betroffen sind
vorallem die Serverscripte, da diese da diese seit den Problemen mit
unseren alten Backstage-Server versehentlich nicht mehr im Backup
enthalten waren, die letzte Sicherung ist vom 16. November.
Was das Backup der Pakete betrifft, so ist mit einem Verlust von 1 Tag zu
rechnen. Das letzte Backup lief um 1:30h am Donnerstag morgen und der
Rechner ging gegen 23:00h am Donnerstag abend offline. Die nicht
abgeholten Inhalte der POP3 Mailboxen von vor Donnerstag 23h eingegangenen
Mails sind leider verloren. Während des Ausfalls konnten Mails dagegen
nicht verlorengehen, da diese von den sendenden Servern in eine
Warteschleife eingereiht wurden.
Verlorene Daten:
- Mail-Archive (der Hostsharing eigenen Mailinglisten)
- noch nicht abgeholte Mails aus POP3-Mailboxen (vor Do. 23h)
- Erweiterungen der Server Skripte seit 16. November
- Teile des Domain Robots (weil in /home/robot -> ungesichert)
- Daten auf dem externen mySQL-Server
- mySQL mysql-Datenbank (also User und Rechte)
- die Verfügbarkeits- und Performensstatistik
- die Liste der Interessenten,
die nicht über den Poll auf der Homepage eingetragen wurden
Die Mail-Archive lassen sich wohl teilweise, wenn nicht ganz, wieder
herstellen, da einige Mitglieder sie wahrscheinlich auch lokal
gesichet haben. Für die Statisktiken haben wir zunächst den IG4 Hostwatch
(http://www.hostwatch.de/) zur Referenz nehmen.
Was sind die Folgen?
Einige, zum Glück wenige, Mitglieder haben massive Probleme durch den
Verlust der Daten, vor allem aus dem externen mysqld, und überdenken das
Weiterführen Ihrer Projekte bei Hostsharing.
Auf der anderen Seite haben einige Mitglieder sogar weitere Kunden durch
unseren "Ausfall" hinzugewonnen, da wir deren Meinung nach sehr
profesionell, kompetent und vor allem offen und ehrlich reagiert haben.
Wie es bei den Kunden der Mitglieder aussieht ist uns nicht
genau bekannt. Sehr positiv wurde allerdings unsere Notfallseite von einem
Kunden aufgenommen, "man sah,das gearbeitet wurde". Andere nahmen den
Ausfall mit Humor.
Schwerer wird die Wirkung auf potentielle Mitglieder sein. Gerade in den
letzten Wochen hatten wir vermehrte Anfragen und positive Resonanzen. Ob
wir jetzt in den nächsten Wochen unseren Mitgliederstand steigern können,
müssen wir abwarten.
Andererseits hat gerade euer erfolgreicher gemeinsamer Einsatz die
Vorteile der Hostsharing Idee deutlich gemacht.
Wir hoffen auf eine konstruktive Diskussion der Vorschläge
Mit feundlichen Grüßen
Uwe Müller, Michael Hönnig
Vorstand Hostsharing eG
--