Diese Diskussion wurde archiviert.
Es können keine neuen Kommentare abgegeben werden.
|
|
|
|
|
|
|
|
|
Zumindest vorübergehend scheint das Problem behoben zu sein, das Ticket ist aber immer noch offen.
Hoffen wir, dass die das wieder in den Griff kriegen!
bis bald
Kermit
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nö. Die Server sind momentan read-only; das SAN hat nachwievor ein Problem. Vermutlich die Hardware (Cache-Ram oder sowas), was ab dem 24.12 immer wieder zu korrupten Filesystemen geführt hat. Nach dem fsck kamen die dann wieder und irgendwann wars dann wieder kaputt...
Prognose ist momentan dass es irgendwann morgen den 4.1. wieder läuft. Wir werden es sehen. --
"The more prohibitions there are, The poorer the people will be"
-- Lao Tse
|
|
|
|
|
|
|
|
|
|
|
|
|
Stimmt, ist nur read-only, steht auch so im Ticket!
Aber wenigstens sind die Seiten nun überhaupt wieder erreichbar!
bis bald
Kermit
|
|
|
|
|
|
|
|
|
Von Anonymer Feigling am Tuesday 03. January 2006, 23:19 MEW (#5)
|
|
|
|
|
laut Hostpoint.ch habt ihr eine StorageTek (jetzt Sun) Umgebung. Wie ist die SAN Architekur (Desaster Toleranz,sowas wie EMCs business continuity volume BCV)?
|
|
|
|
|
|
|
|
|
|
|
|
|
ich konnte im neuen jahr meine mails noch nicht abrufen..
hoffe die kriegen das bald wieder in ordung.
sind eigentlich sehr kompetente, unkomplizierte, anständige leute da.
--
nein, ich habe keine shift taste.
|
|
|
|
|
|
|
|
|
|
|
|
|
Sehr geehrte Kundin, sehr geehrter Kunde
Vom 25. bis 27. Dezember 2005 und vom 31.Dezember bis 4. Januar 2006 am Morgen hatten wir mit Hardware-Problemen bei unserer neuen Storage-Lösung zu kämpfen. Ihr Account auf Server 11 war während dieses Zeitraums immer wieder davon betroffen.
Erschwerend kam dazu, dass über die Festtage ausnahmsweise kein Telefonsupport geleistet wurde. Doch selbst wenn sämtliche Telefonleitungen vom Hostpoint-Support besetzt gewesen wären, hätten wir die Kapazität nicht gehabt, um bei allen betroffen Kunden erste Hilfe zu leisten. Auch von Support-Anfragen per E-Mail wurden wir regelrecht überflutet. Wir versuchten, so gut wie zum jeweiligen Zeitpunkt möglich, mittels Statusmeldungen auf unserer Webseite über den aktuellen Stand zu informieren und die E-Mails zu beantworten, während wir unsere Kräfte prioritär für die eigentliche Problemlösung eingesetzt haben.
Mit dieser E-Mail möchten wir Sie nun nachträglich über die Gründe der Ausfälle informieren, und auch aufzeigen was vorgefallen ist.
Wir migrieren unsere Kunden seit zwei Monaten schrittweise auf ein neues Storage-System. Diese Migration erfolgt im gleichen Zuge mit der Umstellung unserer Kunden auf die angekündigte neue Mail-Lösung, hat aber nur indirekt damit zu tun. Auf einem der Dateisysteme der Storage-Lösung hatten sich vor Weihnachten aus Gründen, die immer noch abgeklärt werden, Fehler eingeschlichen. Diese führten am 26. Dezember zum ersten Ausfall, der alle Kunden auf diesem Dateisystem betraf. Aufgrund der Art der Fehler war es unmöglich, diese im laufenden Betrieb zu beheben. Auch unsere Dateisystem-Spiegel wiesen dieselben Fehler auf. Wir wählten die sichere Variante und haben das Filesystem zusammen mit unseren Hardware-Lieferanten geprüft und wiederhergestellt. Zu diesem Zeitpunkt gingen wir davon aus, dass den Fehlern ein Absturz des Systems zwei Wochen zuvor zugrunde liegen musste, dessen Ursache bereits vor Weihnachten durch den Hersteller behoben wurde.
Das stellte sich als Irrtum heraus. Erneut tauchten Fehler auf. Wir versuchten das System möglichst lange online zu halten, während wir zusammen mit den Entwicklern der Storage-Lösung nach der wahren Ursache suchten. Das Ganze entwickelte sich dann sprichwörtlich zu einer Suche nach der Nadel im Heuhaufen. Am späten Sylvester-Abend schien es dann nicht mehr möglich, das Filesystem online zu halten. Zusätzlich tauchten noch Fehler auf einem zweiten, bis anhin sauberen Dateisystem auf. Wir sahen uns daher gezwungen, noch in der der Neujahrs-Nacht wieder offline zu gehen, um beide Dateisysteme zu prüfen. Nun waren natürlich noch mehr Kunden von diesem Ausfall betroffen. Unsere Partner und wir haben, wie schon zuvor, rund um die Uhr versucht, dem Problem auf den Grund zu gehen. Unser Ziel war es, alle möglichen Fehlerursachen auszuschliessen, bevor wir die Dateisysteme wieder online nehmen. Ansonsten hätten wir erneute Fehler riskiert, was die Downtime - auch nachträglich gesehen - nur verlängert hätte. Gleichzeitig mussten wir beide defekte Dateisysteme reparieren, was sich natürlich noch aufwendiger gestaltete, als das erste Mal bei nur einem.
Dieser Prozess zog sich zum Bedauern aller Parteien fast ewig in die Länge. Das eine Dateisystem konnten wir bereits am Montagabend wieder in Betrieb nehmen, das zweite erst am Mittwochmorgen. Die Dateisysteme sind jetzt wieder fehlerfrei. Zum jetztigen Zeitpunkt sind alle wahrscheinlichen, potenziellen Fehlerursachen eliminiert worden, insbesondere möglicherweise fehlerhafte Hardware. Die tatsächliche Ursache ist aber immer noch Gegenstand von Abklärungen, die Zeit in Anspruch nehmen werden. Man kann sagen, dass das System jetzt mit hoher Wahrscheindlichkeit wieder stabil läuft und dass das so bleibt. Im Moment sehen wir keinerlei Anzeichen für weitere Fehler. Allgemeine Entwarnung können wir zu diesem Zeitpunkt noch nicht geben.
Die besagten Hardware-Parner in diesem Fall sind die Sun Microsystems Data Management Group (ehem. StorageTek) und der Amerikanische Hersteller von High-End Storage-Lösungen Onstor. In unserer Pressemitteilung hat Sun Microsystems zu diesem Ausfall ebenfalls Stellung genommen:
”Wir bedauern sehr, dass Hostpoint-Kunden diesen Betriebsunterbruch erfahren mussten”, sagte Manuel Gutierrez, Chef der Data Management Group von Sun Microsystems. ”Zusammen mit den Fachleuten von Onstor in Kalifornien und Hostpoint haben wir alle Kräfte darauf konzentriert, um den Fehler so schnell wie möglich zu beheben. Inzwischen läuft das System wieder stabil, aber wir werden aus Sicherheitsgründen den Betrieb noch einige Zeit sorgfältig analysieren.”
Wir sind uns bewusst, dass Ausfälle in diesem Ausmass für unsere Kunden viel mehr als ärgerlich sind und möchten uns in diesem Sinne für alles Geschehene in aller Form entschuldigen. Solche Vorfälle entprechen natürlich in keiner Weise dem, was wir unseren Kunden bieten möchten. Diese neue Storage-Lösung war für uns eine beachtliche Investition, die unseren Kunden anstelle von Ausfällen viele neue Vorteile bringen sollte und auch noch wird.
Selbstverständlich möchten wir uns bei Ihnen nicht nur mit Worten entschuldigen, sondern auch in einer anderen Form erkenntlich zeigen. Wir werden diesbezüglich wieder auf Sie zukommen.
Wir hoffen, Sie trotz allem weiterhin zu unseren zufriedenen Kunden zählen zu dürfen und wünschen Ihnen ein frohes neues Jahr.
Freundliche Grüsse
Markus Gebert
CTO
--
Hostpoint AG | The Data Residence |
Zürcherstrasse 2 | 8640 Rapperswil | Schweiz
Tel +41 55 220 0404 | Fax +41 55 220 0409 | www.hostpoint.ch
|
|
|
|
|
|