Vor einigen Tagen berichteten wir euch darüber, dass sich Amazon Web Services (AWS) durch den Ausfall, der über Ostern stattgefunden hat, sich langsam aber sicher erholt. Warum dieser Ausfall zustande kam, hatte das Unternehmen aber nicht erläutert. Anscheinend wollten sie abwarten, wie die ersten Analysen ausgehen, um so eine treffende Berichterstattung zu liefern. Nun scheint die Sache geklärt worden zu sein. Denn das Unternehmen hat zu dieser Thematik eine hinreichende Stellungnahme abgegeben.
Wenn es nach Amazon geht, soll der Fehler durch einen Routingfehler entstanden sein, der im Zusammenhang mit einem Netzwerkupgrade für den Cloud-Dienst Amazon Elastic Block Store (EBS) stand.
Insgesamt verfügt dieser Dienst zwei Netzwerke, die in zwei Segmente aufgeteilt sind. Auf der einen Seite steht ein primäres Netzwerk zur Verfügung, das mit hoher Kapazität auf sich aufmerksam macht und auf der anderen Seite ein sekundäres mit einer geringeren Kapazität. Mit Hilfe dieses Netzwerkes können die Cluster-Nodes einer EBS-Zone miteinander kommunizieren. Der Fehler im Netzwerk entstand, als das Update nicht auf einen redundanten Router des primären Netzes umgeleitet wurde, sondern auf das zweite, sekundäre Netzwerk. Dies ist jedoch nicht vorgesehen gewesen, weil das sekundäre Netz nicht dafür ausgelegt ist. Durch diesen Update-Fehler wurde eine Kettenreaktion ausgelöst, die nochmals durch verschiedene Prozesse in die Höhe getrieben wurde, sodass schließlich fast alles zusammengebrochen ist.
Amazon möchte diese Problematik aber in der Zukunft auf jeden Fall vermeiden. Hierzu haben sie einen Plan entwickelt, der an mehreren Punkten ansetzt. Zum einen sollen Veränderungen genauer untersucht werden und zum anderen soll das EBS mit Fehlern besser umgehen können. Hoffen wir einfach, dass Amazon dies in der Zukunft auch wirklich in den Griff bekommt. Denn durch diesen Ausfall wurde verdeutlicht, dass Cloud Computing zwar eine Technologie der Zukunft ist, aber noch weiterentwickelt werden muss.
Kein Kommentar zu “Amazon erläutert den Ausfall der Cloud-Infrastruktur”