|
Technischer Hintergrundbericht zu AT&T's Netzwerk-Verlangsamung
Am Montag, dem 15. Januar um ungefaehr 14:30 EST, hatte eines von AT&T's 4ESS Vermittlungseinrichtung in New York City ein kleines Hardware- Problem, welches normale Fehlerbehebungsroutinen innerhalb der Schalt- stelle aktivierte. Dieses veranlasste die Schaltstelle, kurzfristig alle neuen Anrufe zurueckzustellen, bis die Routine beendet war (4-6 Sekunden). Eine solche Zurueckstellung ist eine typische Wartungs- prozedur und normalerweise fuer die Anrufer nicht wahrnehmbar. An die angeschlossenen Schaltstellen wurden automatisch Nachrichten gesandt, dass waehrend dieser Zeit keine neuen Anrufe zu der New Yorker Schaltstelle geleitet werden sollten. Die entsprechenden Schaltstellen vermerkten in ihren Programmen, dass die New Yorker Schaltstelle kurz- zeitig nicht erreichbar war. Als die betroffene New Yorker Schaltstelle einige Sekunden spaeter bereit war, die Anrufbearbeitung wieder aufzunehmen, sandte es Anrufversuche (IAM - Initial Address Messages) an die angeschlossen Schaltstellen. Diese vermerkten sodann in ihren Programmen, dass New York wieder erreichbar war und somit auch neue Anrufe entgegennehmen konnte. Ein Prozessor in der 4ESS Vermittlung, der diese mit dem CCS7 Netzwerk verbindet, speichert obige Zustandsinformationen. Als dieser Prozessor (genannt Direct Link Node, DLN) in einer angeschlossenen Vermittlung den ersten Anrufversuch (IAM) von der vorher nicht-erreichbaren New Yorker Vermittlung erhielt, startete er einen Prozess um seinen Zustands- Speicher auf den neuesten Stand zu bringen. Aufgrund eines Software- Fehlers war dieser DLN Prozessor fuer einige Sekunden verwundbar gegen- ueber Unterbrechungen. In dieser verwundbaren Zeit verursachte der Empfang von zwei Anrufversuchen aus New York - innerhalb eines Inter- valls von 1/100 Sekunde - die Beschaedigung einiger Daten. Der DLN- Prozessor wurde dann vom Netz genommen, um neu gestartet zu werden. Da der DLN Prozessor doppelt vorhanden ist uebernahm sein Partner die Arbeit. Ein zweites Paar solcher dicht aufeinanderfolgender Anrufversuche traf den Partner in der verwundbaren Zeit, veranlasste seine Abkoppelung vom Netz und damit die kurzzeitige Isolation der Vermittlung vom CCS7 Signal-Netzwerk. Der Effekt breitete sich lawinenartig ueber das Netzwerk aus, als DLN Prozessoren in anderen Vermittlungen auf aehnlich Weise aus- fielen. Dieser instabile Zustand blieb aufgrund der zufaelligen Natur dieser Fehler und des konstanten Drucks durch die Belastung im Netzwerk, die immer wieder fuer die Anrufversuche sorgte, bestehen. Der Software-Fehler wurde unabwendbar als Teil des Mitte-Dezember Soft- ware Updates in allen 4ESS Vermittlungen im AT&T Netzwerk eingefuehrt. Dieser Update sollte die Leistung des Netzwerkes erheblich verbessern, indem den Vermittlungen ermoeglicht werden sollte, ein Backup Signal Netzwerk im Falle eines Problems mit dem Haupt-CCS7-Netzwerk schneller benutzen zu koennen. Zwar wurde die Software rigoros in Labor-Umgebungen getestet bevor sie eingefuehrt wurde, aber die einmalige Kombination von Ereignissen, die zu diesem Problem gefuehrt hatten, konnten nicht vorher- gesagt werden. Um dem Problem beizukommen und die Integritaet des Signal-Netzwerks wieder herzustellen, benutzten AT&T Ingenieure zuerst Standard- Prozeduren. Frueher waren diese mehr als ausreichend gewesen, um die Anrufverarbeitung wieder aufzunehmen. In diesem Fall waren sie nicht ausreichend. So wussten wir ziemlich frueh, dass wir ein nie gesehenes Probleme hatten. Gleichzeitig schauten wir uns die Gesetzmaessigkeiten der Fehlermeldungen an und versuchten zu verstehen, was sie uns ueber den Zustand mitteilten. Wir haben eine technische Unterstuetzungseinheit, die sich um Netzwerk- probleme kuemmert, und diese wurde unverzueglich eingeschaltet. Bell Lab Mitarbeiter in Illinois, Ohio und New Jersey stiessen einige Momente spaeter dazu. Da wir den Mechanismus, mit dem wir es zu tun hatten, nicht verstanden, mussten wir feststellen, was geschah, indem wir uns sowohl die weitergegebenen Signal-Nachrichten als auch die einzelnen Vermitt- lungsstellen anschauten. Wir konnten das Netzwerk stabilisieren indem wir kurzzeitig den Signalverkehr auf den Backup-Verbindungen unter- brachen. Diese half, die Belastung mit Nachrichten des betroffenen DLN Prozessor zu senken. Am Montag um 23:30 EST hatten wir die letzte Verbindung des Netzwerks bereinigt. Dienstag nahmen wir den fehlerhaften Programm-Update von den Vermitt- lungen und wechselten zeitweise wieder zu dem vorherigen Programm. Wir untersuchten dann das fehlerhafte Programm sehr genau, fanden die verdaechtige Software, nahmen sie mit ins Labor, und es war uns moeglich, das Problem zu reproduzieren. Seitdem haben wir den Fehler korrigiert, die Aenderung getestet und die Backup-Leitungen wieder hergestellt. Wir glauben, dass das Software Design, die Entwicklung und die von uns verwendeten Test-Prozesse auf einer soldiden, qualitativen Grundlage basieren. Alle zukuenftigen Ausgaben von Software werden weiterhin rigoros getestet werden. Wir werden die Erfahrung, die wir durch dieses Problem gewonnen haben, benutzen, um unsere Prozeduren weiter zu verbessern. Es ist wichtig zu bemerken, dass das Volumen von Anrufen am Montag nicht ungewoehnlich war; Es war sogar geringer als an einem normalen Montag, und das Netzwerk handhabte normale Belastungen an den vorhergehenden Wochentagen. Obwohl nichts in 100% der Faelle garantiert werden kann, war das, was am Montag passierte, eine Reihe von Ereignissen die nie zuvor aufgetreten war. Mit laufenden Verbesserungen an unseren Design- und Lieferprozeduren werden wir weiterhin versuchen, die Wahrscheinlich- keit fuer Vorfaelle dieser Art gegen Null zu senken. Uebersetzt von: Michael Niermann Redigiert von: Katja De Haney Quelle: comp.dcom.telecom, gepostet: Don H. Kemp (dhk@teletech.uucp) ----------------------------------------------------------------------------- |
[Contrib]
[Chalisti]
[05]
Technischer Hintergrundbericht zu AT&T's Netzwerk-Verlangsamung