@Wuchtbrumme hat das schon richtig erkannt. Aber noch mal anders:
Ich halte es für höchst fahrlässig, ein System (organisatorisch, technisch) nur "auf den Papier" und nicht auch im Live-Einsatz, exakt so wie es funktionieren *muss*
Jeder, der mal mit Softwareentwicklung mal was tun hatte - und damit meine im professionellem Umfeld - wird wissen, dass auch kleinste Änderungen an einer Softwware, auch an Stellen an denen man es nicht erwarten würde, das Potenzial dazu haben, unerwartete Fehler zu produzieren. Man könnte also einen Test so konstruieren, dass er z.B. Stummschaltungen etc. berücksichtigt, hätte dann jedoch das Risiko, dass die Umschaltung/Erkennung im Ernstfall eben doch nicht funktioniert.
Man kann es ja auch mal ganz simpel überlegen, warum diese Tests auf allen möglichen Ebenen immer wieder zeigen, dass es Probleme gibt - obwohl das per Design doch gar nicht der Fall sein sollte. Da ist es dann schon ziemlich naiv zu glauben, dass die Erkennung von Test- zu Ernstfall, genau die sein soll, die immer fehlerfrei funktionieren soll. Als würden die Programmierer die Fehler immer nur dort die Fehler gezielt einbauen, an denen sie kein Problem sind.
Sich also darüber aufzuregen, dass da einmal im Jahr eine nicht-deaktivierbare "Störung" erfolgt, zeugt aus meiner Sicht schlicht von geringem Verständnis über die technisch möglichen Fehlerquellen und Hürden sowie die allgemeine Wichtigkeit eines solchen Echttests.