Diagnose & Monitoring für 24/7-Betrieb | AF Software Engineering Blog

Das Blind-Flying-Problem

Viele Zellen laufen nach dem Muster: "Alles gut" oder "FEHLER". Dazwischen — keine Sicht.

Der Manager weiß um 10 Uhr nicht, dass die Zelle seit 9:30 bei 60% Effizienz läuft. Die Fehlerursache identifizieren zu wollen ist dann Ratespiel. "Ist es ein Sensor?" "Ein Durchsatz-Problem?" "Kalibrierung drift?"

Mit systematischer Diagnose und Monitoring sieht man das Problem schon bei 70%, bevor es auf 0% fällt.

Was man tracken sollte

Basist-Metriken

Verfügbarkeit (Uptime): % der Zelle ist bereit / läuft
Durchsatz: Teile pro Stunde (OEE-Komponente)
Fehler-Rate: % der Arbeitstermine, die abgebrochen wurden
MTTR (Mean Time To Recovery): Durchschnittliche Zeit zum Beheben von Fehlern

Detaillierte Diagnostik

Sequenz-Zeiten: Wie lange dauert "Teil greifen"? Wird es langsamer?
Sensor-Health: Wie zuverlässig ist dieser Sensor in letzten 24h?
Greifer-Wear: Wie schnell verschleißt die Komponente?
Alarm-Frequenz: Welche Fehler treten wiederholt auf?

Logging-Strategie

Das Wichtigste: Strukturierte Logs, nicht "alles aktuellen als riesiger String".

Event {
  Timestamp: 2026-02-23 10:42:15.234 UTC
  Type: "SequenceCompleted"
  SequenceID: "Pick"
  Duration: 2347ms
  Status: "Success"
  Metadata: {
    PartID: "SKU-12345",
    GripperForce: 125N,
    PartWeight: 2.3kg
  }
}

Mit strukturiertem Logging kannst du später fragen: "Zeig mir alle 'SequenceCompleted' Events der letzten Stunde, sortiert nach Duration." — und sekundenschnell eine Antwort.

Dashboard UND Alerts

Dashboard (historisch, für Analyse):

OEE-Chart (Verfügbarkeit, Qualität, Durchsatz)
Fehler-Timeline: Wann fielen welche Fehler auf?
Sequenz-Zeiten: Trend über Zeit
Top-Fehler: Welche Fehler truckig meisten?

Alerts (Real-time, für Reaktion):

"Zelle ist seit 15 Min in Error" → sofort Benachrichtigter
"Durchschnittliche Sequenzzeit + 20%" → Indikator für Verschleiß oder Fehlkalibrierung
"Sensor-Ausfallrate > 5%" → Teil sollte geplant gewartet werden

Prädiktive Wartung

Mit genug Logging-Daten kannst du Ausfälle vorhersagen, bevor Sie passieren.

Beispiel: Ein Greifer zeigt Verschleiß. Die Griff-Kraft sinkt graduell:

Woche 1: Durchschnitt 120N
Woche 2: Durchschnitt 118N
Woche 3: Durchschnitt 115N

Mit einer Trendanalyse: "Bei dieser Rate wird der Greifer in Woche 6 unter Mindest-Kraft fallen." → Du bestellst Ersatz proaktiv. Keine Überraschung.

Anomaliey-Detection

Nicht alle Fehler sind Fehler — manche sind "unerwartete Muster".

Machine-Learning-basierte Anomalie-Detektion kann helfen: "Die Zelle läuft und hat kein Fehler-Log, aber das Verhalten sieht anders aus." → Das ist oft der erste Hinweis auf ein Problem (z.B. Kalibrierungs-Drift).

Moderne Monitoring-Systeme (z.B. Grafana mit ML-Plugins, oder spezialisierte Industrial-IoT-Plattformen) können das out-of-the-box.

Ursachen-Analyse (Root Cause Analysis)

Mit gutem Logging ist RCA (Root Cause Analysis) schnell:

"Teil-Fehler um 14:23" → Schau in Logs 30 sec vorher: Waren alle Sensoren OK? Welche Sequenz lief? Waren dort Timeout? Kommunikations-Fehler?

Ohne Logs: Raten. Mit Logs: Fakten.

Best Practice: Tiered Logging

Event-Log: Alle Sequenzen, Status-Wechsel, Fehler — kompakt, unter 50 Byte pro Event
Detailed-Log: Sensor-Werte während einer Sequenz — nur für Fehler/Analyse
Audit-Log: Wer hat was konfiguriert? (Wartung, Kalibrierung) — für Compliance

So speicherst du nicht "alles" (Performance-Killer), sondern die richtige Granularität.

Beispiel: Offene Workflows

Stell dir vor, dein Monitoring System zeigt:

"Sensor XY war DOWN für 3 Sekunden um 14:23" (aus Event-Log)
"Sequenz 'Pick' timeout um 14:23:02" (aus Event-Log)
"Material war nicht geladen um 14:23:02" (aus Detailed-Log für jenen Fehler)

→ Du weißt sofort: Sensor-Ausfalls hatte Follow-Up — Sequenz konnte nicht starten. RCA abgeschlossen in Sekunden statt Stunden.

Fazit

Eine Zelle ohne Monitoring ist wie ein Auto ohne Armaturenbrett.

Mit strukturiertem Logging, KPI-Tracking und guten Alerts :

Fehler werden schneller identifiziert
Wartung kann proaktiv geplant werden
Optimierungspotentiale werden sichtbar

Investiere früh in Monitoring — es spart sich schnell selbst ein.

Möchtest du ein Monitoring-System für deine Zelle aufsetzen? Gerne helfen wir beim Design.

Kontakt aufnehmen

Diagnose & Monitoring: Tools für stabilen 24/7-Betrieb