網路監控與告警
System ↔ SystemSNMP 輪詢,經由指標彙整、閾值評估到工單建立的完整流程。
6 個節點 · 5 條連接telecom
eventsystemapidb
視覺化
SNMP 輪詢event
透過 SNMPv3 從網路設備收集介面計數器、CPU 及記憶體資料。
↓sequential→ 指標彙整
指標彙整system
計算 1 分鐘/5 分鐘/15 分鐘平均值、百分位數及差分計數器。
↓sequential→ 閾值評估
↓parallel→ 儀表板更新
閾值評估system
對照靜態閾值及 ML 異常基準進行檢查。
↓conditional→ 告警路由
告警路由system
去重複、關聯並透過升級政策路由告警。
↓sequential→ 工單建立
工單建立api
在 ServiceNow 中建立含嚴重性、設定項目及操作手冊連結的事件工單。
儀表板更新db
將時間序列資料寫入 Grafana/Prometheus,供網路維運中心儀表板使用。
uc-network-monitoring.osop.yaml
osop_version: "1.0"
id: "network-monitoring"
name:"網路監控與告警"
description:"SNMP 輪詢,經由指標彙整、閾值評估到工單建立的完整流程。"
nodes:
- id: "snmp_poll"
type: "event"
name: "SNMP 輪詢"
description: "透過 SNMPv3 從網路設備收集介面計數器、CPU 及記憶體資料。"
timeout_sec: 30
- id: "metric_agg"
type: "system"
name: "指標彙整"
description: "計算 1 分鐘/5 分鐘/15 分鐘平均值、百分位數及差分計數器。"
- id: "threshold_eval"
type: "system"
name: "閾值評估"
description: "對照靜態閾值及 ML 異常基準進行檢查。"
- id: "alert_route"
type: "system"
name: "告警路由"
description: "去重複、關聯並透過升級政策路由告警。"
- id: "ticket_create"
type: "api"
subtype: "rest"
name: "工單建立"
description: "在 ServiceNow 中建立含嚴重性、設定項目及操作手冊連結的事件工單。"
retry_policy:
max_attempts: 2
- id: "dashboard"
type: "db"
name: "儀表板更新"
description: "將時間序列資料寫入 Grafana/Prometheus,供網路維運中心儀表板使用。"
edges:
- from: "snmp_poll"
to: "metric_agg"
mode: "sequential"
- from: "metric_agg"
to: "threshold_eval"
mode: "sequential"
- from: "metric_agg"
to: "dashboard"
mode: "parallel"
- from: "threshold_eval"
to: "alert_route"
mode: "conditional"
when: "threshold.breached == true"
- from: "alert_route"
to: "ticket_create"
mode: "sequential"