Skip to content

运行状态与数据流

Run 状态机(建议)

  • Created:run 目录创建完成,已写入场景/策略/versions
  • Starting:启动 UNET/建立连接中
  • Running:step loop 运行中
  • Stopping:停止/收尾中
  • Finished:正常结束
  • Failed:异常结束(需记录原因)

Step 数据

每个 step 需要记录:

  • step_idt_start_mst_end_ms
  • 调度决策:active_nodes、quota、meta
  • 当步 trace 增量与聚合指标
  • 同步指标:sync_error_ms、out_of_order

落盘与一致性

  • schedule 决策必须可追溯:schedule_decisions.csv
  • trace 必须可追溯:traces.csv
  • metrics 必须可复算:metrics.csv 与(可选)计算参数