芯准AS6802开源原型系统(6):容错单SM失效

    技术2025-01-18  11

    本文介绍芯准AS6802时间同步开源原型系统的第四个验证案例:容错单SM失效,验证在单个SM节点在发生“不一致-遗漏”失效的情况下,系统可以容忍失效并继续保持同步。

    芯准AS6802时间同步开源原型系统的第四个验证案例:容错单SM失效

    一、验证环境

    验证环境的网络拓扑结构如图1,实景如图2所示,由4台AS6802同步节点、1台交换机、1台4通道示波器以及控制终端PC组成。

    4台AS6802时间同步节点组成一个同步域,包含1个压缩主(CM)和3个同步主(SM1~SM3)。示波器的四个通道分别连接到同步节点板卡上的测试点,探测个节点的同步脉冲信号,并实时计算同步脉冲信号间的误差。所有同步节点与控制终端PC通过一个普通交换机组成带外配置管理网络,实现控制终端PC对同步节点的配置和状态监控。所有同步节点在运行过程中采集状态信息,并实时发送给控制终端,控制终端可通过回溯这些状态报文来监控分析节点的状态变化,辅助调试与测试。

    图1  验证环境网络拓扑图 图 2 验证环境实景

     

    二、案例说明

    本案例验证单个SM节点在发生“不一致-遗漏”失效的情况下,根据AS6802标准中的故障容错机制,系统是否能够容忍该失效,继续保持同步。

    本案例使用的关键参数配置如表1所示:

    表1 关键参数配置

    参数名称

    参数值

    同步精度

    100ns

    最大传输延迟

    100us

    容错故障节点数

    1个

    最大集成周期

    63个

    接受窗口大小

    200ns

    观察窗口大小

    100ns

    时钟周期

    8ns

    在本次验证中,选取SM3作为失效节点,验证步骤如下:

    (1)通过控制终端依次启动SM1、SM2、SM3和CM,观察所有节点达到同步状态;

    (2)通过控制终端设置SM3的同步调试参数,关闭SM3的输出通道,使其无法发送报文,但可以正常接收报文,从而无法发出PCF帧,模拟“不一致-遗漏”失效:

    (3)通过示波器观察SM3失效后的系统同步状态;

    (4)通过控制终端的状态报文历史回溯功能分析SM3失效前后各节点的状态变化,验证是否与预期结果一致。

    三、预期结果

    SM1~SM3及CM分别启动后,所有节点通过冷启动流程达到同步状态,并通过周期性地发送与处理IN帧稳定在同步状态,如图3所示:

    图3 所有节点启动后达到同步预期结果

     

    控制SM3出现“不一致-遗漏”失效后,SM3无法发出同步PCF帧(但可以正常接收)。但由于2个正常SM(SM1~SM2)满足同步阈值要求,因此不会影响节点间的正常同步,所有节点(包括SM3)依旧处于同步STABLE状态。预期结果如图4所示:

    图4 SM3失效后预期结果

     

    四、测试结果

    下面是实际测试过程。为了便于查看结果,我们将示波器远程界面输出到控制终端PC的显示器,与控制端界面并行显示。同时,控制终端PC存储了整个验证过程中所有节点设备发送的状态报文,基于这些状态报文,我们可以回溯各阶段中节点的状态跳转情况。

    首先,通过控制终端启动SM1~SM3以及CM节点,从示波器中可以看到4台设备波形实现同步,动态测量显示误差满足100ns精度范围,如图5所示:

    图 5 所有节点启动完成同步的示波器波形

    然后,控制SM3节点失效,从示波器中可以看到所有节点的波形仍然保持在同步状态,动态延时测量显示同步误差也一直满足100ns精度范围,如图6所示。

    图 6 SM3失效后的示波器波形

     下面在控制端通过存储的状态报文回溯节点状态(图7)。可以看到,初始4个节点通过冷启动完成同步后,同步membership的数量为3,表示所有SM正常工作;当控制SM3失效后,由于SM3能够正常接收到同步PCF帧,依然能够保持在同步状态(此时SM3类似一个同步客户端SC节点);并且所有节点依然能够正常同步,只是同步membership的数量变成了2,表示当前只有2个有效的同步SM。

    图7 SM3失效前后的状态变化回溯

    从上述测试过程可以看出,虽然SM3发生了“不一致-遗漏”失效,无法发出PCF帧,但由于系统可容忍最大故障节点数量为1,且剩余的正常SM数量满足同步阈值要求,根据AS6802的容错机制,系统中所有节点(包括失效节点)仍然能正常保持同步。

    容错单SM失效场景的案例介绍完毕,测试结果与预期结果一致,符合AS6802标准中定义的故障容错机制。

    下一篇文章将开始介绍结团检测与场景的验证案例。

    欢迎各位专家学者交流指正。

    联系方式:

    微信:

    电话:15717512278

    文章推荐

    芯准AS6802开源原型系统(1)—— 系统简介与验证说明

    芯准AS6802开源原型系统(2)—— 参数说明与配置

    芯准AS6802开源原型系统(3):无故障冷启动同步之一 — 先启动CM后启动SM

    芯准AS6802开源原型系统(4):无故障冷启动同步之二 — 先启动SM后启动CM

    芯准AS6802开源原型系统(5):SM同步重启

    Processed: 0.008, SQL: 9