嵌入式软件自举

    技术2022-07-10  167

    说明

    嵌入式软件自举即嵌入式软件依靠自身保障嵌入式产品的正常运行,不同于普通PC程序,大部分嵌入式软件需要自动启动并且长时间稳定的运行。自举功能包括:自启动,自维持,自恢复等。

    自启动

    嵌入式程序需要实现自动启动,Linux系统启动后会自动加载一些配置和执行一些脚本,将程序执行加入即可,例如: /etc/inittab,在该文件中又加载了rc.sysinit和rc.d等文件。systemd init中创建一个自启动service。

    自维持

    待续

    自恢复

    对于需要长时间运行的电子产品,例如:安防监控等,如果设备出问题后不能自动恢复,可能会出现以下情况: 设备操作无反应,用户以为设备坏掉了,并不知道需要断电重启,对产品质量怀疑。程序崩溃后所有功能中断,有些重要并且需要长时间稳定运行的功能无法延续,例如:定时闹钟等。

    程序问题是无法避免的

    程序问题乃至崩溃是无法避免的,一些因素并不是个人可以避免的,例如: 程序测试不充分,有bug导致程序崩溃,可以降低概率,但是无法彻底避免。小内存设备中程序长时间运行,内存碎片积累以及其它问题导致程序崩溃。 为了避免设备无法使用,通常需要实现出问题后软件自动恢复功能。

    处理方法

    实现程序运行状态的监控,当程序出问题时,进行恢复操作,常见实现如下: 写个监控程序,判断程序是否运行正常,当程序运行不正常则重启程序或者设备。使用看门狗,有软件看门狗,也有硬件看门狗。

    比较

    方案1 监控脚本和程序可靠性差点。 处理载体为应用程序,代码实现可靠性和稳定性相对于内核和硬件实现差些。在资源不足时,主程序和监控程序可能先后被系统杀死,导致监控程序没起作用。异常情况下,系统看起来像死机,应用层无法做任何处理,这种情况下内核本身可能并没有停止工作,只是不提供服务了,导致监控程序没起作用。 方案1中重启对象有两个选项:程序和设备;对于内存碎片问题,重启程序是无用的,并且重启设备有助于重置软件环境,因此选择重启设备会好点。

    看门狗(watchdog)

    硬件看门狗

    对稳定性要求较高的产品,可能会选择硬件看门狗,通过硬件芯片来实现。

    软件看门狗

    Linux内核自带看门狗模块,原理类似于一个定时器,开启看门狗后需要不断喂狗,中断超时后会重启设备。软件看门狗驱动接口如下: wdt_open:打开设备,应用程序调用open时进入该函数。wdt_close :关闭设备,应用程序调用close时进入该函数wdt_write :写设备,若传入数据大小不为0则喂狗;应用程序调用write时进入该函数.wdt_ioctl :这个函数是最主要的,原型如下(driver\watchdog): static long wdt_ioctl(struct file *file, unsigned int cmd, unsigned long arg) { void __user *argp = (void __user *)arg; int __user *p = argp; int new_timeout; static const struct watchdog_info ident = { .options = WDIOF_KEEPALIVEPING | WDIOF_SETTIMEOUT | WDIOF_MAGICCLOSE, .firmware_version = 1, .identity = "W83627HF WDT", }; switch (cmd) { case WDIOC_GETSUPPORT: if (copy_to_user(argp, &ident, sizeof(ident))) return -EFAULT; break; case WDIOC_GETSTATUS: case WDIOC_GETBOOTSTATUS: return put_user(0, p); case WDIOC_SETOPTIONS: { int options, retval = -EINVAL; if (get_user(options, p)) return -EFAULT; if (options & WDIOS_DISABLECARD) { wdt_disable(); retval = 0; } if (options & WDIOS_ENABLECARD) { wdt_ping(); retval = 0; } return retval; } case WDIOC_KEEPALIVE: wdt_ping(); break; case WDIOC_SETTIMEOUT: if (get_user(new_timeout, p)) return -EFAULT; if (wdt_set_heartbeat(new_timeout)) return -EINVAL; wdt_ping(); /* Fall */ case WDIOC_GETTIMEOUT: return put_user(timeout, p); default: return -ENOTTY; } return 0; } 其主要的几个参数如下: WDIOC_KEEPALIVE :喂狗,同write函数功能类似 WDIOC_SETTIMEOUT :设置超时值 WDIOC_GETTIMEOUT :获取超时值 WDIOC_SETOPTIONS:设置看门狗状态,开启(WDIOS_ENABLECARD)或关闭(WDIOS_DISABLECARD) 应用层使用 open设备(/dev/watchdog) fd = open("/dev/watchdog", O_RDWR); 开启/停止 watchdog ioctl(fd, WDIOC_SETOPTIONS, WDIOS_ENABLECARD); //开启 ioctl(fd, WDIOC_SETOPTIONS, WDIOS_DISABLECARD) //停止 内核配置中有一项 WATCHDOG_NOWAYOUT,表示Disable watchdog shutdown on close,如果配置打开,停止操作是不生效的。 设置喂食超时时长 int timeout = 60; ioctl(fd, WDIOC_SETTIMEOUT, &timeout); 喂狗 * 循环执行 方式1:write write(fd, &arg, sizeof(arg));//arg必须是非0数,否则喂狗失败 方式2:ioctl ioctl(fd, WDIOC_KEEPALIVE, NULL); 关闭设备节点 close(fd);

    问题

    频繁重启 使用看门狗,程序崩溃后会设备会重启,如果程序在初始化过程中必然崩溃,设备就会出现循环重启现象,程序崩溃太快,用户甚至无法操作和中断。大部分的启动过程中崩溃问题,测试时能发现和解决,但是也可能是用户升级后用户配置文件,新旧版本未兼容好导致(之前产品中有遇到过)。解决方案:恢复出厂设置(Reset操作);如果时间空闲,可以由用户通过按键或者其它物理方式进行reset操作,清除所有数据;如果重启过快,用户无法操作,程序中需要捕获SIGSEGV等信号,通过系统启动时间或者其它手段判断设备是否频繁重启,以做规避。
    Processed: 0.028, SQL: 9