说明
嵌入式软件自举即嵌入式软件依靠自身保障嵌入式产品的正常运行,不同于普通PC程序,大部分嵌入式软件需要自动启动并且长时间稳定的运行。自举功能包括:自启动,自维持,自恢复等。
自启动
嵌入式程序需要实现自动启动,Linux系统启动后会自动加载一些配置和执行一些脚本,将程序执行加入即可,例如:
/etc/inittab,在该文件中又加载了rc.sysinit和rc.d等文件。systemd init中创建一个自启动service。
自维持
待续
自恢复
对于需要长时间运行的电子产品,例如:安防监控等,如果设备出问题后不能自动恢复,可能会出现以下情况:
设备操作无反应,用户以为设备坏掉了,并不知道需要断电重启,对产品质量怀疑。程序崩溃后所有功能中断,有些重要并且需要长时间稳定运行的功能无法延续,例如:定时闹钟等。
程序问题是无法避免的
程序问题乃至崩溃是无法避免的,一些因素并不是个人可以避免的,例如:
程序测试不充分,有bug导致程序崩溃,可以降低概率,但是无法彻底避免。小内存设备中程序长时间运行,内存碎片积累以及其它问题导致程序崩溃。
为了避免设备无法使用,通常需要实现出问题后软件自动恢复功能。
处理方法
实现程序运行状态的监控,当程序出问题时,进行恢复操作,常见实现如下:
写个监控程序,判断程序是否运行正常,当程序运行不正常则重启程序或者设备。使用看门狗,有软件看门狗,也有硬件看门狗。
比较
方案1 监控脚本和程序可靠性差点。
处理载体为应用程序,代码实现可靠性和稳定性相对于内核和硬件实现差些。在资源不足时,主程序和监控程序可能先后被系统杀死,导致监控程序没起作用。异常情况下,系统看起来像死机,应用层无法做任何处理,这种情况下内核本身可能并没有停止工作,只是不提供服务了,导致监控程序没起作用。
方案1中重启对象有两个选项:程序和设备;对于内存碎片问题,重启程序是无用的,并且重启设备有助于重置软件环境,因此选择重启设备会好点。
看门狗(watchdog)
硬件看门狗
对稳定性要求较高的产品,可能会选择硬件看门狗,通过硬件芯片来实现。
软件看门狗
Linux内核自带看门狗模块,原理类似于一个定时器,开启看门狗后需要不断喂狗,中断超时后会重启设备。软件看门狗驱动接口如下:
wdt_open:打开设备,应用程序调用open时进入该函数。wdt_close :关闭设备,应用程序调用close时进入该函数wdt_write :写设备,若传入数据大小不为0则喂狗;应用程序调用write时进入该函数.wdt_ioctl :这个函数是最主要的,原型如下(driver\watchdog):
static long wdt_ioctl(struct file *file, unsigned int cmd, unsigned long arg)
{
void __user *argp = (void __user *)arg;
int __user *p = argp;
int new_timeout;
static const struct watchdog_info ident = {
.options = WDIOF_KEEPALIVEPING | WDIOF_SETTIMEOUT |
WDIOF_MAGICCLOSE,
.firmware_version = 1,
.identity = "W83627HF WDT",
};
switch (cmd) {
case WDIOC_GETSUPPORT:
if (copy_to_user(argp, &ident, sizeof(ident)))
return -EFAULT;
break;
case WDIOC_GETSTATUS:
case WDIOC_GETBOOTSTATUS:
return put_user(0, p);
case WDIOC_SETOPTIONS:
{
int options, retval = -EINVAL;
if (get_user(options, p))
return -EFAULT;
if (options & WDIOS_DISABLECARD) {
wdt_disable();
retval = 0;
}
if (options & WDIOS_ENABLECARD) {
wdt_ping();
retval = 0;
}
return retval;
}
case WDIOC_KEEPALIVE:
wdt_ping();
break;
case WDIOC_SETTIMEOUT:
if (get_user(new_timeout, p))
return -EFAULT;
if (wdt_set_heartbeat(new_timeout))
return -EINVAL;
wdt_ping();
/* Fall */
case WDIOC_GETTIMEOUT:
return put_user(timeout, p);
default:
return -ENOTTY;
}
return 0;
}
其主要的几个参数如下:
WDIOC_KEEPALIVE :喂狗,同write函数功能类似
WDIOC_SETTIMEOUT :设置超时值
WDIOC_GETTIMEOUT :获取超时值
WDIOC_SETOPTIONS:设置看门狗状态,开启(WDIOS_ENABLECARD)或关闭(WDIOS_DISABLECARD)
应用层使用
open设备(/dev/watchdog)
fd = open("/dev/watchdog", O_RDWR);
开启/停止 watchdog
ioctl(fd, WDIOC_SETOPTIONS, WDIOS_ENABLECARD); //开启
ioctl(fd, WDIOC_SETOPTIONS, WDIOS_DISABLECARD) //停止
内核配置中有一项 WATCHDOG_NOWAYOUT,表示Disable watchdog shutdown on close,如果配置打开,停止操作是不生效的。
设置喂食超时时长
int timeout = 60;
ioctl(fd, WDIOC_SETTIMEOUT, &timeout);
喂狗
* 循环执行
方式1:write
write(fd, &arg, sizeof(arg));//arg必须是非0数,否则喂狗失败
方式2:ioctl
ioctl(fd, WDIOC_KEEPALIVE, NULL);
关闭设备节点
close(fd);
问题
频繁重启
使用看门狗,程序崩溃后会设备会重启,如果程序在初始化过程中必然崩溃,设备就会出现循环重启现象,程序崩溃太快,用户甚至无法操作和中断。大部分的启动过程中崩溃问题,测试时能发现和解决,但是也可能是用户升级后用户配置文件,新旧版本未兼容好导致(之前产品中有遇到过)。解决方案:恢复出厂设置(Reset操作);如果时间空闲,可以由用户通过按键或者其它物理方式进行reset操作,清除所有数据;如果重启过快,用户无法操作,程序中需要捕获SIGSEGV等信号,通过系统启动时间或者其它手段判断设备是否频繁重启,以做规避。
转载请注明原文地址:https://ipadbbs.8miu.com/read-306.html