边缘物业一体机离线排查
1. 问题现象
在物联网平台里面显示物业一体机离线状态, 如下图:
物业一体机在线的判断条件是下面三个条件进行与逻辑 [只有三个条件都是1 才显示在线, 其中一个条件是0 就是显示离线]
本地网络跟公网通信正常: ping 223.5.5.5 [阿里云提供的公网DNS]
LinkEdge 网关(设备接入的网关):必须在线
物业一体机是云端k8s 集群的一台worker,实时上报状态; k8s 状态正常
上面每一个条件离线都会导致物业一体机离线,但个单独的离线对业务的影响不同,下面排查思路里面会具体说明
2. 排查方案
2.1 局域网通信是否正常
如果本地局域网络出现异常, 那对业务的影响是最大的;相当于子设备跟物业一体机的网关连接和通行都异常;
几乎所有的业务都不可用;修复办法也只能等待本地网络修复;
云端或者远程没有任何好的办法来缓解或者修复
具体测试方法:
本地2台设备互相 ping IP 地址
或者本地网络工程师根据路由器、交换机去判断本地网络问题
2.2 局域网通信正常, 当公网不通
局域网通信正常,但公网不通
此时在边缘端闭环的业务正常
刷脸通行/刷卡通行/二维码通行等,但通行事件上云业务异常
固定车位(购买或者长期租车位,不用涉及缴费车辆)正常通行 ;但临时停车缴费业务异常
边缘端(小区保安监控)正常运行, 但云端拉流存储、安防事件通知业务异常
排查方法:
方法一:远程或者本地SSH 到物业一体机,ping 223.5.5.5 来验证网络是否正常
方法二: 用上一个章节里面网络监测脚本来监测
修复方案:
首先判断:局域网本身跟公网通行是否正常, 如果局域网都不能通公网,那只能本地网络团队来修复
如果本地局域网可以正常通信, 那需要通过网络监测脚本来监测具体的ERROR,根据错误信息来修复;
这种情况,可以联系阿里售后来支持快速修复公网通信
2.3 如果网络都正常,LinkEdge 离线
首先登录物联网应用服务平台, 查看集群网关和子设备是否在线
如果网关设备和子设备都离线,那核心业务都会受影响
可以认定为:人行/车行/安防业务都异常
如果网关离线,需要去查看下网关(网关也是一种设备)离线的日志:
在物联网平台日志服务查询网关的上上下线日志
2.4 如果网络正常, LinkEdge 网关也在线
那只有是第三种情况: k8s 状态离线
这种情况基本的核心业务不受影响,只影响物业一体机作为k8s 的woker 不能正常上报master 实时状态
这种情况只能离线阿里技术支持来修复