背景:
客户端是一个多服务的客户端,有A,B,C,。。。等等多个服务,A服务负责启动其他服务
问题:
服务升级失败:(严重问题)
技术栈:
python, flask, vue,electron
排查根因:
Q1:通过日志查看,发现有dll文件占用
升级脚本执行失败会导致进程留存,导致文件占用
A服务对其他服务探活时,占用了python.exe程序
A1:进行升级时,如果发现占用,进行重试机制,每次重试休息1s,重试5次,次数自行定义
Q2:探活命令解析出问题
判断存活逻辑为,末尾输出是否为active,不是即为“死亡”
当输出了多余的内容,就会影响结果
A2:服务提供探活返回命令按格式要求,返回输出的内容需要包含 "status:active" 即为存活,"status:passive"即为未存活
Q3:解析二进制流编码格式错误
A3:增加编码格式,错误就跳过知道正确解析为止 "gb18030", "utf-8", "gbk", "latin-1"
Q4:升级脚本存在无法解析中文的问题
bat脚本中没有对路径进行双引号引用,导致没法识别空格特殊字符串以及中文等等
获取路径时,使用的路径会变化,时而使用绝对路径,时而使用相对路径,使用相对路径时,点斜杠(./)的格式开头是支持的,绝对路径就会报错
A4.1:对bat脚本所有变量增加双引号引用,防止解析失败
A4.2:删除./开头作为路径开头,这样对绝对路径和相对路径都支持了
Q5:回滚不生效
升级逻辑:(A为当前包,D为下载包)
- pre(前置):对A进行备份,生成A.bak
- upgrade(升级):将D覆盖A,执行成功->post,执行失败->rollback
- post(后置):删除D,删除A.bak
- rollback(回滚):将A.bak覆盖A
A5:当upgrade出现异常时,会进行回滚,回滚出现了失败的原因是:文件被占用
此时出现被占用的问题不应该抛出异常,而是跳过,因为跳过也不影响原本的文件,这样就能保证原子性了