最近这几天博主发现自己搭建的HoshinoBot经常性的会自己DOWN掉,起初博主只是以为是偶尔性发生的问题,因为之前也有过机器人进程自己出错然后结束的问题,重启过一次后问题就解决了。但是这次问题发生的十分的频繁,一开始重启BOT后还能坚持个半天,接着到后面,甚至在我重启不到十分钟之后服务就自己断掉了,所以让博主十分的恼火,于是想仔细研究一下到底是什么个原因。

登录服务器后,进入机器人的screen界面,我们可以看到机器人这个进程好像被杀死(Killed)了。一般这种进程自己被杀死的情况,我下意识的会先想到,是不是我的BOT的某个插件出了问题,然后运行过程中出现了错误所导致的退出?但是我最近半个月都没有更新过BOT的插件内容,而这个错误是这个礼拜才经常出现的,所以我觉得插件出问题的可能性不大,可以暂时先排除。

BOT的进程界面

这里我还是想提一嘴,遇到问题的时候,还是最好先查一下相关的Log,这样才比较好定位问题,像我上边的排除法其实挺不合理的,哈哈哈哈。所以这里我百度了一下我需要查询的Log的位置,这里我需要查询/var/log/messages里的信息。

vim /var/log/messages
Log信息

查询发现进程被杀的原因是“Out of memory”,难不成是内存不够了?通过“top”命令查询进程的内存使用量,看到虽然Python3这个进程确实吃了不少的内存,但是总内存1.8G也才用了1个G左右,怎么都不会像是内存不够啊?所以这里我就怀疑是不是系统的进程管理系统和BOT一起出了问题,在BOT在运行某个插件时,瞬时的内存使用量超过了系统的阈值,进而触发了进程的清理命令来保证系统有足够的内存来正常运行。

系统进程内存占用信息

这时候博主去请教了一个朋友,朋友推荐我去使用一个叫supervisor的进程守护管理程序。于是乎博主去查询了一下这个程序,发现这个程序好像还是挺有用的,所以下边我会附上这个程序的相关信息,和Centos上的配置方法。配置的主要信息来自风吹我已散博客Supervisor使用详解

一.SuperVisor简介

Supervisor是用Python开发的一套通用的进程管理程序,能将一个普通的命令行进程变为后台daemon,并监控进程状态,异常退出时能自动重启。它是通过fork/exec的方式把这些被管理的进程当作supervisor的子进程来启动,这样只要在supervisor的配置文件中,把要管理的进程的可执行文件的路径写进去即可。也实现当子进程挂掉的时候,父进程可以准确获取子进程挂掉的信息的,可以选择是否自己启动和报警。

二.SuperVisor安装

​Centos7/红帽系统:
yum install -y  supervisor #使用yum源安装 supervisor
​
systemctl start supervisord.service #启动supervisor服务
​
systemctl enable supervisord.service #设置supervisor开机启动
​
systemctl status supervisord.service #查看supervisor服务的状态

ubuntu系统:
apt install -y supervisor

systemctl start supervisor #启动supervisor服务

systemctl enable supervisor #设置supervisor开机启动

systemctl status supervisor #查看supervisor服务的状态

​
supervisor服务运行状态

看到状态为active和enabled时证明服务启动完成了,接下来就是配置SuperVisor的配置文件

三.supervisor配置文件配置

supervisor的配置文件位置为:/etc/supervisord.conf(Ubuntu系统在:/etc/supervisor/supervisord.conf),默认情况下的配置文件已经能满足我们的需求了,不过这里我把配置文件的注释也一起贴了过来,说不定之后会有用到的地方。


[unix_http_server]
file=/tmp/supervisor.sock   ;UNIX socket 文件,supervisorctl 会使用
;chmod=0700                 ;socket文件的mode,默认是0700
;chown=nobody:nogroup       ;socket文件的owner,格式:uid:gid
 
;[inet_http_server]         ;HTTP服务器,提供web管理界面
;port=127.0.0.1:9001        ;Web管理后台运行的IP和端口,如果开放到公网,需要注意安全性
;username=user              ;登录管理后台的用户名
;password=123               ;登录管理后台的密码
 
[supervisord]
logfile=/tmp/supervisord.log ;日志文件,默认是 $CWD/supervisord.log
logfile_maxbytes=50MB        ;日志文件大小,超出会rotate,默认 50MB,如果设成0,表示不限制大小
logfile_backups=10           ;日志文件保留备份数量默认10,设为0表示不备份
loglevel=info                ;日志级别,默认info,其它: debug,warn,trace
pidfile=/tmp/supervisord.pid ;pid 文件
nodaemon=false               ;是否在前台启动,默认是false,即以 daemon 的方式启动
minfds=1024                  ;可以打开的文件描述符的最小值,默认 1024
minprocs=200                 ;可以打开的进程数的最小值,默认 200
 
[supervisorctl]
serverurl=unix:///tmp/supervisor.sock ;通过UNIX socket连接supervisord,路径与unix_http_server部分的file一致
;serverurl=http://127.0.0.1:9001 ; 通过HTTP的方式连接supervisord
 
; [program:xx]是被管理的进程配置参数,xx是进程的名称
[program:xx]
command=/opt/apache-tomcat-8.0.35/bin/catalina.sh run  ; 程序启动命令
autostart=true       ; 在supervisord启动的时候也自动启动
startsecs=10         ; 启动10秒后没有异常退出,就表示进程正常启动了,默认为1秒
autorestart=true     ; 程序退出后自动重启,可选值:[unexpected,true,false],默认为unexpected,表示进程意外杀死后才重启
startretries=3       ; 启动失败自动重试次数,默认是3
user=tomcat          ; 用哪个用户启动进程,默认是root
priority=999         ; 进程启动优先级,默认999,值小的优先启动
redirect_stderr=true ; 把stderr重定向到stdout,默认false
stdout_logfile_maxbytes=20MB  ; stdout 日志文件大小,默认50MB
stdout_logfile_backups = 20   ; stdout 日志文件备份数,默认是10
; stdout 日志文件,需要注意当指定目录不存在时无法正常启动,所以需要手动创建目录(supervisord 会自动创建日志文件)
stdout_logfile=/opt/apache-tomcat-8.0.35/logs/catalina.out
stopasgroup=false     ;默认为false,进程被杀死时,是否向这个进程组发送stop信号,包括子进程
killasgroup=false     ;默认为false,向进程组发送kill信号,包括子进程
 
;包含其它配置文件
[include]
files = relative/directory/*.ini    ;可以指定一个或多个以.ini结束的配置文件

四.supervisor子进程配置文件配置(重点)

子进程配置文件的路径为:/etc/supervisord.d/ (ubuntu系统在:/etc/supervisor/conf.d/*.conf)(注:默认子进程配置文件为ini格式,可在supervisor主配置文件中修改。)

由于我们想要守护的进程是作为supervisor的子进程来运行的,所以子进程文件的配置就十分的重要了,下面我会先贴上配置文件中应该包含的内容的注释,然后在贴上我自己的配置文件。


#项目名
[program:blog]
#脚本目录(程序的所在目录)
directory=/opt/bin
#脚本执行命令
command=/usr/bin/python /opt/bin/test.py
​
#supervisor启动的时候是否随着同时启动,默认True
autostart=true
#当程序exit的时候,这个program不会自动重启,默认unexpected,设置子进程挂掉后自动重启的情况,有三个选项,false,unexpected和true。如果为false的时候,无论什么情况下,都不会被重新启动,如果为unexpected,只有当进程的退出码不在下面的exitcodes里面定义的
autorestart=false
#这个选项是子进程启动多少秒之后,此时状态如果是running,则我们认为启动成功了。默认值为1
startsecs=1
​
#脚本运行的用户身份 
user = test
​
#日志输出 
stderr_logfile=/tmp/blog_stderr.log 
stdout_logfile=/tmp/blog_stdout.log 
#把stderr重定向到stdout,默认 false
redirect_stderr = true
#stdout日志文件大小,默认 50MB
stdout_logfile_maxbytes = 20MB
#stdout日志文件备份数
stdout_logfile_backups = 20

HoshinoBot的配置示例:

touch /etc/supervisord.d/hoshino.ini #首先创建子进程配置文件

然后复制如下的内容到我们创建的hoshino.ini中


#项目名
[program:hoshino]
#脚本目录
directory=/root/pcrbot/HoshinoBot/
#脚本执行命令(可以通过命令 type python3查询python3的路径)
command=/usr/local/bin/python3 /root/pcrbot/HoshinoBot/run.py
​
#supervisor启动的时候是否随着同时启动,默认True
autostart=true
#当程序exit的时候,这个program不会自动重启,默认unexpected,设置子进程挂掉后自动重启的情况,有三个选项,false,unexpected和true。如果为false的时候,无论什么情况下,都不会被重新启动,如果为unexpected,只有当进程的退出码不在下面的exitcodes里面定义的
autorestart=true
#这个选项是子进程启动多少秒之后,此时状态如果是running,则我们认为启动成功了。默认值为1
startsecs=1
​
#脚本运行的用户身份 
user = root
​
#日志输出 
stderr_logfile=/tmp/blog_stderr.log 
stdout_logfile=/tmp/blog_stdout.log 
#把stderr重定向到stdout,默认 false
redirect_stderr = true
#stdout日志文件大小,默认 50MB
stdout_logfile_maxbytes = 20MB
#stdout日志文件备份数
stdout_logfile_backups = 20

保存退出,这里子进程的文件配置就已经完成了

五.开启supervisor

supervisor的日常使用命令为:


supervisorctl status        //查看所有进程的状态

supervisorctl stop es       //停止es

supervisorctl start es      //启动es

supervisorctl restart       //重启es

supervisorctl update        //配置文件修改后使用该命令加载新的配置

supervisorctl reload        //重新启动配置中的所有程序

在这个项目中,我们的命令顺序为:


supervisorctl update
​
supervisorctl start es
​
supervisorctl status

待查询进程状态的结果显示为:

运行结果

则证明服务已经启动完成了,至此我们只需要登服务运行几天看看还会不会被kill进程就好。