关键字|Shell 脚本实战:日志关键字监控+自动告警


该程序使用场景说明:主要用于Linux服务器监控程序日志 , 如出现关键字异常则触发相应的动作或告警操作 , 通知到邮件联系人 。
一、安装邮件服务
1、解压
tar -jxf mailx-12.4.tar.bz2 -C /usr/src/ &amp&amp cd /usr/src/mailx-12.4/
2、编译
make install UCBINSTALL=/usr/bin/install
关键字|Shell 脚本实战:日志关键字监控+自动告警
本文插图

异常报错解决方法
下载mailx补丁文件“mailx-12.4-openssl_1.0.0_build_fix-1.patch” , 将补丁文件和mailx解压缩目录放置同一路径
执行打补丁命令:
patch -p0 &lt mailx-12.4-openssl_1.0.0_build_fix-1.patch
进入mailx-12.4重新执行编译命令:
make install UCBINSTALL=/usr/bin/install
关键字|Shell 脚本实战:日志关键字监控+自动告警
本文插图

检测mailx是否安装成功:mailx -V
3、配置
vi /etc/nail.rc , 在文件的最后添加 set from= set smtp= set smtp-auth-user= set smtp-auth-password= set smtp-auth=login
如下图所示 , 修改配置完后保存
4、测试发送邮件
echo "邮件正文"|mailx -v -s "邮件标题" 邮箱地址
关键字|Shell 脚本实战:日志关键字监控+自动告警
本文插图

至此邮件功能测试正常 , 接下来是关键字监控脚本的编写工作 , 通过日志关键字脚本触发邮件告警脚本实现日志监控
二、关键字监控脚本开发

CheckLogs.sh 日志监控程序
SendMail.sh 发邮件脚本,该脚本可自定义
conf 配置文件目录,chklist为配置文件
初次执行CheckLogs.sh脚本会读取日志文件并记录当前读取的行数
后续运行脚本则读取更新日志 , 例如当前日志更新了9行数据 , 则脚本从最新的9行数据获取关键字
【关键字|Shell 脚本实战:日志关键字监控+自动告警】关键字|Shell 脚本实战:日志关键字监控+自动告警
本文插图

测试插入关键字error
继续执行脚本可以看到已捕获关键字并触发告警
关键字|Shell 脚本实战:日志关键字监控+自动告警
本文插图

测试多关键字
再次执行可以看到已捕获最新更新的日志信息
关键字|Shell 脚本实战:日志关键字监控+自动告警
本文插图

测试频率控制
至此相关功能测试已完成 。 最后附上脚本相关代码如下:

#!/bin/bash basedir=$(cd `dirname "$0"`pwd) logsdir=$basedir/logs tmpsdir=$basedir/tmps confdir=$basedir/conf chkfile=$confdir/chklist logfile=$logsdir/log.log_$(date +%F) #创建各种目录 mkdir -p $logsdir $tmpsdir $confdir #创建配置文件 if test ! -e "$chkfile"then echo "#日志文件,关键字(多关键字|隔开),重试次数,最大执行次数,启动命令,停止命令" &gt$chkfile fi #生成日志函数 do_writelog() { case $1 in i|I) shift echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|INFO|$@" &gt&gt$logfilee|E) shift echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|ERROR|$@" &gt&gt$logfilew|W) shift echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|WARNING|$@" &gt&gt$logfile*) echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|DEBUG|$@" &gt&gt$logfile esac } #日志处理部分代码 cat $chkfile|egrep -v "^($|#)"|while read ido ( app_name=$(echo "$i"|awk -F, "{print $1}") if test -z "$app_name"then do_writelog e "应用名称为空,退出执行" exit 0 fi log_filename=$(echo "$i"|awk -F, "{print $2}") if test ! -e "$log_filename"then do_writelog e "日志文件($log_filename)不存在,退出执行" exit 0 fi log_md5sum=$(echo -n "$log_filename"|md5sum|awk "{print $1}") log_gjz=$(echo "$i"|awk -F, "{print $3}") if test -z "$log_gjz"then do_writelog i "日志文件($log_filename),关键字为空,退出执行" exit 0 fi log_retry=$(echo "$i"|awk -F, "{print $4}") expr $log_retry + 0 &amp&gt/dev/null if [ $? -ne 0 ]then log_retry=0 fi log_max=$(echo "$i"|awk -F, "{print $5}") expr $log_max + 0 &amp&gt/dev/null if [ $? -ne 0 ]then log_max=3 fi start_command=$(echo "$i"|awk -F, "{print $6}") stops_command=$(echo "$i"|awk -F, "{print $7}") open_sendmail=$(echo "$i"|awk -F, "{print $8}") mail_scripts=$(echo "$i"|awk -F, "{print $9}") mail_contacts=$(echo "$i"|awk -F, "{print $10}") if [ $open_sendmail -eq 1 ]then if test -z "$mail_scripts"then do_writelog i "应用($app_name),触发动作脚本为空,退出执行" exit 0 fi if test -z "$mail_contacts"then do_writelog i "应用($app_name),联系人为空,退出执行" exit 0 fi fi if test ! -e "$tmpsdir/$log_md5sum"then log_new_count=$(wc -l $log_filename|awk "{print $1}") echo "$log_new_count" &gt$tmpsdir/$log_md5sum do_writelog i "日志文件($log_filename),初始化读取日志行数:$log_new_count,退出执行" else log_old_count=$(cat $tmpsdir/$log_md5sum) expr $log_old_count + 0 &amp&gt/dev/null if [ $? -ne 0 ]then do_writelog e "日志文件($log_filename),读取历史行数失败,退出执行" exit 0 fi log_new_count=$(wc -l $log_filename|awk "{print $1}") if [ $log_new_count -eq $log_old_count ]then do_writelog i "日志文件($log_filename),未更新,退出执行" exit 0 elif [ $log_new_count -lt $log_old_count ]then do_writelog i "日志文件($log_filename),跨日更新日志行数:$log_new_count,退出执行" echo "$log_new_count" &gt$tmpsdir/$log_md5sum else log_upd_count=$(expr $log_new_count - $log_old_count) do_writelog i "日志文件($log_filename),历史行数:$log_old_count,最新行数:$log_new_count,更新行数:$log_upd_count" #读取更新的日志 log_content=$(tail -n +`expr $log_old_count + 1` $log_filename|head -n +$log_upd_count) oldIFS=$IFS IFS="|" count=0 for i in $log_gjzdo if [ $(echo "$log_content"|grep -c -w "$i") -ge 1 ]then let count+=1 fi if [ $count -gt 0 ]then break fi done IFS=$oldIFS if [ $count -gt 0 ]then echo "0" &gt&gt$tmpsdir/${log_md5sum}.retry else do_writelog i "日志文件($log_filename),未获取到关键字,退出执行" echo "$log_new_count" &gt$tmpsdir/$log_md5sum exit 0 fi if [[ $(wc -l $tmpsdir/${log_md5sum}.retry|awk "{print $1}") -gt $log_retry ]]then echo "0" &gt&gt$tmpsdir/${log_md5sum}_$(date +%F) if [ $(wc -l $tmpsdir/${log_md5sum}_$(date +%F)|awk "{print $1}") -le $log_max ]then $stops_command 1&gt&gt$logfile 2&gt&amp1 $start_command 1&gt&gt$logfile 2&gt&amp1 do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,停止命令:$stops_command,启动命令:$start_command,重启服务" if [ $open_sendmail -eq 1 ]then if test -n "$mail_scripts"then $mail_scripts "应用[$app_name]故障" "日志文件($log_filename),日志内容:$log_content,找到关键字:$i" "$mail_contacts" 1&gt&gt$logfile 2&gt&amp1 if [ $? -ne 0 ]then do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,触发告警失败" fi do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,触发告警通知联系人:[$mail_contacts]" fi else do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,不触发告警" fi else do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,重启服务超出当天限制次数:$log_max,退出执行" fi rm -f $tmpsdir/${log_md5sum}.retry &amp&gt/dev/null else do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,重试检测:$(wc -l $tmpsdir/${log_md5sum}.retry|awk "{print $1}")" fi echo "$log_new_count" &gt$tmpsdir/$log_md5sum do_writelog i "日志文件($log_filename),更新记次文件完成" fi fi )&amp done


推荐阅读