バッチ処理の通知・アラート管理

こんにちは、nekoyaです。

システムを日々運用していく中で、その処理結果の記録や異常検知の仕組みは地味ながらも大切な存在です。

各種監視ツールからの通知や、ブラウザから利用可能なWebインタフェースなど、その形態も様々です。

今回はその中から、バッチ処理の結果通知について、我々のチームが実践している方式をご紹介します。

loggerを通して記録する

まず前提として、通知する内容はプログラマ自身が出力することが基本になります。

自分はここ数年はPythonをメインに使っていて、標準のloggingモジュールを通して

import logging

logger = logging.getLogger(__name__)
logger.info('hello!')

のようにログを吐いておくと、スクリプトの終了時にそれまで出力したログがいい感じに集約されて通知されるようにしています。

ログレベル

ログを出力する際は「そのログがどのレベルに属するか」を併せて指定します。

Pythonのloggingにもいろいろなレベルが定義されていますし、Log4j的な実装は様々な言語に浸透していると思われます。

あまり種別が増えすぎると煩雑になるので、我々はこの4つのレベルを使うようにしています。

debug
- debugモードで実行した場合のみ出力される
info
- 後で参照するために残す正常な処理結果の情報
warn
- 処理は継続するが把握すべき異常があった
critical
- 処理を継続できないか、バッチが目的を達成できない異常があった

何をどのレベルで出力するかは開発者次第ですが、大まかな基準は上記のようになっています。

また、スクリプトが途中で異常終了した場合はエラー内容をcriticalで出力し、併せてstacktraceを出力する仕組みを用意しています。

通知の仕組み

スクリプトが終了した時点で、それまでに出力された最も高いレベルのログに合わせて通知が飛びます。

通常はwarn, criticalが発生した場合に、スクリプトをverboseモードで実行した場合はnoticeでも通知します。

通知内容にはスクリプトの実行中に発生した全てのログと、以下の項目が含まれます。

検知した最大ログレベル
実行ホスト
実行スクリプト名
実行開始と終了日時

例えば、こんな具合です。

----------------------------------------
   From: system@localhost
     To: warn@localhost
Subject: [warn] nekoya.dev.local - alert_sample.py
----------------------------------------
script /home/nekoya/alert_sample.py running at 2016-07-01 16:46:34
----------------------------------------
2016-07-01 16:46:34 [INFO] --- find friends ---
2016-07-01 16:46:34 [DEBUG] - found id: 3
2016-07-01 16:46:35 [DEBUG] - found id: 5
2016-07-01 16:46:35 [DEBUG] - found id: 8
2016-07-01 16:46:35 [INFO] found 3 friends
2016-07-01 16:46:35 [INFO] --- send message ---
2016-07-01 16:46:39 [WARNING] failed id: 5
2016-07-01 16:46:41 [INFO] sent 2 messages
----------------------------------------
finished at 2016-07-01 16:46:41

こうしたメッセージをメールやSlackで受けています。

Slackは文字数制限が厳しい上に、クライアントによって上限が異なったりして途中で途切れたりすることもありますが「その場合はメールで全文が確認できるからいいよね」ぐらいの温度感で回しています。

手軽にWebHookで済まさずにAPIを使ってSnippetにするみたいな方法もありそうですが、現時点ではそこまではしていません。