はじめに
こんにちは。fluct でSREをしている村田です。
2020/1/25 (土) に豊洲フロントで開催された SRE NEXT 2020 に参加してきましたので、皆様にご報告していきたいと思います!
SRE NEXTは日本で初めてのSREをテーマとしたカンファレンスで、弊社もゴールドスポンサーとして参加させていただいており、当日はfluctのSREチームメンバー数名で参加させていただきました。 スポンサーセッションでは fluct SREチームのみっさんが 成長を続ける広告配信プラットフォームのモニタリングを改善してきた話 というタイトルで発表を行いました。
印象深かったセッションなど
ここでは特に印象深かったセッション(など)についてまとめていきます。
早期来場者特典の特別ヨガプログラム
これはセッションではないのですが、会場に早く来た人向けのヨガプログラムがありました。 オープニング前の20分ほどの時間、インストラクターの saku_yoga さんのヨガレッスンを受けられるというもので、 座ったままの状態でできるリフレッシュ方法を沢山教えていただきました。 初めてのカンファレンスで緊張していましたが、ヨガのおかげでリフレッシュした状態でセッションに臨むことができました。 仕事柄やはりデスクワークが中心ですので、これからも活用させていただきます!
特別ヨガプログラムのおかげで背筋がシャキッとしました。基調講演、拝聴中 #srenext pic.twitter.com/zdyvCSKu8U
— 西から来た馬づらの男 #BacklogWorld 運営委員長 by #JBUG (@beppu01) 2020年1月25日
[A3] freee のエンジニアは障害から何を学び、どう改善しているのか?
freeeの@manabusakai さんによるセッションで、freeeのエンジニアがプロダクトの成長とともに障害とどう向き合ってきたかを解説していただきました。
freeeのプロダクトは人やお金に関する個人情報を扱うものが多く、障害に対して非常にシビアな対応が求められます。そんな中、起きてしまった事件(大きな障害)から何を学んだのか、そしてどのように改善していったかについて解説していただきました。
良いと思ったプラクティス
セッションの中で紹介されていた取り組みの中で、特に印象に残ったのは次の2つです。
- 自分たちに合った障害対応フローの作成
- 障害対応フローをより明確に整理したドキュメントを用意
- 初動対応や役割分担など、誰がどういう対応を取ったらいいかを明確にする
- 障害対応のノウハウを共有する場を作る
- 属人化しがちな対応ノウハウを組織に共有
fluct でも障害が起きた時の大まかな対応フローはあるのですが、ドキュメントなどを整備して、もっと誰でも対応しやすい状態にできると思いました。 加えて障害対応時のオペレーションについても、どのような対応を行ったのか、またその時何を考えていたのか共有するように改善していきたいと思いました。 障害対応時のノウハウを組織全体に共有することが、障害に対してより強い組織につながるのではないかと感じました。
[A7] サイト信頼性エンジニアリングの原則
Googleの@ymotongpoo さんによるセッションで、 SRE本に出てくる原則や手法を具体例をまじえながら解説してくださいました。 改めて、SREってなんだっけ?というのを振り返れる内容となっていて、SRE歴の浅い私としては特に聞けて良かった思ったセッションでした。
印象深かったトピック
紹介されていたトピックの中で個人的に印象深かったのは次の2つです。
- SLOとエラーバジェット
- SLOを設定するとエラーバジェットが決まる
- SLOを必要以上に厳しくすると変更に対して鈍重になる
- ポストモーテム
- 人間にフォーカスしない。曖昧な表現はダメ
- 事実と具体的な対策を書くことが大事
SLOに関する話題は他のセッションでも頻繁に取り上げられており、自分達のサービスの信頼性を担保していく中で各社が非常に重要視していることが伺えました。 その一方、自分達はというとSLO設定はまだできておらず、自分たちのサービスの信頼性を定量化できていない課題があることを再認識しました。
ポストモーテムでは、システムに何か問題があった場合には人間に着目するのではなくプロセスと技術に着目して振り返りを行い改善していくことが重要な考え方とされています。 fluct でも障害が起きた際は皆で振り返りを行いますが、この考え方は比較的実践できているように思いました。 失敗を学びに変える素晴らしい考え方なので、引き続き実践していきたいと思います。
[A8] Webサービスを1日10回デプロイするための取り組み
@fujiwara さんによる基調講演で、面白法人カヤックでデプロイの頻度を上げるために行ってきた取り組みについての解説をお聞きしました。
内容としては、Lobiというシステムの歴史とともにデプロイを誰でもかつ高頻度で行えるようにしていったというお話でした。 発表の中でfujiwaraさんが開発したstretcherというデプロイツールについての紹介があったのですが、 自分も実際に使ったことがあるため、開発者の話を生で聞くことができ感激しました。
良いと思ったプラクティス
発表の中で紹介されていたプラクティスの中で特に良いなと思ったのは、
- 休日前やピーク前はデプロイを避ける
- Slack Bot が確認してくれる
- どうしてもやるなら翌日の休日出勤申請をする
でした。fluct でも同様に休日前のデプロイは避けるという決まりがあるのですが、 Slack Bot での確認やどうしてもやる場合は休日対応できるように休日出勤申請をするなど仕組みで防止している点が素晴らしいと思います。
ブースについて
会場ではスポンサー企業によるブースが多数出展しており、スポンサー企業の方々と気軽にお話することができました。 ノベルティもたくさん用意されており、自分はNew RelicさんのブースでTシャツと靴下を頂きました!ありがとうございます!!
さらに CrowdWorksさんのブースでおみくじを引いたところ、大吉が出てなんと『実践Terraform』を頂きました! 以前から気になっていた本で、この機会に頂くことができて嬉しいです!ありがとうございます!!
実践Terraformのおみくじ、冷静に考えると相当シュールだなw おみくじ自体は14:10以降なので、ぜひ遊びにきてくださいー! #srenext pic.twitter.com/kIrsZKPwmP
— クラウド破産を回避するIaC実践ガイド/実践Terraform@tmknom (@tmknom) 2020年1月25日
おわりに
今回、SRE NEXT参加したことで、他の企業におけるSREの運用事例・プラクティスをたくさん知ることができ、非常に良い刺激を受けました。 実は自分はこういったカンファレンスに参加するのが初めてで、他の企業がどういう取り組みをしているのかを知る機会があまりなかったのですが、 今回、多くの知見が得られたとともに外と比較したときの自分達の課題についても認識することができました。 どの発表も素晴らしくとても刺激的なカンファレンスだったので、来年もぜひ参加したいです!
また、カンファレンス全体を通じて感じたことですが、運営してくださったスタッフの皆さんの対応が本当に素晴らしかったです。 初めてのカンファレンスで緊張していたため、スタッフの方の明るい挨拶には本当に心が救われました。 案内や進行もスムーズで、安心して参加することができました。 この場をお借りして全力で感謝の意をお伝えしたいです。