Учимся учиться на инцидентах
Происходит инцидент. Минимально необходимое требование – потушить пожар и вернуть ваш продукт в рабочее состояние. Задача со звездочкой – найти и устранить корневую причину его возникновения. Стандартная техника для этого – RCA, Root Cause Analysis. Это очень прямолинейный подход с понятной ценностью для команд. Но в больших и сложных системах только RCA бывает недостаточно.
Тут на сцену выходит сравнительно новый подход LFI, Learning from Incidents. В отличие от RCA, главная цель LFI – узнать новые детали про то, как работает система, и обогатить ментальную модель тех, кто ее поддерживает. Логика простая – очень часто в процессе устранения инцидента помимо корневой проблемы можно узнать много других интересных вещей и выявить какие-то проблемы, которые могут отстрелить где-то в будущем.
Иначе говоря, RCA фокусируется на known unknowns, а LFI – unknown unknowns.
Происходит инцидент. Минимально необходимое требование – потушить пожар и вернуть ваш продукт в рабочее состояние. Задача со звездочкой – найти и устранить корневую причину его возникновения. Стандартная техника для этого – RCA, Root Cause Analysis. Это очень прямолинейный подход с понятной ценностью для команд. Но в больших и сложных системах только RCA бывает недостаточно.
Тут на сцену выходит сравнительно новый подход LFI, Learning from Incidents. В отличие от RCA, главная цель LFI – узнать новые детали про то, как работает система, и обогатить ментальную модель тех, кто ее поддерживает. Логика простая – очень часто в процессе устранения инцидента помимо корневой проблемы можно узнать много других интересных вещей и выявить какие-то проблемы, которые могут отстрелить где-то в будущем.
Иначе говоря, RCA фокусируется на known unknowns, а LFI – unknown unknowns.
Surfing Complexity
Why LFI is a tough sell
There are two approaches to doing post-incident analysis: the (traditional) root cause analysis (RCA) perspective the (more recent) learning from incidents (LFI) perspective In the RCA perspective,…