В соцсетях активно обсуждается пост девопса с мнением, что каждый айтишник должен уронить что-то важное и не всегда стоит рваться сразу же устранять проблему. Highload подробнее разобрался в теме и опросил ряд продуктовых IT-компаний и стартапов, как они реагируют на падения и какие принимают меры. Спойлер: провинившихся больше не «сжигают на костре» и не увольняют (во всяком случае, редко).
В своей публикации в LinkedIn Head of DevOps Анастасия Сокова рассказала, что за пять лет работы девопсом видела много случаев, когда молодые специалисты роняли либо прод, либо тестовую, но очень важную среду. И каждый раз она наблюдала одну и ту же реакцию: паника, мольба о помощи во взгляде, раскаяние в содеянном.
«Я знаю цену падения прода, но подключаюсь к решению только в крайнем случае: уронить что-то важное — это опыт, который должен приобрести каждый. Без него ты вряд ли поймешь, почему нагромоздили такие барьеры безопасностей, а значит и сам не будешь использовать эти решения, — говорит Анастасия. — Но за время работы я столкнулась с проблемой, что человек в страхе и панике может наворотить еще больше дел, доломать то, что и так уже упало».
По мнению специалиста, лучшее, что люди могут сделать во время критичной проблемы, — это перестать паниковать. Но донести до сознания стрессующих айтишников эту мысль сложно. Потому однажды в момент падения прода она просто позвала «провинившегося» пить чай.
«Да, это было прямо в момент, когда прод лежал. За десять минут, пока мы пили чай, сотрудник успокоился, и у него родилась прекрасная идея о том, как поднять то, что упало. С тех пор при найме молодых специалистов у меня в списке правил красуется: “Упал прод — выпей чаю”», — рассказала Анастасия.
Пост собрал почти 180 комментариев — айтишники реагировали по-разному. Большинство специалистов считают, что идея пить чай и не пороть горячку, может, и правильная, но чревата последствиями от менеджеров и топов.
Другие начали подшучивать над мнением автора.
Также айтишники посчитали подход к работе мудрым и стали делиться собственными альтернативными практиками. Например, мытье посуды тоже неплохо прочищает мозги.
Jooble — популярный сайт по поиску работы, которым пользуются жители свыше 70 стран мира. Какой в компании план действий при падении прода, рассказывает Head of Engineering Jooble Назим Сулейманов.
Head of Engineering Jooble Назим Сулейманов
«В целом мы используем подход Blue/Green Deployment, и при возникновении проблемы проводим практически мгновенный откат изменений, которые к ней привели. Большинство наших проблем решаются именно так, — говорит Назим. — Для остальных кейсов у нас есть специальная роль дежурного, который меняется каждую неделю. Задача этого человека — реагировать на инциденты, о которых он узнает из чата, системы мониторинга и других источников. После обнаружения специалист оценивает степень важности проблемы и занимается ее решением (или сам, или с привлечением других инженеров, если нужно)».
Он добавил, что после крупных падений компания ожидает от людей, которые устраняли инцидент, анализ причин и action points
Appflame развивает собственные продукты в нише social network/lifestyle, например, приложение знакомств для ЛГБТК+ Taimi. По словам Chief System Engineer appflame Сергея Семенюка, в их компании как такового плана действий при падении прода нет.
Chief System Engineer appflame Сергей Семенюк
«Мы постоянно в режиме реалтайм смотрим на всю экосистему и стараемся все сервисы зарезервировать. Если все-таки что-то привело к падению прода, мы начинаем дебажить с головы: клиент — load balancer — пару кластеров k8s — продукт — база, кэш, шины, — делится опытом Сергей. — Мы стараемся не давить на человека который уронил продакшн, а просто поговорить, почему так вышло, вынести полезные уроки из этого инцидента, чтобы в дальнейшем не наступать на похожие грабли».
Waka создали приложение для знакомств по мемам внутри Telegram. CTO Waka Илья Савчук согласен с мнением девопса о том, что увидеть, как все перестало работать именно из-за тебя, а затем с холодной головой сесть и починить — это важный боевой опыт для любого специалиста. Он поделился опытом решения аналогичной проблемы в своей команде.
CTO Waka Илья Савчук
«Если прод упал во время работы, то запускается disaster recovery server. Мы смотрим графики и логи, выявляем причину инцидента, устраняем его. Если упал во время деплоя — откатываем деплой и так же расследуем инцидент. По поводу мер по отношению к специалисту: если процессы на проекте настроены так, что один человек может сложить инфраструктуру — проблема, скорее всего, в самой инфраструктуре, — считает Илья. — Видимо, где-то не хватает тестов или есть проблема с доступами. Явно стоит обсудить происшествие с сотрудником, объяснить, какую цепочку действий он запустил».
Также СТО подчеркнул, что следует поменять процессы так, чтобы ситуация не повторилась.
Visual Code от Microsoft, вероятно, один из самых популярных редакторов кода. Разработчики любят его за…
Япония сама по себе — сплошной киберпанк. Это заметил даже культовый писатель жанра Уильям Гибсон,…
Сам по себе телефон Айфон 17 Про Макс – отличный подарок. У него красивая заводская…
На фоне роста спроса на ликвидность в бычьем рынке 2025 года, криптозаймы снова выходят на…
Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…
Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…