Рубріки: Опыт

Сбои неизбежны, ваша задача — уменьшить ущерб: 10 советов от инженера Google, как сделать систему надежной

Вікторія Пушкіна

11.10.2021 16:46

7-9 октября во Львове прошла конференция Lviv IT Arena 2021. Мы в Highload прослушали самые интересные выступления и делимся инсайтами с вами.

Мы уже публиковали тезисы выступления инженерки Linkedin. На очереди — лекция от SRE (Site Reliability Engineer) в Google Кристофа Ленга. У Кристофа PhD по надежным распределенным системам, и он поделился 10 советами для всех, кто тоже хочет строить системы, которым будет все нипочем.

1. Уделяйте внимание мелочам и делайте это с самого начала

Надежность состоит из тысячи мелочей, на которых часто пытаются сэкономить и о которых вспоминают, когда проблема уже возникла. Но тогда исправлять что-либо уже поздно. Так что вы должны подготовиться заранее: включить стратегию надежности в вашу ежедневную рутину.

Кристоф Ленг

Девиз SRE (Site Reliability Engineering) в Google: «Надежда — это не стратегия». Каждый разработчик должен всегда думать о надежности, а не надеяться на лучшее. И не только разработчик: внедрить SRE в процесс создания ПО помогает тестирование в режиме Shift Left — подход, когда тестировщики начинают свою работу как можно раньше, еще на этапе построения архитектуры.

2. Скот лучше домашних любимцев

Авторка иллюстрации Виктория Пушкина

Домашние любимцы уникальны — у них есть клички, привычки, собственный характер. У скота же есть только порядковый номер, со стороны такие животные выглядят одинаково, и обычно гораздо дешевле.

Но при чем животноводство к IT? Если вы посмотрите на процесс разработки ПО и на всю IT-инфраструктуру, то окажется, что у вас могут быть либо домашние любимцы, либо скот.

Когда я работал в университете, у меня были домашние любимцы — я знал назубок названия серверов, их IP-адреса, hardware и трюки, которые нужно было сделать, чтобы заставить все работать идеально.

Но этот подход оказался невозможным в Google, где названий и адресов не 10-12, а тысячи. Поэтому здесь домашние любимцы превратились в скот. И это нормально даже не для тысячи серверов, а даже для нескольких десятков — иначе вы будете тратить слишком много времени.

Но как тогда держать руку на пульсе и отслеживать все процессы? Помните, что скот не только многочислен, но и похож друг на друга — старайтесь строить максимально похожую архитектуру и использовать похожие технологии в разных командах.

3. Никто не виноват

Представьте ситуацию: сотрудник нажал на красную кнопку и система рухнула. Какой вопрос нужно задать? Явно не «почему он это сделал?» — это мы не сможем исправить. Вопрос должен быть «почему у нас есть эта красная кнопка?».

Если вы будете акцентировать внимание на людях, а не проблемах, они будут бояться вам сообщать, что что-то пошло не так. Но проблемы останутся.

4. Измеряйте то, что важно

Договоритесь о целях, которые будут измеряться в цифрах и фактах. Иначе обсуждения о том, в каком состоянии система сейчас, превратятся в субъективные дискуссии о личных предпочтениях.

Выбирая, на что вы будете ориентироваться, думайте о пользователе — измеряйте то, что важно ему. И помните, все, что вы не измеряете, будет становится хуже.

5. Лучший способ понять, как работает система, — это посмотреть, как она перестает работать

Авторка иллюстрации Виктория Пушкина

Пустите ее в продакшн и отправьте в свободный полет. Если вы этого не сделаете — вы не узнаете систему достаточно хорошо. Конечно, не надо просто «забивать» на нее после этого 🙂 Изучайте ее детали. Помните, что операционные проблемы обычно сложные, и легко запутаться в их причинах, если смотреть издалека.

Кроме того, те проблемы, которые повторяются из раза в раз, зачастую глубоко связаны между собой.

6. Не геройствуйте

Героизм — это плохо. Не только для героя, но и для команды и всей системы. В книгах Гарри Поттер может сам победить Волдеморта, но реальность работает не так.

Как минимум, герой, который хочет сам все починить, выгорает. Как максимум — не справляется с этой работой. Потому что команда привыкает, что у нее есть кто-то, кто все сделает и рано или поздно появится что-то, что будет ему (или ей) не по силам.

7. Автоматизируйте свою работу

В Google команда SRE каждые 18 месяцев должна пересматривать свои ежедневные задачи и автоматизировать часть из них. Звучит страшно, но на самом деле это существенно упрощает работу — потому что если в вашей работе очень много рутинных задач, что-то здесь не так 🙂

Если вы можете легко расписать задачу в алгоритм и преобразовать ее в код — это работа для робота, не для человека.

Авторка иллюстрации Виктория Пушкина

Как только вы автоматизируете задачи, которые вы выполняете вручную, у вас освободится время и силы на инженерную работу.

8. Изменения — первая причина сбоев системы

Хотя изменения — это хорошо, и они необходимы для улучшения и развития системы, зачастую именно из-за них появляются и новые проблемы. Поэтому задача SRE-инженера в том числе находить баланс между надежностью системы и ее производительностью. 100% надежность невозможна, но и забывать про нее не стоит.

Минимизируйте риски.
Не тестируйте на продакшене — используйте продакшн-копию системы и тестируйте ее в условиях, максимально приближенных к реальности.
Используйте GitOps — храните конфигурацию в репозиториях.
Не деплойте в конце недели, перед отпусками или праздниками.
Смиритесь, что ваша система никогда не будет идеальной и бесконечно откладывать релиз — плохая стратегия.

9. Сбои неизбежны

Собственно, это как раз вывод из последнего предложения в прошлом пункте 🙂

Вам всегда нужно развиваться, идти вперед и менять систему. А это неизбежно приводит к рискам, часть из которых становится реальностью. Ваша задача — не избежать их, а снизить ущерб.

Предусмотрите возможность быстро откатить изменения в любой момент.
Обсуждайте инциденты письменно, чтобы все оставалось задокументированным.
Обеспечьте прозрачность операционных процессов.
Читайте код, а не документацию.

10. Никаких кладбищ с привидениями

Авторка иллюстрации Виктория Пушкина

Кладбища с привидениями — это части системы, которые настолько старые, что никто не хочет их трогать, потому что «тронешь — и все рухнет». И с очень сложными системами велик риск попасть в ловушку, когда таких кладбищ станет много и от них начнут зависеть изменения.

Как этого избежать? Строить системы как можно проще и не мириться с работой, сделанной «кое-как». Каждый кусочек кода должен быть надежной опорой, а не дверьми, которые еле держатся на петлях.

Наступна стаття В IT пошел, потому что в армии не понравилось: как я открыл компанию MadAppGang и переехал в Австралию »

попередня стаття « Разобраться в Svelte, React и Next.js: 8 проектов, чтобы прокачать навыки работы с фреймворками

Вікторія Пушкіна

Теги: googleIT Arenalviv it arenasreконференциякристоф ленг

11.10.2021 16:46

Останні статті

Подборки

Всегда перед глазами: 15 лучших тем VS Code на 2026 год

Visual Code от Microsoft, вероятно, один из самых популярных редакторов кода. Разработчики любят его за…

22.02.2026

Подборки

Киберпанк по-японски: 9 лучших аниме в жанре «технологии нас погубят»

Япония сама по себе — сплошной киберпанк. Это заметил даже культовый писатель жанра Уильям Гибсон,…

21.02.2026

Спецпроекты

Не просто коробка с бантом. Как оригинально подарить гаджет: 5 незатратных способов

Сам по себе телефон Айфон 17 Про Макс – отличный подарок. У него красивая заводская…

12.02.2026

Лучшие криптобиржи для криптозаймов в 2025 году: где лучше брать кредит под крипту?

На фоне роста спроса на ликвидность в бычьем рынке 2025 года, криптозаймы снова выходят на…

09.07.2025

Основы

Что такое прокси-сервер: пояснение простыми словами, зачем нужны прокси

Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…

21.11.2024

Основы

Что такое PWA приложение? Зачем необходимо прогрессивное веб-приложение

Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…

19.11.2024

Сбои неизбежны, ваша задача — уменьшить ущерб: 10 советов от инженера Google, как сделать систему надежной

1. Уделяйте внимание мелочам и делайте это с самого начала

2. Скот лучше домашних любимцев

3. Никто не виноват

4. Измеряйте то, что важно

5. Лучший способ понять, как работает система, — это посмотреть, как она перестает работать

6. Не геройствуйте

7. Автоматизируйте свою работу

8. Изменения — первая причина сбоев системы

9. Сбои неизбежны

10. Никаких кладбищ с привидениями

Схожі статті

Останні статті

Всегда перед глазами: 15 лучших тем VS Code на 2026 год

Киберпанк по-японски: 9 лучших аниме в жанре «технологии нас погубят»

Не просто коробка с бантом. Как оригинально подарить гаджет: 5 незатратных способов

Лучшие криптобиржи для криптозаймов в 2025 году: где лучше брать кредит под крипту?

Что такое прокси-сервер: пояснение простыми словами, зачем нужны прокси

Что такое PWA приложение? Зачем необходимо прогрессивное веб-приложение