Поздний час, критически важная служба не работает, а в оперативном штабе царит хаос. Инженеры просматривают журналы и историю развертываний, задавая один и тот же вопрос: «Что изменилось?» Это не просто гипотетический кошмар; это ситуация, c которой, как знают инженеры SolarWinds — всегда приходится справляться самостоятельно.
Когда ежедневные операционные процессы и реагирование на инциденты изолированы друг от друга, вы постоянно находитесь в невыгодном положении. Этот операционный разрыв приводит к более длительным простоям, усталости инженеров и замедлению инноваций. В SolarWinds поняли, что для того, чтобы двигаться быстрее и быть более надежными, нужно вернуться к основам и более точно применять основные принципы управления ИТ-услугами (ITSM) в том числе в их собственной деятельности по разработке решений.
Философия SolarWinds: Объединение операций с помощью ITSM
Суть ITSM заключается в том, что управление изменениями и управление инцидентами – это не отдельные функции, а две стороны одной медали. Одна из них направлена на безопасное внедрение изменений, а другая – на управление их последствиями, когда что-то идет не так. Вместо того чтобы бороться с этой реальностью, SolarWinds приняли ее. Чтобы справиться с этой задачей, SolarWinds решили «попробовать собственное блюдо» и использовать свою собственную платформу SolarWinds Service Desk для централизации и объединения этих двух важных функций в своей глобальной инфраструктуре. Вот как это было сделано.
Шаг 1: Создание основы управления развертыванием
Во-первых, SolarWinds занялись управлением изменениями. Развертывание в производственной среде – это критически важные этапы жизненного цикла программного обеспечения, часто затрагивающие разные команды и среды. Без единого источника достоверной информации каждое развертывание представляло потенциальный риск. Используя Service Desk, SolarWinds разработали структурированный подход для обеспечения контроля и подотчетности.
Эта структура позволяет командам SolarWinds:
- Регистрировать и отслеживать каждое развертывание во всех средах, включая США, ЕС, Австралию, QA и Staging
- Получать детальную информацию, маркируя изменения по услугам, командам и средам
- Вести полный журнал аудита, который имеет решающее значение как для обеспечения соответствия требованиям, так и для эффективного анализа первопричин
Используя стандартизированные шаблоны и интеграцию процессов в рамках собственного продукта, SolarWinds заменили фрагментированные методы отслеживания на единую систему управления для наших инженерных и операционных команд.
Шаг 2: Разработка быстрой и отслеживаемой системы реагирования на инциденты
Имея четкое представление о каждом изменении, SolarWinds интегрировали надежный рабочий процесс реагирования на инциденты в ту же платформу. Теперь, когда происходит инцидент высокой серьезности, контекст «что изменилось» сразу же становится доступным.
Интегрированный рабочий процесс помогает командам SolarWinds:
- Мгновенно запускать автоматические оповещения через такие системы, как SolarWinds Incident Response, и уведомлять заинтересованные стороны через Slack и электронную почту
- Отслеживать ход инцидента, ответственность и сроки устранения в централизованном месте, исключая путаницу
- Документировать анализы после инцидента в той же системе, чтобы была возможность извлекать уроки из каждого события и постоянно совершенствоваться
Эта тесная интеграция между данными об изменениях и инцидентах является ключом к сокращению среднего времени устранения инцидентов (MTTR) и улучшению межфункциональной координации.
Результат: от тушения пожаров к настоящей устойчивости
Построив операционную структуру SolarWinds на принципах ITSM и своей собственной платформе, SolarWinds достигли тех результатов, которые обещали своим клиентам:
- Полная прозрачность операционного состояния и рисков
- Оптимизированная коммуникация во время критических событий
- Централизованное хранилище исторических данных, которое способствует постоянному совершенствованию
Этот унифицированный подход не просто позволяет быстрее закрывать заявки, но и помогает с нуля создать более устойчивую и надежную инфраструктуру. Он основан на следующей философии: управление изменениями и реагирование на инциденты – это две стороны одной медали: одна обеспечивает безопасное внедрение изменений, а другая управляет их последствиями. Именно такая интеграция в конечном итоге помогает SolarWinds соблюдать нормативные требования, повышает готовность к аудиту и укрепляет доверие заинтересованных сторон.
Источник: How We Tamed Operational Chaos at SolarWinds: An ITSM Story
