Как преодолевать операционный хаос с помощью SolarWinds ITSM

Подробности

Поздний час, критически важная служба не работает, а в оперативном штабе царит хаос. Инженеры просматривают журналы и историю развертываний, задавая один и тот же вопрос: «Что изменилось?» Это не просто гипотетический кошмар; это ситуация, c которой, как знают инженеры SolarWinds — всегда приходится справляться самостоятельно.

Когда ежедневные операционные процессы и реагирование на инциденты изолированы друг от друга, вы постоянно находитесь в невыгодном положении. Этот операционный разрыв приводит к более длительным простоям, усталости инженеров и замедлению инноваций. В SolarWinds поняли, что для того, чтобы двигаться быстрее и быть более надежными, нужно вернуться к основам и более точно применять основные принципы управления ИТ-услугами (ITSM) в том числе в их собственной деятельности по разработке решений.

Философия SolarWinds: Объединение операций с помощью ITSM

Суть ITSM заключается в том, что управление изменениями и управление инцидентами – это не отдельные функции, а две стороны одной медали. Одна из них направлена на безопасное внедрение изменений, а другая – на управление их последствиями, когда что-то идет не так. Вместо того чтобы бороться с этой реальностью, SolarWinds приняли ее. Чтобы справиться с этой задачей, SolarWinds решили «попробовать собственное блюдо» и использовать свою собственную платформу SolarWinds Service Desk для централизации и объединения этих двух важных функций в своей глобальной инфраструктуре. Вот как это было сделано.

Шаг 1: Создание основы управления развертыванием

Во-первых, SolarWinds занялись управлением изменениями. Развертывание в производственной среде – это критически важные этапы жизненного цикла программного обеспечения, часто затрагивающие разные команды и среды. Без единого источника достоверной информации каждое развертывание представляло потенциальный риск. Используя Service Desk, SolarWinds разработали структурированный подход для обеспечения контроля и подотчетности.

Эта структура позволяет командам SolarWinds:

Регистрировать и отслеживать каждое развертывание во всех средах, включая США, ЕС, Австралию, QA и Staging
Получать детальную информацию, маркируя изменения по услугам, командам и средам
Вести полный журнал аудита, который имеет решающее значение как для обеспечения соответствия требованиям, так и для эффективного анализа первопричин

Используя стандартизированные шаблоны и интеграцию процессов в рамках собственного продукта, SolarWinds заменили фрагментированные методы отслеживания на единую систему управления для наших инженерных и операционных команд.

Шаг 2: Разработка быстрой и отслеживаемой системы реагирования на инциденты

Имея четкое представление о каждом изменении, SolarWinds интегрировали надежный рабочий процесс реагирования на инциденты в ту же платформу. Теперь, когда происходит инцидент высокой серьезности, контекст «что изменилось» сразу же становится доступным.

Интегрированный рабочий процесс помогает командам SolarWinds:

Мгновенно запускать автоматические оповещения через такие системы, как SolarWinds Incident Response, и уведомлять заинтересованные стороны через Slack и электронную почту
Отслеживать ход инцидента, ответственность и сроки устранения в централизованном месте, исключая путаницу
Документировать анализы после инцидента в той же системе, чтобы была возможность извлекать уроки из каждого события и постоянно совершенствоваться

Эта тесная интеграция между данными об изменениях и инцидентах является ключом к сокращению среднего времени устранения инцидентов (MTTR) и улучшению межфункциональной координации.

Результат: от тушения пожаров к настоящей устойчивости

Построив операционную структуру SolarWinds на принципах ITSM и своей собственной платформе, SolarWinds достигли тех результатов, которые обещали своим клиентам:

Полная прозрачность операционного состояния и рисков
Оптимизированная коммуникация во время критических событий
Централизованное хранилище исторических данных, которое способствует постоянному совершенствованию

Этот унифицированный подход не просто позволяет быстрее закрывать заявки, но и помогает с нуля создать более устойчивую и надежную инфраструктуру. Он основан на следующей философии: управление изменениями и реагирование на инциденты – это две стороны одной медали: одна обеспечивает безопасное внедрение изменений, а другая управляет их последствиями. Именно такая интеграция в конечном итоге помогает SolarWinds соблюдать нормативные требования, повышает готовность к аудиту и укрепляет доверие заинтересованных сторон.

Источник: How We Tamed Operational Chaos at SolarWinds: An ITSM Story