За последние 20 лет число стихийных бедствий увеличилось на 163 процента. Метели, ураганы, торнадо и другие события не только обходятся государствам в миллионы и даже миллиарды долларов – они также нарушают работу граждан и правительственных учреждений на несколько дней, недель и месяцев после них.
Коммуникации и технологии играют важнейшую роль в оказании помощи, обеспечении связи между сотрудниками и направлении ресурсов туда, где они наиболее необходимы. Но во время стихийных бедствий сети и системы также могут испытывать значительные сбои или отказы.
Чтобы добиться настоящей устойчивости, государственные учреждения должны заранее все спланировать. Не менее важно обеспечить, чтобы коммуникационные сети не испытывали ощутимых сбоев, а если они произойдут, то обслуживание будет восстановлено в кратчайшие сроки.
Чтобы добиться этого, учреждения должны применять новые подходы к планированию действий в случае бедствий и мониторингу сетей.
Как? Давайте рассмотрим три лучшие практики и технологии, которые должны учитывать организации.
1. Определите природу бедствия
Первый шаг – определить природу бедствия и его последствия. Большинство планов аварийного восстановления предполагают самое худшее – полный отказ. Сервисы дублируются, и команды проходят через процесс их восстановления.
Но важно сделать шаг назад. Катастрофы принимают разные формы, и правительствам не следует использовать одну и ту же схему действий для восстановления после мощного урагана и кибератаки.
Вместо того чтобы составлять планы на случай наихудшего сценария, агентства должны классифицировать бедствия и разрабатывать план реагирования для каждого из них. Например, стихийное бедствие может потребовать более полного плана восстановления, чем техногенная катастрофа, такая как потеря электроэнергии, или выкупное ПО.
Для начала стоит провести оценку рисков и последствий для каждого сценария. Сохраняется ли у учреждения доступ к основным помещениям? Были ли потеряны данные? Не истощены ли сетевые или ИТ-системы?
В зависимости от ответов на эти вопросы план восстановления может быть полностью изменен.
2. Выведите мониторинг сети на новый уровень
Сети нового поколения по своей природе более устойчивы и адаптивны, они могут быстро восстанавливаться после кибератак, сбоев в работе систем и катастроф.
Тем не менее, чтобы добиться подлинной устойчивости, организациям необходимо внедрять новые технологии и выходить за рамки традиционного мониторинга сетей. Например, использование AIOps и наблюдаемости сети может сократить время, необходимое для выявления и устранения сбоев в сети, повышая устойчивость и производительность сетей в случае катастрофы или перерыва в обслуживании.
AIOps применяет искусственный интеллект (ИИ), машинное обучение и предиктивную аналитику для ИТ-операций. В отличие от разрозненных инструментов мониторинга сети, которые могут привести к появлению островков контроля и противоречивых данных, AIOps собирает данные из всей сетевой экосистемы – даже из гибридных сред – и анализирует их, чтобы получить глубокие, консолидированные сведения о сетевых операциях.
3. Предсказывайте непредсказуемое
Одно из ключевых преимуществ AIOps заключается в том, что он позволяет агентствам перейти от реактивного к проактивному подходу к реагированию на катастрофы.
Благодаря наблюдаемости на базе AIOps администраторы могут предсказывать или предвидеть определенные ситуации или угрозы, такие как нарушение работы сети или сбои в обслуживании, еще до их возникновения. Кроме того, AIOps может реагировать автоматически, не требуя участия команд сетевых операций (особенно если ресурсы после катастрофы ограничены), и опережать любые последствия для производительности.
Когда требуется участие сетевых операций – например, перенаправление важного трафика, затронутого событием, – AIOps может уменьшить количество оповещений и переполненность данными, автоматически определяя высокоприоритетные или серьезные инциденты в сотнях тысяч сетевых компонентов.
Достижение истинной отказоустойчивости в пределах досягаемости
Наблюдение за всей сетью с помощью AIOps дает ИТ-менеджерам значительное преимущество в достижении истинной устойчивости.
Наблюдаемость – это не просто наблюдение за тем, что происходит в сети; это обеспечение многоуровневой защиты от мелких неудобств или масштабных сбоев, а также сокращение времени, необходимого для выявления и устранения сбоев в сети, что повышает ее отказоустойчивость и производительность. Кроме того, эти технологии открывают перед государствами возможности для более плавного и эффективного реагирования в таких тяжелых условиях, как стихийные бедствия.
Источник: How AIOps and Observability Can Improve Network Resiliency During Natural Disasters