Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
Информационные технологии стали неотъемлемой частью бизнеса XXI века. Они являются мощным двигателем экономики, однако источником рисков. Без бесперебойной работы ИТ-сервисов прерываются бизнес-процессы, что может привести к финансовым потерям и катастрофическим последствиям. Как обеспечить информационную безопасность и непрерывность бизнеса? Об этом мы подробно расскажем в этой статье.
Когда дело касается использования информационных технологий в бизнесе, обеспечение бесперебойности процессов становится еще более важным. Предприятия, занятые в кредитно-финансовой, телекоммуникационной, высокотехнологичной и производственной отраслях, особенно нуждаются в продуманной системе кризис-менеджмента. Однако, это также актуально для ритейла, электронной коммерции, государственного сектора и любой другой отрасли, где поставлены задачи по обеспечению непрерывности деятельности компании.
Существуют специальные регламенты, которые соблюдаются для лицензирования деятельности в ряде отраслей и указывают на необходимость непрерывности бизнеса. Риск сбоя в работе информационно-технических сервисов может иметь колоссальные материальные потери для банков и жизнь людей - если инцидент произойдет, например, в авиакомпании или на предприятии топливно-энергетического комплекса.
Риски могут возникнуть из-за природных бедствий, аварий в энергосистемах или киберпреступлений. При этом, уровень риска определяется последствиями инцидента для деловых процессов и функций. В связи с многообразием рисков, обеспечение информационной безопасности (ИБ) является актуальной и несомненно необходимой задачей.
В 2019 году компания DEAC провела опрос и выяснила, что решения по обеспечению бесперебойности процессов наиболее востребованы в финансовой и информационной сферах. Риск непрерывности бизнеса связанных с ИБ и изменениями в законодательстве страны является наиболее серьезным согласно данному опросу. Почти половина респондентов считает, что в ближайшее время эти риски будут только расти.
BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning) являются инструментами кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Они вытекают из системы ИБ и следуют основным принципам анализа рисков появления и влияния чрезвычайных ситуаций на деловые процессы, контроля и управления инцидентами, а также стратегического и тактического планирования непрерывности информационно-коммуникационных технологий (ИКТ). BCM (BCP & DRP) широко применяются и регулируются международными, национальными и отраслевыми стандартами, такими как ISO/IEC 27001 и ISO 22301:2012. Обеспечение соответствия требованиям данных стандартов при выборе дата-центра для хранения информации или при внедрении их на предприятии, гарантирует безопасность данных и непрерывность бизнес-процессов.
Тем не менее, BCM, BCP и DRP не являются тождественными управлению ИБ, которое является лишь основой для данных дисциплин. BCM начинался с резервного копирования информации, но постепенно охватил вопросы ИБ и стал целостной структурой, взглядов на методы обеспечения непрерывности бизнеса, устойчивости организации к различным сбоям, разрушениям и потерям.
Управление непрерывностью бизнеса (BCM) предполагает ряд целей и задач, зависящих от размера и направленности деятельности компании. Важнейшим аспектом является управление конкретным типом или классом инцидентов, которые могут возникнуть в процессе работы.
Управление инцидентами (IM) охватывает ряд происшествий, связанных с человеческим фактором, сбоем оборудования и другими подобными инцидентами. На этом уровне ущерб для бизнеса сравнительно невелик, но важно обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Управление непрерывностью бизнеса и аварийным восстановлением (BCDR) нацелено на предотвращение инцидентов, которые могут привести к остановке работы всей организации или ее ключевых бизнес-процессов. Хоть вероятность таких событий невелика, ущерб может быть внушительным и даже привести к банкротству. Согласно исследованию Veeam Software за 2019 год, глобальные потери от простоев приложений свыше 20 млн долларов ежегодно, в то время как по России эта цифра немного ниже и составляет 19,8 млн долларов.
Управление чрезвычайными ситуациями (C&EM) ставит своей задачей предупреждение катастрофических инцидентов, которые происходят очень редко, но могут иметь катастрофические последствия для бизнеса, включая экологические и гуманитарные катаклизмы, а также инфраструктурные разрушения в пределах целого региона. Большое значение имеет обеспечение непрерывности деятельности предприятий ТЭК (разведка, добыча, переработка углеводородов, производство электроэнергии), где высокий уровень обеспечения непрерывности деятельности играет важную роль.
BCM выявляет ключевое понятие «инцидент», любое незапланированное происшествие, которое может привести к остановке критических процессов и функций, полной потере контроля над оборудованием. Примером недооценки влияния инцидентов на непрерывность бизнеса была атака вируса-вымогателя WannaCry в 2017 году, которая затронула компьютеры по всему миру. WannaCry привел к полной блокировке работы больниц, аэропортов, заводов, банков и правительственных учреждений, что привело к экономическим потерям в размере около 4 млрд долларов.
Реализация программ BCM могла бы значительно сократить размеры потерь, а возможно, и вовсе предотвратить катастрофические последствия. Управление непрерывностью бизнеса способствует сохранности средств вложенных владельцами и акционерами. Если возникает сбой на главной площадке дата-центра, работа может быть продолжена на резервной площадке.
По данным The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty), компании, успешно восстановившие деятельность после крупномасштабной аварии благодаря программам BCM, получают кумулятивный доход сверх нормы (разница между ожидаемой и реальной стоимостью акций) в среднем на 10% через год после аварии. В то же время, компании, которые не используют BCM, получают те же 10% и даже 15%, но со знаком минус.
Внедрение системы управления непрерывностью бизнеса (BCM) начинается со стратегических этапов, связанных с планированием и определением целей. При этом используются средства риск-менеджмента (Risk Management, RM), что позволяет оценить и управлять возможными рисками на предстоящих этапах.
Внедрение системы BCM - это комплексный подход, который включает в себя освоение технических и программных средств, регламентацию действий, распределение ответственности, а также обучение персонала. Однако, самостоятельное внедрение системы BCM может быть проблематично для компании. Поэтому, наиболее эффективным решением является обращение к ИТ-экспертам, которые грамотно разработают план мероприятий и помогут воплотить проект системы в жизнь.
В итоге, внедрение BCM позволяет компаниям минимизировать риски и сохранять непрерывность бизнеса в условиях кризиса или аварийных ситуациях. Кроме того, использование BCM способствует повышению эффективности работы компании в целом.
Анализ бизнес-процессов (Business Environment Analysis, BEA) позволяет определить риски, которые могут возникнуть в зависимости от характера деятельности компании. Например, отказ в работе системы учета пациентов медицинского учреждения является менее критичным по сравнению со сбоем в работе высокотехнологичного реанимационного оборудования. При этом в телекоммуникационной компании отказ приложения для автоматизации совместной деятельности рабочих групп вероятно не остановит бизнес-процессы, однако сбой в системе биллинга приведет к затратам на финансовые потери. Таким образом, точки критичности могут быть различны для каждого типа бизнеса, и анализ бизнес-процессов позволяет выявить эти точки и определить степень их влияния на деловую активность компании.
Анализ рисков (Risk Analysis, RA) позволяет выделить зависимые и независимые от информационных технологий (ИТ) риски. После выделения и градации бизнес-процессов по важности для компании следует определить группу ИТ-зависимых бизнес-процессов. Затем необходимо проверить технические и организационные механизмы по предотвращению перебоев в работе бизнес-процессов, выделить уязвимые точки и оценить угрозы. В результате можно выделить группы рисков, которые влияют на ИТ, и классифицировать их по мере важности.
Оценка влияния на бизнес (Business Impact Analysis, BIA) основана на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. После этого строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть оценены как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и др. Такой подход позволяет провести детальную оценку влияния на бизнес и определить возможные потери.
Обеспечение точности информации о финансах представляет существенный интерес для аналитиков, особенно если была заполучена возможность оценить IT-бизнес компании и перспективы его расширения.
Рекомендуется тщательно изучить информационные сервисы, которые используются в бизнес-процессах и информационных потоках. Несомненным результатом анализа будет представлена полная картина бизнеса в целом, включая оценку критичных бизнес-процессов, которые были столкнуты с нарушениями в работе, полученными в результате их функционирования в соотношении с величиной потерь.
Перед началом сотрудничества важно провести аудит, который позволит аналитикам определить все уязвимые места в системе защиты информации клиента и подобрать наилучшие меры для их укрепления.
Для подсчета экономического эффекта (стоимости простоя бизнес-процессов) следует использовать объективные оценки вероятности возникновения разных инцидентов в рассматриваемый период времени и выбрать наиболее приемлемую стратегию на основе этих данных.
Совладельцы компании и ее руководство, совместно с аналитиками, должны определить установку так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайных ситуаций. Эти тайм-ауты включают в себя:
- Допустимое время восстановления (Recovery Time Objective, RTO) - время простоя, которое технически может быть сведен к секундам, но из-за дороговизны не всегда оправдан экономически.
- Целевая точка восстановления (Recovery Point Objective, RPO) - это временной диапазон перед наступлением чрезвычайной ситуации, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
- Уровень непрерывности бизнеса (Level of Business Continuity, LBC) - это допустимый уровень производительности в чрезвычайных ситуациях в процентах от режима штатной работы.
Планирование – это процесс, который должен быть постоянным и динамическим, а не отдельной процедурой, и важно поддерживать его в актуальном и "синхронизированном" состоянии. Для этого необходимо регулярно проверять планы и дополнять их свежими данными по мере необходимости.
Определение стратегии непрерывности бизнеса является ключевым этапом планирования. Эта стратегия должна включать меры по обеспечению безопасности сотрудников, обеспечению рабочих помещений, технических средств и необходимых материалов, доступ к критической информации, а также обеспечивать беспрепятственные коммуникации с партнерами, клиентами, поставщиками и другими заинтересованными сторонами. Каждое направление должно иметь отдельную подстратегию, которая поможет "навигировать" к скорейшему восстановлению в соответствии с параметрами, определенными на этапах анализа рисков. Обеспечение непрерывности ссылается на три стадии: реагирование на ЧС, продолжение выполнения критически важных процессов для бизнеса в условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений зависит от стратегии BCM (Business Continuity Management). Необходимо разработать политики, которые определят приоритетные цели и задачи поддержания непрерывности бизнеса, процедуры реагирования и области распространения системы BCM, а также установить кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения BCM (проекта).
Создание технической и организационной системы BCM очень важно для непрерывности бизнеса. В настоящее время все большую популярность приобретают "облачные" услуги. Одним из решений для защиты информации при помощи облака является DRaaS (Disaster-Recovery-as-a-Service). Суть этого решения заключается в том, чтобы предоставить услугу аварийного восстановления данных в облачных средах корпоративного уровня. Это позволяет снизить расходы на обеспечение безопасности и одновременно поддерживать ее на уровне принятых в индустрии стандартов. Существуют разные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или ее наиболее критичных элементов.
Согласно первому варианту резервные копии ИТ-инфраструктуры создаются по расписанию, который задается в соответствии с требуемым временем восстановления (RTO) и точкой восстановления (RPO), а затем помещаются в хранилище. Восстановление занимает до нескольких часов. Такая схема подходит для малого бизнеса, где непрерывность не является критичной, но важна экономия и надежность сохранения данных. Однако, такое резервное копирование не обеспечивает комплексную защиту.
Второй вариант заключается в том, чтобы копировать все инфраструктуру, а изменения проводить в непрерывном режиме, чтобы они переносились в облако. Информацию можно извлечь и восстановить за несколько минут.
Третий вариант заключается в том, чтобы запустить резервную облачную инфраструктуру, которая будет полностью идентичной основной. Обновления в обоих инфраструктурах происходят синхронно, что позволяет восстанавливать работу за несколько секунд. Такое решение актуально для крупных финансовых и ИТ-компаний, государственных организаций и любых других компаний, где нельзя терять ни минуты на простой.
Строительство отказоустойчивых ЦОДов становится все более актуальным для бизнеса, и это может быть необходимо как для создания новых, так и для оптимизации уже существующих центров обработки данных. Этого можно достичь путем проведения комплекса мероприятий, включающих в себя строительство специализированных зданий, а также инженерных, телекоммуникационных и ИТ-инфраструктур, их автоматизацию и сервисное обслуживание.
Существует также возможность создания мобильного ЦОДа. Однако, для более простого решения данной задачи, компании могут доверить организацию ИТ-инфраструктуры опытному провайдеру.
Развитие бизнеса обычно сопровождается увеличением вычислительных мощностей и усложнением ИТ-систем, что может привести к риску нарушения непрерывности деловой активности. Именно поэтому компаниям необходим план восстановления системы после инцидента (DRP), который является частью большего плана обеспечения непрерывности бизнеса (BCP). Данный план призван обеспечить максимально быстрое восстановление работоспособности ИТ-систем, поддерживающих как критичные бизнес-процессы, так и обычные операции. BCP, в свою очередь, должен предусматривать восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы необходима формирование программы сопровождения и эксплуатации систем BCM, включающую меры по периодической проверке системы, а также реагированию обслуживающего персонала на возникновение инцидентов.
Наконец, встраивание процессов в корпоративную культуру играет важную роль на пути к успешному планированию восстановления после происшествий. Для этого необходимо разработать меры и осведомить персонал о мерах, принимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является ключевым фактором успеха на этом этапе.
Одним из ключевых аспектов успешной работы предприятия является внедрение высокоэффективной системы управления. Однако, необходимо учитывать, что внедрение информационных технологий требует значительных ресурсов, которых не всегда хватает у компаний.
Одним из показателей успешности внедрения в систему управления является готовность организации к продолжению работы даже в случае сбоя в ИТ-системах. Координированный противопожарный механизм и подготовленный персонал являются главными условиями для быстрого реагирования в экстренной ситуации и, в свою очередь, позволяют сохранять работоспособность компании.
Кроме того, необходимо также учитывать вероятность простоя или недоступности информационных систем в случае возникновения внештатной ситуации, что может привести к значительным материальным потерям. Правильно оцененная рискованность и защитные меры помогут свести к минимуму возможные негативные последствия.
Другим показателем эффективности внедрения системы является соответствие требованиям регулирующих органов. Пройдя процедуру аудита и полностью соответствуя требованиям, компания приобретает надежность и доверие со стороны заказчиков и партнеров.
Однако, стоит учитывать, что создание и внедрение высокоэффективной системы управления – непростая задача, требующая значительных затрат и временных ресурсов. Такие ресурсы далеко не всегда доступны для каждой компании, поэтому часто необходимо прибегать к внешней помощи.
Фото: freepik.com