Узнайте нужен ли в Вашей компании Service Desk

8 (495) 726-15-52

Управление инцидентами

ITSM – Процесс управления инцидентами (Incident Management)

Под понятием инцидентов подразумевают ряд событий, которые не являются частью услуг какой-либо деятельности компании. При этом для работы организации появление инцидентов может быть опасным, так как снижается скорость реагирования персонала, качество услуг, увеличивается количество необработанных заявок службы поддержки.

Процесс управления инцидентами позволяет быстро восстановить нормальные работы сервиса на уровне Соглашение об уровне услуг. Успешное управление инцидентами может быть решено только созданием сервисной службы, которая имеет более привычное название Service Desk. Служба Service Desk представляет собой подразделение, которое решает любые задачи процесса управления инцидентами.

Процесс управления инцидентами (Incident Management)

Задача процесса по управлению инцидентами заключается в том, чтобы уменьшить или исключить отрицательное влияние различных нарушений в ходе предоставления различных ИТ услуг. При этом оказывая определенный уровень обеспечения оперативного восстановления работы пользователей. Чтобы выполнить эту задачу, проводят регистрацию, классификацию и назначают решение инцидентов определенным специалистам. Также необходимо проведение мониторинга разрешения инцидента. Точкой соприкосновения пользователей с техническими службами в таких ситуациях как раз и является Service Desk.

Управление инцидентами и проблемами — понятия и принципы

Вместе с тем, как растет роль ИТ в деятельности организации, возрастает потребность и в качестве уровня сервиса, а также доступности ИТ услуг. Для пользователей очень важно получить своевременно обслуживание и решение проблем. Процесс управления инцидентами призван решать именно такие задачи.

ITIL Service Support – это модель, которая признана во всем мире. Ее основа – это мировой опыт, который применяется в качестве руководства различными ИТ организациями. При этом служба управления инцидентами разрабатывает и устанавливает методы решения инцидентов на основе такого мирового опыта. Так, в деятельности, которая связана с реагированием на причины, связанных с прерыванием сервиса, отличается от деятельности, связанной с поиском причин, вызывающих прерывание сервиса.

Инциденты. Как уже было сказано выше, инциденты представляют собой ряд событий, не являющимися стандартными операциями предоставляемого сервиса компании. К инцидентам можно отнести такие проблемы, как отсутствие возможность получить почту пользователем, если в ходе мониторинга сети указано, что канал переполняется, если пользователем замечено замедление работы определенного приложения.

Проблемы. Основным свойством проблем называют то, что неизвестна причина возникновения инцидентов. От одной из проблем может возникнуть сразу несколько инцидентов.

Ошибки. Ошибкой называют инцидент или проблему, для которой уже нашли причину и разработали решение. Ошибки можно выявить при анализе жалоб пользователей или же при анализе системы. Например, ошибкой можно назвать неправильную сетевую конфигурацию ПК или же неправильное определение средством мониторинга статуса канала маршрутизатора.

Управление инцидентами. Это такой вид деятельности, который восстанавливает нормальное обслуживание, при этом занимает минимум времени и вмешательства пользователей. Это сервис восстановления с краткосрочной перспективой. Сюда включено выявление и регистрация инцидентов, классификация, начало поддержки, анализ и диагностика, решение инцидентов и восстановление работы. Также сюда входит закрытие, проведение мониторинга, отслеживание и дальнейшая связь.

Управление проблемами. Системы управления проблемами представляют собой вид деятельности, снижающий к минимуму влияние проблем на бизнес компании. В процессе управления проблемами предотвращается повторение инцидентов, которые связаны с ошибками. В процессы управления проблемами включены контроль проблем и ошибок, предотвращение и анализ базовых проблем. В ходе анализа проблем улучшаются процессы управления инцидентами. Такого результата удается достичь в ходе изучения качества полученных результатов, связанных с устранением проблем и инцидентов.

Управление событиями и инцидентами в рамках эксплуатации услуг

В процессе управления инцидентами максимально быстро восстанавливается нормальная эксплуатация услуг. При этом неблагоприятные процессы для бизнеса становятся минимальными. Нормальной эксплуатацией называют эксплуатацию, которая соответствует SLA. Такой процесс рассматривает весь ряд событий, нарушающих нормальную эксплуатацию услуг. Данные могут поступать из совершенно разных источников, но в большинстве случаев это заявки пользователей, технического персонала и заявки, поступающие от службы управления инцидентами.

Ценность такого процесса, как управление инцидентами, очевидна для любой компании. С помощью управления инцидентами оперативно выявляются и решаются инциденты, уменьшается время простоя услуг, они становятся более доступными. Также выравниваются виды деятельности ИТ, они начинают соответствовать направлению деятельности бизнеса. Кроме того, увеличивается способность по выявлению возможностей, улучшающих все виды услуг на основе расследования инцидентов.

ITIL управление инцидентами определяет понятие Модель инцидентов. Такая модель включает в себя этапы, предпринимаемые для решения инцидентов, хронологию порядка на каждом этапе, распределение ответственности, временные рамки для каждого отдельного действия, вопросы заказчиков или пользователей, с которыми нужно связаться на определенном этапе.

Это означает, что модель инцидентов дает возможность описать последовательность действий, если возникает определенный вид инцидентов. Благодаря использованию моделей инцидентов можно вывести стандарт процесса управления инцидентами. При этом такие процессы существенно ускоряются.

Для решения инцидента в первую очередь необходимо его обнаружение. Обычно практика в бизнесе не допускает ожидания обращения заказчиков, пользователей или технического персонала. Все основные моменты должны быть под контролем, чтобы не только обнаруживать сбои, но и предупреждать их. После обнаружения инцидента весь набор данных о нем заносится в лог. Именно такая запись является базой для службы поддержки, которая будет решать инцидент.

На следующем этапе решения инцидента происходит категорирование. Оно необходимо для дальнейшей работы, например, для поиска проблем и выявленных ошибок. Для категорирования не существует стандартных методов. В каждой организации такие категории определяются индивидуально – в зависимости от сферы деятельности и других факторов. Также очень важно определить приоритет инцидента. Обычно здесь учитывают два фактора: срочность и влияние. Например, влияние может быть связано с риском для жизни или определенного сегмента бизнеса, сюда может входить количество услуг, затронутых инцидентом, степень финансовых потерь, влияние на репутацию бизнеса.

Описание ключевых процессов управления ИТ-услугами

Для сотрудников поддержки необходимо разработать инструкции, которые будут определять приоритетность инцидентов. При этом приоритет можно менять, если изменяются условия и цели бизнеса. На этапе начальной диагностики работают с инцидентами, которые только поступили в Service Desk. Если на этом этапе невозможно решение инцидента, то специалист присваивает ему идентификационный номер и передает его пользователю.

Эскалация. Эскалация – это такой вид деятельности, который направлен на получение дополнительных ресурсов, когда необходимо достичь определенных показателей по уровню услуги, а также оправдать ожидания заказчиков. Эскалация бывает двух типов: функциональная и иерархическая. В первом случае инциденты передаются в группу поддержки, которая имеет более высокую квалификацию. При этом вся ответственность за решение инцидентов остается на сервис-деске.

При иерархической эскалации в процесс вовлекаются (или же просто информируются) руководители, которые расположены на более высоком уровне. Такая эскалация позволяет своевременно принять решение о привлечении дополнительных ресурсов или использования услуг сторонних организаций для разрешения инцидента.

На следующем этапе выполняется исследование и диагностика. Если для пользователей и заказчиков важен только поиск данных, то информацию Service Desk передают в кратчайшие сроки. Но если же кто-то из пользователей сообщил о сбое, то необходимо выполнить определенные действия, связанные с исследованием и диагностикой инцидентов. И все предпринятые действия представлены в записи об инциденте. Далее проводят тестирование того, что все выполненные действия уже завершены.

Иногда бывает и так, что инцидент повторно открывают, даже если формально его уже закрыли. Именно поэтому очень важно установить такие правила, которые бы определяли, при каких именно обстоятельствах и условиях можно будет повторно открыть инцидент.

Что представляет собой управление инцидентами (Incident Management) по ITIL

Процесс управления инцидентами ITIL предназначен для того, чтобы устранять какие-либо инциденты, которые вызывают прерывание ИТ услуг. При этом такой процесс осуществляется самыми быстрыми и эффективными методами. В рамках инцидента называют неисправность аппаратного и программного продукта, различные отклонения в предоставлении заранее согласованных с пользователями услуг, что приводит к снижению качества сервиса, а также к его полному прекращению или прерыванию.

Система управления инцидентами необходима для обеспечения выявления и регистрации сбоев в предоставлении ИТ услуг. Также регламент управления инцидентами обеспечивает их классификацию, назначает задачи персоналу в области ИТ, который отвечает за восстановление таких услуг, контролирует соответствие времени закрытия инцидентов в соответствии с SLA. Политика управления инцидентами акцентирует внимание только на устранение ситуаций, которые связаны со сбоями ИТ услуг. А поиск и анализ причин, которые привели к таким инцидентам – это прерогатива процесса управления проблемами.

Частью процесса управления инцидентами являются обращения пользователей в службу поддержки Service Desk. Поэтому в процесс управления инцидентами также включается обработка запросов, обеспечивающих качественное обслуживание. Это может быть изменение права доступа, предоставление различных данных, установка или же настройка стандартного ПО и многое другое. Если же обращения пользователей не входят в состав стандартного набора ИТ услуг, то они проходят обработку в рамках процесса управления изменениями.

Если процесс управления инцидентами, проблемами и изменениями организован правильно, то такой подход позволяет уменьшить количество инцидентов, влияющих на обслуживание пользователей и заказчиков. Также будут организованы условия, при которых обеспечивается соблюдение сроков, соответствующих соглашению SLA, оптимизируются ИТ ресурсы организации, повышается уровень удовлетворенности пользователей  работы службы поддержки компании.

Системы управления инцидентами

В рамках деятельности службы поддержки достаточно часто нужна классификация определенных обращений пользователей. Это могут быть консультации, инциденты, проблемы и целый ряд других ситуаций. Поэтому нужно выделять типы заявок и отслеживать деятельность по каждому из  них. В некоторых системах появилась возможность увеличить скорость обработки заявки, а также обеспечивается самостоятельная настройка справочника приоритетов, так как выше уже было сказано, что приоритеты в процессе деятельности компании и в частности работы ИТ службы могут время от времени изменяться.

Тестирование системы управления инцидентами позволит компании более четко понимать, подходит ли определенный вид системы для бизнеса или же стоит выбрать другой вариант. Обычно тестовый период многие компании предлагают на бесплатной основе или же предлагают более низкую стоимость тестовой версии. Так, в некоторых системах появилась возможность обслуживания внешних клиентов с созданием клиентской базы данных. При этом механизмы согласований становятся доступными не только для процесса управления изменениями, но и для других важных процессов, которые относятся к сфере службы поддержки компании. Соответственно, пользователей избавляют от ненужного и утомительного бумажного документооборота.

Также можно подобрать систему управления инцидентами, которая будет удобна не только для заказчиков и непосредственных пользователей, но и для менеджеров и персонала службы поддержки. Отдел управления инцидентами и другие пользователи смогут формировать каталоги услуг, контролировать их, отслеживать их изменения. Также существуют системы, обеспечивающие создание общей базы данных, в которую занесены все обращения пользователей. При этом они категорированы, чтобы для персонала группы поддержки ИТ не возникало трудностей в процессе работы с каждой отдельной заявкой и запросом.

Обзор общепризнанных практик по управлению инцидентами

В настоящее время международная практика имеет достаточное количество различных нормативных документов, которые позволяют регламентировать процесс управления инцидентами в сфере информационной безопасности. При этом нужно понимать, что управление инцидентами – это не только область информационной безопасности, но и весь объем ИТ услуг, который может предоставить компания. Международные стандарты ISO 20000:2005  описывают требования к организации процесса управления инцидентами, которые происходят в ИТ инфраструктуре. В соответствии  с такими стандартами инцидент представляет собой такое событие, которое не является частью нормальной работы службы поддержки.

Для специфических вопросов службы поддержки существуют специально разработанные международные стандарты, на основе которых должны предоставлять услуги компании в области ИТ инфраструктуры. Так, ISO/IEC 27001:2005 выдвигает требования к самой системе построения управления информационной безопасности, в том числе этого могут быть требования к системе управления инцидентами. Стандарт ISO/IEC TR 18044 описывает саму инфраструктуру управления инцидентами, но только в рамках PDCA. Для этого представлены специальные спецификации для всех стадий планирования. Также такой стандарт предоставляет подробные рекомендации, которые связанны с определенными процедурами. Стандарт CMU/SEI-2004-TR-015 предлагает методологию по планированию, внедрению, модернизации и оценке процессов, связанных с управлением инцидентами. Кроме того, такой стандарт подразумевает использование критериев, которые позволяют оценивать эффективность сервисов. Также для компаний доступные подробные карты по каждому отдельному процессу. Еще один стандарт - NIST SP 800-61, он представляет собой целый сборник лучших мировых практик, которые обеспечивают эффективное построение процесса управления инцидентами.

Построение процесса управления инцидентами

Политика управления инцидентами основывается на стандарте ISO/IEC 27001. В соответствии с таким стандартом событие информационной безопасности представляет собой установленный случай по состоянию системы или же сети, который указывает на нарушения в политике информационной безопасности, а также на отказ средств, обеспечивающих защиту. Инцидентом в информационной безопасности называют событие или же целый ряд неблагоприятных событий, из-за которых может возникнуть угроза для информационной безопасности или проявиться компрометирующие материалы для бизнес-процессов.

Для того чтобы проводить обработку, нужно организовать процесс реагирования на инциденты. Основными задачами такого процесса являются подтверждение и сопровождение самого факта проявления инцидента, координация реагирования на него, обеспечение сохранности доказательств по возникновению такого инцидента, минимизация нарушений в порядке работы над инцидентом. Также сюда входит оперативное обнаружение подобных инцидентов, обучение персонала, четкое описание процесс управления инцидентами. Именно такие задачи управление инцидентами ставит перед собой.

Планирование и подготовка

На этом подготовительном этапе происходят процессы организации и регламентирования работы, которая обеспечивает процесс реагирования на возникающие инциденты. На этом этапе выделяют человеческие и материальные ресурсы, разрабатывают карту реагирования, разрабатывают и утверждают организационно-регламентирующие документы, с помощью которых процедура управление инцидентами будет происходить в строгой последовательности. Также проводится обучение персонала  и тестируется выбранная система реагирования на возникающие инциденты.

Кроме того, создается группа расследования инцидентов, основными целями которой являются: обеспечение организации квалифицированным персоналом, обеспечение координации управления процессом реагирования, обеспечение условий, которые позволят на должном уровне информировать руководство, создание условий для максимального снижения количества инцидентов. Группа поддержки должна состоять из персонала службы информационной безопасности, службы по информационным технологиям, юридической службы, бизнес-менеджеров, а также из внешних экспертов, которые оказывают консультативные, экспертные и технические услуги.

Автоматизация процессов управления инцидентами

ITSM управление инцидентами требует автоматизации всех процессов. И в первую очередь автоматизируется обработка событий по информационной безопасности. На основании событий корректируются действия, проводится оценка по текущей защищенности всей системы. Только полный и достоверный ряд событий позволяет проводить качественное расследование инцидентов. Именно поэтому можно говорить о том, что события являются основным каналом обратной связи. При этом важно понимать, что именно события очень легко документируются и воспроизводятся. Если же не автоматизировать данный процесс, то обработка событий будет представлять собой достаточно сложную и трудоемкую задачу, на которую уйдет уйма времени.

Для автоматизации процесса по обработке событий используются совершенно разные системы автоматизации. И в каждой компании могут применяться различные варианты таких систем. При этом нужно помнить, что в каждом отдельном случае такая система должна обладать определенным функционалом. Он должен включать в себя сбор событий от различных технических средств, приведение событий к единому формату, безопасное хранение событий, предоставление инструментов для поиска данных, которые хранятся в единой базе. Также должны быть специальные механизмы, которые позволяют формировать необходимые отчеты о проведенной работе. Кроме того, в автоматическом режиме должны корректироваться имеющиеся данные по событиям.

Назначение процесса управления инцидентами уже понятно для пользователей, но для них очень важно, чтобы такой процесс происходил максимально быстро и эффективно. Именно поэтому обработка в автоматизированных системах происходит поэтапно, чтобы исключить повторения действий и других ненужных операций. В первую очередь база данных приводится к единому формату, происходит их накопление, корректировка и визуализация. Первые два этапа подразумевают накопление событий из всех представленных защищенных информационных каналов. Это могут быть межсетевые экраны, различные системы обнаружения атак, всевозможные операционные системы и приложения. И только уже собранные данные могут корректироваться и выводить  оператору для дальнейшей обработки.

Используемые современные средства поиска обеспечивают проведение оперативного расследования инцидентов, при этом расследование происходит всесторонне. На сегодняшний день существует достаточно большое количество автоматизированных систем, которые способны обеспечить такой функционал. Поэтому компании могут свободно выбирать среди различных вариантов наиболее подходящий и соответствующий требованиям и задачам бизнеса.

В основном такие автоматизированные системы содержат в себе сервер приложений, обеспечивающий логику обработки событий, базу данных для хранения информации в системе, модуль корреляции для корректировки поступающих данных, модуль автоматизации, позволяющий в автоматическом режиме управлять инцидентами, а также агентов, занимающихся сбором информации с устройств. Важно понимать, что эффективно организованный процесс управления инцидентами предоставляет компании существенные преимущества. Они могут заключаться в уменьшении отрицательного влияния инцидентов, в доступности управленческой информации, в превентивном определении мер, которые обеспечат информационную безопасность. Кроме того, для мониторинга всегда будет доступна информация по принимаемым защитным мерам, а контроль эффективности работы персонала будет максимально прозрачным.