Обеспечение бесперебойной работы. Бесперебойная работа оборудования

На сегодняшний день обеспечением резервного копирования занимаются сервера, будь то большое или малое предприятие. Поэтому говорить о бесперебойной работе нужно непосредственно сервера. Что требуется для бесперебойной работы сервера

Чтобы сервер работал бесперебойно нужно не только иметь мощную аппаратуру, но и дополнительное оборудование, квалифицированный персонал. Они и должны обеспечивать оптимальные условия для работы сервера.

1. К дополнительному оборудованию можно отнести:

кондиционирование серверных, то есть, систему охлаждения, вентиляции и т.д., которые не допускают перегрева оборудования;

различные датчики, предназначенные для контроля температурного режима в системе;

автоматические генераторы, которые включаются при отключении электропитания;

независимые магистрали, предназначенные для обеспечения оборудования питанием;

сторожевой таймер, который предупреждает о зависании сервера.

2. Квалифицированные специалисты осуществляют резервирование, замену, подключение основных элементов без отключения оборудования. Также бесперебойную работу обеспечивает наличие объемной памяти.

Как обеспечивается кондиционирование серверов

Сервер со вспомогательным оборудованием устанавливают в отдельном помещении, где должна обеспечиваться хорошая циркуляция воздуха. В помещении должны быть установлены кондиционеры, способные поддерживать оптимальную температуру и влажность. Также отдельно устанавливают систему вентиляции и охлаждения на серверные шкафы. Желательно, чтобы они могли определять, какой участок нуждается в большем охлаждении.



Как видно, для обеспечения бесперебойной и надежной работы сервера нужно приложить немало усилий и средств

Восстановление информации

В данном разделе будут детально расписаны процедуры восстановления информации:

Восстановление структуры файловой системы

В случае форматирования логического диска или раздела, структура и атрибуты данных не нарушаются, но изменяется либо инвентаризируется (приводится в начальное состояние) информация о расположении данных на данном накопителе.

При быстром форматировании обновляется малая часть файловой таблицы, часть служебных записей остается, необходимо лишь интерпретировать ее и прочитать данные в нужном порядке.

Полное форматирование может обновить всю файловую таблицу, поэтому восстановление структуры файлов и папок не всегда возможно. Для восстановления данных без информации о структуре можно использовать восстановление файлов по сигнатурам.

Если произошло повреждение файловой системы в результате программного сбоя или неисправности носителя, программы для восстановления данных могут восстановить часть информации, зависящую от объема повреждений.

Восстановление удаленных данных файловой системы

При удалении данных, на самом деле, данные физически остаются на накопителе, однако в файловой системе более не отображаются, а место на носителе, где они располагаются, помечается как свободное и готовое к записи новой информации. В данном случае атрибуты файлов изменяются. В случае записи в данный раздел или логический диск может произойти частичное или полное замещение данных, помеченных, как удаленные.

Подобные файлы можно легко прочитать и восстановить со всеми атрибутами и информацией о расположении, прочитав служебные записи файловой системы. Существуют как программы только для восстановления удаленных данных, так и комплексные решения, где восстановление удаленных данных - лишь одна из функций.

Восстановление по сигнатурам

В случае, когда реконструкция файловой системы невозможна в силу каких-либо причин, некоторые файлы все еще можно восстановить, используя восстановление по сигнатурам. При данном типе восстановления происходит посекторное сканирование накопителя на предмет наличия известных сигнатур файлов

Основной принцип работы алгоритмов сигнатурного поиска такой же, как у самых первых антивирусов. Как антивирус сканирует файл в поисках участков данных, совпадающих с известными фрагментами кода вирусов, так и алгоритмы сигнатурного поиска, использующиеся в программах для восстановления данных, считывают информацию с поверхности диска в надежде встретить знакомые участки данных. Заголовки многих типов файлов содержат характерные последовательности символов. К примеру, файлы в формате JPEG содержат последовательность символов “JFIF”, архивы ZIP начинаются с символов “PK”, а документы PDF начинаются с символов “%PDF-“.

Некоторые файлы (к примеру, текстовые и HTML файлы) не обладают характерными сигнатурами, но могут быть определены по косвенным признакам, т.к. содержат только символы из таблицы ASCII.

По результатам сканирования выдается, чаще всего, список файлов, отсортированных по типу. Информация о расположении файлов не восстанавливается.

Данный тип восстановления хорошо применять для восстановления фотографий с карт памяти, так как данные на карте однотипные и записываются, в общем случае, строго последовательно, без фрагментации.

Смешанное восстановление

Большинство программ позволяют применить одновременно несколько способов восстановления за одно сканирование. В результате выдается максимально возможный результат при использовании данной программы.

Восстановление из резервных копий

Самый надежный, простой и дешевый способ восстановления информации - восстановление информации из ранее сделанных резервных копий. Для создания резервных копий используется специализированное ПО, которое в том числе может выполнять восстановление данных.

Рассмотрим основные типы носителей и их неисправности.

Накопитель на гибком магнитном диске (НГМД)

Основной неисправностью является так называемое «размагничивание».

Встречается чаще всего при прохождении магнитных детекторов в магазинах, метро, аэропортах. Восстановить данные удаётся только с не размагниченных областей накопителя. Так же встречаются неисправности, связанные с физическим повреждением носителя, такими как царапины, сильное загрязнение. Каждый случай необходимо рассматривать индивидуально и только после этого прогнозировать результат восстановления информации.

Программно-аппаратный способ

Как говорилось выше, в этом способе следует уделить большое внимание именно типу накопителя информации. Варианты и способы восстановления начнем с яркого примера носителя информации.

Накопители CD/DVD/BR

Оптические накопители могут иметь разные причины невозможности чтения данных:

Механические

повреждение прозрачного слоя

повреждение отражающего слоя

Химические

разложение прозрачного слоя

разложение регистрируемого слоя (у записываемых дисков)

коррозия отражающего слоя

Нарушение организации данных

вследствие аппаратно-программных ошибок при записи данных

вследствие неправильных данных

Самыми частыми причинами нечитаемости дисков являются повреждение отражающего и прозрачного слоя, а также разложение регистрируемого слоя у записываемых дисков. В случае образования царапин на поверхности диска, возможно применить полирование рабочей поверхности, что приведёт к удалению нежелательных повреждений и улучшит чтение данных, однако при образовании трещин, использовать данный метод опасно, так как при последующем чтении диск может разрушиться в дисководе под действием центробежной силы. Повреждение фольгированного покрытия диска (старение металла, царапины) больше всего осложняет восстановление данных.

К данному типу накопителей можно отнести USB Flash, SSD-диски, карты памяти SD, miniSD, microSD, xD, MS, M2, Compact Flash.

Самые распространенные технические неисправности]

Логические неисправности

Возникают данные неисправности в самых различных случаях. Одна из самых распространенных причин - неправильное извлечение устройства из компьютера.

В случае логических неисправностей восстановить данные возможно с помощью программ для восстановления данных.

Механические повреждения

Диск прекратил корректную работу в результате какого-либо физического воздействия (падения, попадания влаги, изгиба, сжатия и т. д.). Причина неисправности, чаще всего, в поломке платы или разрушении контактов и компонентов.

Восстановить данные можно, если исправить поломку: заменить неисправный компонент или восстановить нарушенный контакт. Также можно считать данные напрямую с чипа памяти, используя специальное оборудование.

Восстановление данных производится как и в предыдущем случае: заменой компонентов либо чтением с чипов памяти напрямую.

Планирование восстановление работоспособности сети при аварийной ситуации

Один из наиболее полных и логичных образцов подобного документа был разработан Национальным институтом стандартов США (NIST) в 2001 году.

План восстановления функционирования системы устанавливает перечень и последовательность процедур, необходимых для восстановления нормального функционирования системы после наступлении чрезвычайных обстоятельств, повлекших отказ в доступности ресурсов системы. В результате выхода из строя отдельных элементов системы, физического разрушения помещений, пожара, наводнения, террористических атак и др.

Основная цель реализации Плана заключается в обеспечении быстрого и полного восстановления устойчивого функционирования информационной системы.

Поставленная цель достигается решением следующих задач:

определение порядка действий, процедур и ресурсов, необходимых для восстановления функционирования системы или обеспечения ее устойчивого функционирования в резервном варианте размещения технических средств и персонала;

определение штатного состава и основных обязанностей персонала оперативного штаба и аварийных групп из числа сотрудников банка по реализации мероприятий Плана восстановления, а также порядка организации эффективного взаимодействия между аварийными группами и управления ими в течение всего времени активности Плана восстановления;

определение порядка взаимодействия и координации действий оперативного штаба по реализации Плана с другими организациями и структурами (пожарные, медперсонал, милиция, спасатели и др.), которые, возможно, будут привлекаться к ликвидации последствий чрезвычайных событий, вызвавших нарушение нормального функционирования системы.

К примеру, специалисты NIST все мероприятия по выполнению Плана распределяют по трем этапам:

этап уведомления/активации Плана. Основные задачи, решаемые на данном этапе, – своевременная идентификация наступления чрезвычайных условий, обнаружение нанесенных системе повреждений, оценка ущерба, прогноз возможности восстановления функционирования системы и принятие решения о необходимости активации Плана восстановления системы;

этап восстановления. Основные задачи – восстановление функционирования системы по временной схеме (с использованием резервных средств и помещений), проведение комплекса работ по полному восстановлению работоспособности системы в объеме обычных условий;

этап воссоздания системы/деактивации Плана. Основные задачи – полное восстановление нормальной работы системы и деактивация Плана восстановления, возврат к нормальному функционированию.

Согласно исследованию компании McKinseyQuarterly, за последний год в США значительно возросло число компьютерных атак на корпоративные IT-системы. В исследовании McKinseyQuarterly сообщается, что число компьютерных атак (действия хакеров, вирусов, червей, недобросовестных работников и др.) возросло на 150% по сравнению с 2000 годом, составив в общей сложности 53000 случаев взлома систем информационной безопасности компаний.

Такой рост произошел в первую очередь из-за отношения к IT-безопасности как к области сугубо технологической. Это означает, что многими организационными и стратегическими решениями в компаниях попросту пренебрегали.

Реализуемость Плана основана на двух предположениях:

нормальное функционирование системы нарушено в результате наступления некоторого чрезвычайного события или цепи подобных событий. В результате система не способна реализовывать свои функции в объеме, требуемом для качественного обслуживания абонентов;

существует подготовленное помещение, которое выполняет функции резервного центра размещения технических средств системы. Персонал системы формирует необходимую информационно-вычислительную среду на основе технических средств резервного центра для восстановления функционирования системы по резервному варианту размещения в период действия Плана восстановления. Кроме того, резервный вариант размещения используется в течение всего времени, необходимого для восстановления функционирования системы по прежнему (либо новому) месту размещения.

В начале этого года на северо-востоке США бушевали невиданной силы грозы. Они нарушили электроснабжение местного call-центра службы спасения 911, и в сервисном отделе фирмы Liebert, входящей в состав компании Emerson Network Power, раздался звонок с просьбой о помощи. Батареи ИБП в ЦОДе вышли из строя, и, учитывая специфику работы call-центра, было необходимо срочно обеспечить его функционирование.

Мы быстро отреагировали, и вскоре call-центр вновь нормально работал. Изучив причины случившегося отказа, представители вендора вместе с руководством call-центра вынуждены были признать, что не была внедрена программа сервисного обслуживания (которая обычно включает профилактическое техобслуживание, регулярные проверки и мониторинг). Если бы в ЦОДе действовала такая программа, то отказа батарей можно было бы избежать.

Подобные случаи постоянно напоминают о том, сколь необходима всеобъемлющая программа профилактического техобслуживания. В сегодняшних быстро меняющихся условиях с неуклонно растущей ролью ЦОДов такая программа совершенно необходима для обеспечения бесперебойной работы.

Перемены повсюду

В условиях постоянно развивающихся ИТ одна из главных трудностей, с которой сталкиваются менеджеры ЦОДов, — это не отстать от перемен. Ушли в прошлое те времена, когда достаточно было иметь небольшую распределенную сеть, охватывающую несколько близлежащих узлов. Сегодня ЦОДов стало меньше, но они теперь гораздо крупнее, более централизованны и берут на себя громадные объемы вычислений.

Также ИТ-инфраструктура многих организаций развилась во взаимозависимую, критически важную сеть, охватывающую данные, приложения, хранение, серверы и собственно сетевое оборудование. Отказ питания в любой точке этой сети может нарушить работу всей организации и негативно сказаться на ее бизнесе.

Ввиду этих перемен очень важно, чтобы организации имели надежные планы профилактического техобслуживания в своих ЦОДах, а также знающих специалистов, что называется, под рукой. Переходя на новое оборудование и осуществляя централизацию своих ЦОДов, организации не должны упускать из вида, что столь же важно иметь надежную инфраструктуру питания и охлаждения, чтобы гарантировать постоянную доступность ИТ.

Слишком часто можно наблюдать такую картину: ИТ-директор решает купить новые серверы для организации, но когда они уже готовятся к установке, менеджер ЦОДа обнаруживает, что не было проведено никакой оценки того, насколько имеющаяся инфраструктура питания и охлаждения соответствует новым требованиям. Профессиональная оценка может определить, например, что на одной из критически важных линий не хватает мощности резервного питания для поддержки новых серверов.

Кроме того, тепловой анализ может показать, что одна из стоек охлаждается недостаточно хорошо. Если бы ИТ-директор и менеджер ЦОДа нашли время встретиться до того, как начинать внедрение, и обратились бы к сервисной организации, чтобы точно определить будущие требования к системам питания и охлаждения, то в смету уже были бы заложены дополнительные капиталовложения и оптимизация этих систем, дабы не создать риска возможных отказов.

Главное — гарантировать безотказность

При наличии хорошо согласованной программы сервисного техобслуживания в рамках всей организации риск нарушения питания, будь то стихийное бедствие или плановый апгрейд оборудования, можно свести к минимуму. ИТ-менеджеры рассчитывают сегодня на 100%-ный уровень готовности. Но как его достичь без всеобъемлющей программы профилактического техобслуживания? Как и ваш автомобиль, ЦОДы также должны быть надежны, им необходим регулярный “техосмотр”, чтобы надежность могла быть гарантирована.

Кроме того, бесперебойность работы зависит от знания менеджерами ЦОДов потенциальных опасностей и их способности разработать план вместе со специалистом по техобслуживанию, чтобы свести к минимуму риск отказа критически важных функций. Хорошо подготовленная организация будет иметь минимум нарушений в работе и будет чувствовать себя уверенно, даже если что-то случится.

Сегодня, как никогда, организации зависят от своей ИТ-инфраструктуры, от ее надежной работы, и не стоит экономить на том, чтобы построить тесные, доверительные отношения с поставщиком сервисных услуг. Опытный специалист поможет разработать и внедрить сильный план обеспечения бесперебойности бизнеса, который гарантирует не только оперативную готовность вашей ИТ-инфраструктуры, но будет охватывать весь жизненный цикл ЦОДа. Но программа, созданная сегодня, может перестать соответствовать требованиям через несколько лет, поэтому необходимо постоянно ее корректировать и развивать. Без такой всеобъемлющей, постоянно развивающейся программы организации подвергают себя риску потерять доходы и вызвать неудовлетворенность заказчиков.

Кроме того, организация может понести незапланированные расходы на ремонт и замену оборудования. Конечно, всё это трудно вписать в ограниченный ИТ-бюджет, но без необходимого техобслуживания затраты могут оказаться еще выше и будут к тому же неожиданными для организации.

Ваши требования к поставщику техобслуживания

Выбирая поставщика услуг техобслуживания, ищите тех, кто инвестирует в лучший инструментарий и знающий персонал. Один из верных способов свести к минимуму риск отказов питания — это внедрить всеобъемлющую программу планово-предупредительного техобслуживания с участием обученных вендором специалистов. Вы можете смело полагаться на поставщиков техобслуживания, если они:

  • могут гарантировать быстрый отклик по вашему вызову;
  • имеют опыт работы с установленным у вас оборудованием (чтобы восстановить его работоспособность с первого раза);
  • гарантируют наличие запчастей;
  • постоянно обучают своих инженеров, повышая их квалификацию, и снабжают их всеми новейшими приборами и средствами, необходимыми для работы;
  • имеют репутацию надежного и соблюдающего нормативные требования партнера;
  • способны дать вам целостную картину состояния вашего ЦОДа благодаря широте своего предложения.

Сегодня многие ведущие поставщики услуг технического обслуживания имеют новейшее тестовое оборудование и прекрасно обученных специалистов, так что проблемы часто можно разрешить, даже не посылая специалиста к заказчику. Имея хорошо спланированную стратегию, менеджеры ЦОДов могут смело рассчитывать на специалистов техобслуживания, которые решат их проблемы без простоев и снижения уровня готовности всех систем.

Заключение

Мы живем в эпоху перемен, в том числе внутри ЦОДов. Перемены неизбежны. ИТ меняются ежечасно, стремясь к совершенству, и это следует принять как данность. Всеобъемлющая программа профилактического техобслуживания, которая включает превентивные меры, регулярные проверки и мониторинг оборудования, просто необходима.

Отказ в call-центре, о котором мы рассказали в начале, был быстро ликвидирован, и его работа почти не пострадала. Но дело могло бы обернуться гораздо хуже, чья-то жизнь могла бы подвергнуться опасности. Сегодня этот call-центр службы спасения уже не берет на себя такого риска. Они внедрили всеобъемлющую программу профилактического техобслуживания, которая гарантирует бесперебойную работу их систем. Такой же выбор следует сделать всем менеджерам ЦОДов в наше время, полное перемен.

Концепция, методы и средства обеспечения непрерывности бизнеса (Business Continuity Planning - BCP) и восстановления деятельности после бедствий (Business Disaster Recovery - BDR) широко известны и апробированы на Западе. Технология обеспечения непрерывности деятельности при чрезвычайных ситуациях является неотъемлемой частью производственной деятельности крупных компаний и государственных организаций, что позволяет им обеспечить практически бесперебойное функционирование в случае чрезвычайных происшествий малого и среднего масштаба и восстанавливать свою деятельность с минимальными, заранее просчитанными убытками в случае широкомасштабных бедствий.

Б.Д. Альтерман, В.И. Дрожжинов, Г.Е. Моисеенко
Jet Info Online №5 2003

Читатели статьи ознакомятся с терминологией и основными понятиями в рассматриваемой области знаний и методологией разработки планов обеспечения непрерывности бизнеса в нештатных ситуациях. Приводятся примеры конкретных планов.

Планирование непрерывности деятельности- это постоянная забота первых руководителей организаций и компаний, которые живут не одним днем и заинтересованы в сохранении и развитии своих предприятий. Именно им и лицам, отвечающим за безопасность и финансовое здоровье компаний и организаций, в первую очередь предназначена эта статья.

Один из авторов статьи, В.И. Дрожжинов, является сертифицированным cпециалистом по планированию непрерывности бизнеса (АВСР), он прошел обучение в Канаде в Институте по восстановлению после бедствия, сдал сертификационный экзамен. Сертификат выдан Международным институтом по восстановлению после бедствия (Нью-Йорк, США).

Введение

Под нештатными или чрезвычайными ситуациями понимаются внешние воздействия, приводящие к невозможности функционирования предприятия в обычном, регламентируемом соответствующими стандартами данного предприятия режиме.

К таким внешним воздействиям в первую очередь относятся:

  • Отключение электроэнергии
  • Пикетирование и забастовки
  • Прорывы водопровода или канализации
  • Террористические акты или их угроза
  • Выход из строя кондиционеров
  • Гражданские беспорядки
  • Пожары
  • Локальные конфликты
  • Природные катаклизмы

Кроме прямых потерь организации несут издержки, связанные с нарушением процедур производственного и финансового учета, потерей расположения заказчиков, ухудшением имиджа и снижением конкурентоспособности.

Концепция, методы и средства обеспечения непрерывности бизнеса и восстановления деятельности после бедствий (Business Continuity Planning - BCP и Business Disaster Recovery - BDR) широко известны и апробированы на Западе при возникновении официально объявленных бедствий и чрезвычайных происшествий более мелкого характера. Они являются неотъемлемой частью производственной деятельности многих крупных компаний, что позволяет им обеспечить практически бесперебойное функционирование в случае чрезвычайных происшествий малого и среднего масштаба и восстанавливать свою деятельность с минимальными, заранее просчитанными убытками в случае широкомасштабных бедствий.

Для того, чтобы обезопасить себя на случай возникновения нештатных ситуаций, нужно иметь:

  • План действий в нештатной ситуации,
  • Хорошо обученные и тренированные "аварийные группы".

План обеспечения бесперебойного функционирования организации в случае нештатной ситуации представляет собой детальный перечень мероприятий, которые должны быть выполнены до, во время и после чрезвычайного происшествия или бедствия. Этот план документируется и регулярно испытывается для того, чтобы убедиться, что в случае нештатной ситуации он обеспечит продолжение деятельности организации и наличие резерва критически важных ресурсов.

Наличие даже очень хорошего плана не гарантирует защиту компании от неприятностей, если у нее нет хорошо обученных групп сотрудников, знающих, что, когда и как они должны делать при возникновении любой нештатной ситуации.

Аналитики отмечают, что потери от террористической атаки 11 сентября могли быть значительно больше, если бы отсутствовали планы действий в чрезвычайных ситуациях, имеющиеся у большинства американских компаний. Заметим, что многие из этих планов появились в преддверии 2000 г. в связи с так называемой "Проблемой 2000" ().

Таблица 1. Действия компаний по повышению безопасности в преддверии 2000 г. и после 11 сентября 2001 г.

ДЕЙСТВИЯ

В ПРЕДДВЕРИИ 2000 Г.

Киберугрозы организационным системам

ИТ-индустрия создала инструменты для обнаружения и устранения "Проблемы 2000" (У2К) в аппаратных и программных средствах. Компании понесли значтельные затраты на тестирование, модификацию и замену своих систем

Имеется огромное число технических решений для обеспечения безопасности, и в каждом конкретном случае требуется проведение тщательного отбора. При этом нужно иметь в виду, что безопасность людей не менее важна, чем безопасность материальных активов

Коммерческая зависимость и взаимозависимость компаний

Различные объединения промышленных предприятий проводили оценку угроз нарушения логистических цепочек и последствий таких нарушений. Компании требовали от своих поставщиков подтверждения устранения в своих информационных системах угроз, связанных с "Проблем ой 2000"

Компании углубили свое осознание проблем обеспечения устойчивости логистических цепочек. После 11 сентября они стали меньше полагаться на практику поставок точно в назначенный срок (just-in-time) и больше - на складские запасы "на всякий случай" (just-in-case)

Киберугрозы критическим инфраструктурам

Владельцы и операторы инфраструктур (телекоммуникационных, трубопроводных и др.) обеспечили решение "Проблемы 2000" в своих системах, разработали и проверили планы их восстановления после бедствия и создали сети сотрудничества для обмена информацией и координации действий в чрезвычайных ситуациях

Компании очень вяло обмениваются информацией во всех сферах, кроме финансовой, где существуют долговременные доверительные отношения, позволяющие координировать действия в чрезвычайный ситуациях

Нежелание делиться информацией

Конгресс США издал закон, по которому обмен информацией между Компаниями по "Проблеме 2000" не является нарушением антимонопольного законодательства

Сейчас в Конгрессе США рассматривается закон об обмене между компаниями антитеррористической информацией, подобный закону, принятому в отношении "Проблемы 2000"

Атмосфера страха и неопределенности

Предприятия и их объединения организовали в прессе кампанию с целью убедить акционеров и публику в том, что последствия "Проблемы 2000" будут минимальными

Сразу после 11 сентября все компании публично выразили соболезнования родственникам погибших в зданиях ВТЦ

Горизонт планирования

Знание точной даты проявления "Проблемы 2000" и понимание ее сути упростили планирование работ по ее преодолению. Наличие необходимого инструментария обусловило сокращение времени решения задачи

Время проведения террористической атаки и применяемые для этого средства непредсказуемы. Поэтому необходимо тщательное исследование рисков для определения соответствующих мер и инструментов защиты

Готовы ли российские компании к внедрению у себя планов обеспечения непрерывности деятельности? Информация об этом противоречива. Изучение рынка сервисных ИТ-услуг, проведенное компанией Market-Visio/EDC в 2000-2001 гг. (http://www.edc.ru/), показало, что услуга по планированию непрерывности бизнеса (BCP) в России пока слабо востребована.

Исследование, проведенное в 2001 г. компанией Ernst & Young (www.ey.com/Russia/security-risk), свидетельствует о том, что 67% опрошенных ею российских компаний имеют планы обеспечения непрерывности бизнеса (BCP), причем у 61,2% этих компаний планы протестированы, а у 38,8% - нет.

Столь разные оценки объясняются тем, что Market-Visio/EDC опрашивала предприятия действительно по вопросу непрерывности бизнеса при комплексных угрозах (см. ), а Ernst & Young, судя по содержанию отчета, только по проблемам информационной безопасности (отказы компьютеров, атаки хакеров, компьютерные вирусы и др.).

Таблица 2. Классификация прерывателей (рисков) бизнеса (не исчерпывающая)

ТИП ПРЕРЫВАТЕЛЯ БИЗНЕСА

АНГЛИЙСКОЕ НАЗВАНИЕ ПРЕРЫВАТЕЛЯ

РУССКОЕ НАЗВАНИЕ ПРЕРЫВАТЕЛЯ

Предпринимательский

Business Relocation

Переезд предприятия или организации в другое помещение или офис

Промышленный шпионаж

Утрата архива

Mergers & Acquisitions

Слияние/приобретение предприятий/организаций

Negative Publicity

Негативная информация о компании в прессе

Переход с ручной на автоматизированную информационную систему или с одной автоматизированной системы на другую

"Наезд" криминальных, коммерческих или государственных структур

Человеческий

Трудовой конфликт (забастовка, локаут и др.)

Loss of Workforce

Организованный уход сотрудников или их потеря в результате, например, несчастного случая

Невозможность набрать сотрудников

Succession Planning

Отсутствие планирования замещения должностей

The Human Factor

Человеческий фактор, терроризм в любой форме и с применением любого оружия

Unauthorized Access

Несанкционированный доступ

White Collar Crime

Преступления "белых воротничков"

Workplace Violence

Силовые конфликты на рабочих местах

Техногенный

Веерное отключение электроэнергии

Computer Failure

Отказы компьютеров

Computer Harking

Атаки хакеров

Computer Viruses

Компьютерные вирусы

Environmental Hazards

Аварии систем жизнеобеспечения (прорыв канализации, трубопроводов горячей и холодной воды., отказ воздуховодов и др.)

Multi-Tenant Sites

Проблемы, вызванные размещением в одном здании нескольких компаний

Перебой в электроснабжении

Sick Building Syndrome

Синдром, вызванный наличием в материалах, из которых построено здание, вредных для здоровья примесей

Transportation Disruptions

Нарушения работы общественного транспорта

Природный

Снежная буря

Землетрясение

Electrical Storms

Электромагнитные бури

Природно-техногенный

Зимняя погода

Biological Hazards

Эпидемии

Наводнение

Artificial and natural objects landing

Падение искуcственных (например, самолетов) и природных (например, метеоритов) объектов с неба

Следует заметить, что осознание необходимости заботиться об информационной безопасности и связанная с этим разработка планов обеспечения непрерывности функционирования информационных систем - уже большой шаг российских предприятий к обеспечению устойчивости бизнеса.

Здесь не рассматривается большой пласт предпринимательских рисков, связанных с изменением курса национальной валюты, государственного регулирования, наносящего ущерб коммерческой деятельности, или политической системы. Эти риски заслуживают особого рассмотрения, поскольку для их снижения используются методы, существенно отличные от описанных в настоящей статье.

План обеспечения бесперебойной деятельности организации в случае нештатных ситуаций: вопросы и ответы

После бедствия необходимо заняться восстановлением своего бизнеса. При этом некоторые организации находятся в более выигрышном положении: у них есть "План обеспечения бесперебойной деятельности организации" (далее план).

Зачем нужен план?

В заголовках национальных и международных новостей постоянно присутствуют сообщения о самых разнообразных бедствиях. Многие бедствия приходят неожиданно, и в этом случае на планирование и организацию работ уже нет времени: нужно бороться за выживание. Поскольку ущерб, приносимый бедствиями, нельзя предотвратить, организациям нужно застраховаться, составив план, который обеспечит успешное восстановление деятельности. Проблема восстановления еще больше усугубляется сложностью распределенных вычислительных сред, разнородностью технических средств, программного обеспечения и протоколов связи.

В настоящее время почти все компании в значительной степени зависят от компьютерных технологий или автоматизированных систем. Неработоспособность этих систем даже в течение нескольких часов может привести к существенным финансовым потерям и даже поставить под угрозу существование организации.

По мере того, как все большее число критичных бизнес-процессов переносится на вычислительные системы с распределенной архитектурой (например, клиент-сервер), компании начинают беспокоиться о том, как можно защитить эти системы в случае бедствия. При переносе приложений из вычислительного центра, где существует жесткий контроль безопасности и воздействий внешней среды, на рабочие места в оперативных подразделениях вероятность прерывания деятельности существенно возрастает. Для вычислительного центра пожары, прорывы водопровода и канализации, отключения телефонной связи и электрического питания подконтрольны и являются большой редкостью, но с распределением приложений по локальным или глобальным сетям, вероятность, что где-нибудь случится чрезвычайное происшествие, сильно возрастает.

Организации должны предусмотреть меры по восстановлению тех сфер своей деятельности, которые имеют критичное для бизнеса значение. При этом должна восстанавливаться не только информационная система. Необходимо предусмотреть замену оборудования локальных телефонных станций, восстановление справочной службы и дистанционного обслуживания, обеспечение мест для работы сотрудников, спасение имущества, которое пригодно к использованию (список не является исчерпывающим). Если подобные составляющие не могут быть восстановлены своевременно, управление организацией становится практически невозможным.

Большинство компаний может обеспечить продолжение своей деятельности после перерыва, вызванного бедствием, предприняв ряд определенных шагов.

Что представляет собой план и почему он так важен?

План обеспечения бесперебойной деятельности организации представляет собой детальный перечень мероприятий, которые должны быть выполнены до, во время и после бедствия. Этот план документируется и испытывается, чтобы удостовериться в его работоспособности в изменяющихся условиях.

Каковы выгоды от наличия плана?

План служит руководством к действию во время кризиса и гарантирует, что ни один важный аспект не будет упущен. Профессионально составленный план направляет действия даже неопытных сотрудников.

Наличие детального, регулярно испытываемого плана поможет оградить любую организацию от судебных исков по поводу халатности. Само существование плана служит доказательством того, что руководство компании не пренебрегло подготовкой к возможным бедствиям.

Основные выгоды от составления детального плана обеспечения бесперебойной деятельности состоят в следующем:

  • Минимизация потенциальных финансовых потерь.
  • Уменьшение юридической ответственности.
  • Сокращение времени нарушения нормальной работы.
  • Обеспечение стабильности деятельности организации.
  • Организованное восстановление деятельности.
  • Сведение к минимуму суммы страховых взносов.
  • Уменьшение нагрузки на ведущих сотрудников.
  • Лучшая сохранность имущества.
  • Обеспечение безопасности персонала и заказчиков.
  • Соблюдение требований законов и инструкций.

Каковы последствия отсутствия плана?

Часто цитируемое исследование, проведенное Техасским университетом, выявило следующую статистику:

  • 85% организаций сильно или полностью зависят от вычислительных систем.
  • В среднем на 6-й день перерыва в работе компания теряет 25% ежедневного дохода, а на 25-й день - 40%.
  • После перерыва в работе наблюдается быстрый рост финансовых потерь и ухудшения функционирования.
  • Спустя две недели после прекращения работы вычислительных систем у 75% компаний потеря функционирования становится критической или полной.
  • 43% компаний, испытавших бедствие и не имевших плана обеспечения бесперебойного функционирования, не возобновляют свою деятельность, а спустя два года продолжает функционировать лишь 10% компаний.

Это исследование показало, что организации, которые составили план действий в непредвиденных обстоятельствах, имели существенно меньшие дополнительные затраты и потери доходов.

По оценке, потери доходов этой группы организаций были бы в 2,5 раза выше, если бы при возникновении чрезвычайной ситуации они не привели в исполнение соответствующие планы.

Кто отвечает за разработку плана?

В конечном итоге за разработку плана отвечает руководство компании, которое должно осуществлять контроль за имуществом компании, что включает контроль за информационными системами компании и обеспечение их непрерывного функционирования.

Проблемы, связанные с восстановлением функционирования информационной системы должны быть заботой всей компании, а не только руководства подразделения, отвечающего за ИТ-инфраструктуру. Руководители всех подразделений, деятельность которых зависит от услуг, предоставляемых отделом ИТ-технологий, должны разработать процедуры действий в чрезвычайных обстоятельствах, касающиеся собственных функциональных обязанностей, а также участвовать в разработке плана восстановления деятельности. Каждое функциональное подразделение должно привести в действие свою часть плана в рамках общих усилий по восстановлению деятельности. В плане должно быть отражено даже выполнение таких обеспечивающих функций, как содержание зданий и оборудования. Эффективность выполнения этих функций может не влиять непосредственно на работу ИТ-инфраструктуры, однако от нее будет частично зависеть восстановление работы технических средств.

Что требуется для разработки плана?

Важным моментом в процессе составления плана является участие высшего руководства компании. Без его поддержки практически невозможно заставить функциональные подразделения предоставить ресурсы, необходимые для разработки плана.

Существенное значение имеет также участие пользователей. Если пользователи не участвуют в процессе разработки плана - маловероятно, что план окажется действительно полезным. Их участие поможет определить некоторые важные факторы:

  • Вероятные последствия каждого бедствия для деятельности организации;
  • Вероятная продолжительность каждого возможного бедствия;
  • Ресурсы, которые необходимы для того, чтобы свести к минимуму возможные последствия;
  • "Человеческие" ресурсы.

Ведение "Плана обеспечения бесперебойной деятельности" требует постоянных затрат времени и финансовых ресурсов.

Не обновлять план так же плохо, как и не иметь его вообще!!!

Каковы этапы разработки плана?

Разработку плана обеспечения бесперебойной деятельности предприятия необходимо организовать в виде проекта, чтобы управлять задачами, сроками и конечными результатами. Основными этапами типичного проекта являются:

  • Организация выполнения проекта;
  • Оценка риска, уменьшение нежелательных последствий от наступления событий, связанных с риском, анализ последствий для бизнеса;
  • Разработка стратегии восстановления деятельности;
  • Документирование плана;
  • Обучение;
  • Имитация бедствия.
Организация выполнения проекта

Организация выполнения проекта включает в себя административное управление проектом, определение допущений, проведение совещаний и разработку политики.

Оценка риска

При оценке риска выявляются типы бедствий, которые могут произойти в каждом конкретном месте. Обследуется физическая инфраструктура здания и его окружения. Для каждого типа бедствия делается оценка возможной продолжительности и присваивается относительная величина, соответствующая вероятности их появления. Используется шкала, например, от 0 до 3; где 0 означает невероятное событие, а 3 - весьма вероятное. В результате этого выявляются области, в которых следует провести дальнейшие исследования, чтобы уменьшить последствия событий, приводящих к риску.

Анализ последствий для деятельности организации

После оценки риска проводится анализ последствий бедствия для деятельности организации, в ходе которого определяются потери из-за невозможности продолжать нормальную деятельность. Они могут быть очевидными или носить более абстрактный характер, при котором руководству придется сделать предположительную оценку потерь. В любом случае цель заключается не в том, чтобы получить точный ответ, а в том, чтобы выявить факторы, которые являются критически важными для продолжения деятельности компании. На этом этапе определяется масштаб плана обеспечения бесперебойной деятельности. Чрезмерные меры предосторожности потребуют лишних средств, а недостаточные - не обеспечат должной безопасности.

Разработка стратегии обеспечения бесперебойной деятельности

После определения требований можно принимать решение о том, как обеспечивать восстановление деятельности. Существует множество вариантов технических решений, в том числе:

  • Использование "горячего" резервного помещения. Поставщик предоставляет компании подготовленное рабочее помещение с оборудованием, средствами телекоммуникации, персоналом, осуществляющим техническую поддержку, и т.д., обычно по годовому контракту. Заказчики получают доступ к оборудованию по принципу "первый пришел - первым обслуживается".
  • Использование "холодного" резервного помещения. Компания организует работу в пустующем или арендуемом помещении, которое подготовлено к использованию. Сразу после бедствия в помещении развертывается оборудование (возможно, закупаемое у поставщиков), программное обеспечение и службы обеспечения.
  • Использование внутренних резервов. Для предоставления услуг в чрезвычайных обстоятельствах используется оборудование компании, которое расположено в ином месте.
  • Заключение соглашения о взаимной поддержке. Заключается соглашение с другой компанией о коллективном использовании ресурсов после бедствия. При этом предполагается, что резервное оборудование всегда имеет нужную производительность и вас устраивает степень защиты информации при коллективной работе.

В некоторых случаях можно использовать комбинацию этих вариантов. Крупные многонациональные компании чаще всего используют для локальных вычислительных сетей метод внутреннего резервирования. Поскольку количество имеющихся резервных помещений ограничено, может оказаться, что в случае чрезвычайных обстоятельств не окажется рабочего помещения, которое можно было бы использовать. Бедствие в масштабе региона может привести к тому, что все резервные помещения будут заняты и компании негде будет возобновить работу.

Хорошо подготовленный план обеспечивает компанию пошаговыми инструкциями, соответствующими типу и тяжести бедствия. В нем указываются функциональные группы специалистов компании, подготовленные для реализации плана. Наличие хорошо проработанного плана гарантирует, что в стрессовой ситуации после возникновения чрезвычайных обстоятельств, критически важные факторы не будут упущены.

Документация

План может документироваться различными способами. Большинство компаний все еще применяют традиционные текстовые редакторы, другие используют коммерческое программное обеспечение. Какой бы метод ни был использован, важно обеспечить строгое выполнение процедур управления внесением изменений, чтобы поддерживать план в состоянии, соответствующем реальной текущей ситуации.

Обучение

Обучение "Группы восстановления" направлено на то, чтобы каждый сотрудник знал свои функции и обязанности в случае возникновения нештатных ситуаций.

Имитация бедствия

Большинство компаний проводят испытания плана минимум один раз в полгода. Имитируя бедствия можно проверить план, найти его слабые места и отработать взаимодействие участников. Обнаружение недостатков обычно влечет за собой корректировку плана. План должен регулярно проходить испытания и корректироваться. Лишь немногие планы обеспечения бесперебойной деятельности выполняются так, как это предусматривалось первоначально. Поскольку внесение поправок в план необходимо делать регулярно, должна быть максимально упрощена процедура корректировки плана.

Что еще следует предусмотреть?

При разработке плана обеспечения бесперебойной деятельности необходимо предусмотреть следующее:

  • Если в настоящий момент план отсутствует, необходимо уведомить высшее руководство о потенциальных опасностях, которые связаны с отсутствием подготовленного и испытанного плана;
  • При наличии плана надо обеспечить его регулярное испытание - провести циклическую замену специалистов, участвующих в испытаниях. Желательно, чтобы в этом процессе приняло участие максимальное количество сотрудников;
  • Надо добиться того, чтобы руководство сделало планирование обеспечения бесперебойной деятельности одной из своих целей;
  • При выборе альтернативных рабочих помещений необходимо позаботиться, чтобы ими можно было воспользоваться при первой необходимости;
  • Не принимайте существующие системы и процедуры резервирования на веру: проведите полную экспертизу резервирования и внесите необходимые изменения. Проведите испытания процедур восстановления;
  • При определении приоритетов приложений опросите руководителей, чтобы они изложили свою точку зрения;
  • Учтите в плане все мелочи, которые могли бы помешать процессу восстановления деятельности;
  • После составления плана разработайте механизм, обеспечивающий его регулярное обновление.

Какие конкретные функциональные области следует включить в план?

План должен содержать процедуры выполнения следующих функций:

  • Ввод в действие процедур для чрезвычайных ситуаций.
  • Уведомление сотрудников, поставщиков и заказчиков.
  • Формирование группы (групп) восстановления.
  • Оценка последствий бедствия.
  • Принятие решения о реализации плана восстановления деятельности.
  • Ввод в действие процедур восстановления деятельности.
  • Переезд в альтернативное рабочее помещение (помещения).
  • Восстановление функционирования критически важных приложений.
  • Восстановление основного рабочего помещения.

Кроме того, план должен содержать документы, которые могут быть использованы персоналом, не знакомым с конкретно восстанавливаемыми функциями. Эти документы должны включать следующие данные:

  • Схемы коммутации телефонов;
  • Процедуры для аварийного отключения питания;
  • Организационная структура Центра восстановления;
  • Требования к оборудованию и снабжению Центра восстановления;
  • Конфигурация Центра восстановления;
  • Список критически важных приложений;
  • Список восстанавливаемого оборудования;
  • Сводные данные по оценке рисков.

Для реализации "Плана обеспечения бесперебойной деятельности" в нем обычно предусматривается создание в организации определенных групп (Табл. 3).

Таблица 3. Список групп для реализации "Плана"

Название группы

Группа первоначального реагирования

Определяет степень ущерба

Группа восстановления

Выполняет функции командного центра в процессе восстановления

Группа по связям с общественностью

Подготавливает сообщения для печати и поддерживает связь со средствами массовой информации

Группа управления сооружениями

Оборудует новое помещение и начинает реконструкцию поврежденного рабочего помещения

Группа кадров

Решает проблемы, связанные с командировками, переездами, травмами сотрудников и т.п.

Группа вычислительных систем

Восстанавливает производственную инфраструктуру

Группа функциональной деятельности

Координирует возобновление работы всех функциональных подразделений, участвующих в бизнесе

Группа систем передачи информации

Восстанавливает сеть связи для передачи данных

Группа учета

Координирует спасение, восстановление пострадавших учетных документов и их хранение вне рабочего помещения

Группа административной поддержки

Обеспечивает поддержку работы Группы восстановления

Способы составления плана

Для разработки плана существует три основных способа:

  1. Собственными силами.
  2. С помощью коммерческого программного обеспечения, предназначенного для составления планов обеспечения бесперебойной деятельности (демонстрационные версии таких программ можно посмотреть или скачать с веб-сайта независимого американского журнала по вопросам восстановления после бедствия Disaster Recovery Journal (см. Прил. I).
  3. Привелечние внешнего консультанта для оказания помощи или непосредственной разработки плана.

Способы отличаются по стоимости, но во всех случаях требуется выделение персонала для проведения исследований и реализации плана.

Разработка собственными силами требует наличия квалификации в области составления плана обеспечения бесперебойной деятельности. Эту квалификацию можно приобрести только путем всестороннего обучения и накопления опыта. Большинство организаций не имеют этой возможности.

Что можно сделать самостоятельно?

Приведенный ниже (неполный) перечень может дать руководству компании некоторые представления о подготовке к восстановлению своих распределенных вычислительных систем:

  • Выявите потенциальные угрозы и задайте им приоритеты в соответствии с вероятностью возникновения.
  • Оцените последствия каждого возможного бедствия и определите, чему может быть нанесен ущерб.
  • Оцените время, необходимое для восстановления, и возможный ущерб от прерывания деятельности.
  • Определите критически важные ресурсы.
  • Проведите инвентаризацию своего имущества.
  • Позаботьтесь о встроенной функции отказоустойчивости (зеркальные диски, RAID, UPS и т.п.).
  • Защитите ваши приложения и данные (защита от вирусов, создание резервных копий, хранящихся вне рабочих помещений и т.п.).
  • Поддерживайте работоспособность систем передачи данных.
  • Создайте альтернативные рабочие помещения и разработайте план получения требуемых ресурсов.
  • Подготовьте официальный план, регулярно проводите его испытания и модернизацию.

Методология разработки и примерное содержание плана обеспечения бесперебойной деятельности организации

Под Планированием бесперебойной деятельности организации в случае бедствий понимается выявление и защита критически важных бизнес-процессов и ресурсов, необходимых для поддержания деятельности организации на нужном уровне, а также разработка процедур, которые обеспечат выживание организации при нарушении ее нормальной деятельности.

Методология разработки

План обеспечения бесперебойной деятельности организации в случае бедствий не является только техническим планом - он главным образом предусматривает проведение организационных мероприятий. Поэтому в основу плана должны быть положены сведения о структуре и функциях организации, средствах, необходимых для поддержания ее деятельности, величине ущерба от невозможности нормального функционирования, лицах, которые примут на себя управление в кризисной ситуации, и процедурах, которые они будут использовать. Для структуризации процесса разработки плана необходимо использовать соответствующую методологию, что обеспечит учет всех факторов непрерывности.

Методология (как следует из рисунка) состоит из трех стадий и десяти этапов, в совокупности составляющих жизненный цикл проекта по разработке плана обеспечения непрерывности деятельности организации (содержание работ на этапах подробно расписано в следующей главе).

Планирование деятельности организации базируется на слудующих основных факторах: качества услуг, эффективности работы и возможности развития организации. Во многом оно обеспечивается технологией, принятой в организации. Поэтому важно, чтобы при выявлении критических областей деятельности организации учитывалась их зависимость от технологических составляющих.

Ранее планы на случай непредвиденных обстоятельств учитывали только бедствия, связанные с компьютерной техникой. Это очень узкий подход. Для обеспечения бесперебойной деятельности необходимо учитывать все взаимосвязанные внешние и внутренние функции, в том числе ручные методы учета и обработки информации .

Наиболее важными факторами, обеспечивающими успех планирования, являются учет всех мелочей и поэтапная разработка каждого небольшого элемента плана. Должно быть определено, на события какого масштаба рассчитан план. Если организация располагается в районе, где могут возникнуть региональные бедствия, план должен предусматривать возможность прекращения подачи электроэнергии, воды и других коммунальных услуг. В противном случае достаточно учитывать возможность бедствий лишь в масштабе здания и рассчитывать на помощь поставщиков, властей и городских структур.

Необходимо также установить "широту охвата" плана. Она зависит от многих факторов, в частности, от структуры организации, допустимых затрат, количества имеющихся зданий и т.п.

В основу методологии "Планирование бесперебойной деятельности в случае бедствий" положен прагматический подход, предусматривающий поддержание критически важных процессов. Защита всех аспектов деятельности организации от пагубных последствий в случае бедствий либо нереальна, либо связана с чрезмерными затратами.

Целями проекта по составлению плана, обеспечивающего бесперебойность и восстановление деятельности организации в случае бедствий, являются:

  • Создание методики оценки бизнес-процессов, которая обеспечит разработку плана с помощью хорошо структурированной и всеобъемлющей методологии.
  • Разработка прагматичного, экономичного и работоспособного плана, который обеспечит бесперебойность критически важных процессов в случае серьезного нарушения деятельности организации.

Эффективный план обеспечения бесперебойной деятельности является относительно недорогой формой страхования компаний от последствий возможных бедствий, и затраты на него должны рассматриваться как составляющая необходимых издержек на поддержание нормальной деятельности организации.

Примерное содержание плана

Непременным условием быстрого и успешного восстановления деятельности организации после бедствия является предварительная разработка и регулярное обновление постоянно действующего плана обеспечения бесперебойной деятельности компании. В зависимости от специфики компании и принятой в ней политики подобный план мероприятий может иметь различные формы и названия. Он может состоять из нескольких разделов, отражающих различные направления работ: план подготовки к чрезвычайным ситуациям, план действий в чрезвычайной ситуации, план резервирования и восстановления информации, план восстановления деятельности и т.п. План может также детализироваться по категориям и продолжительности чрезвычайных обстоятельств.

План включает следующие основные разделы:

  1. Основные положения плана.
  2. Оценка чрезвычайных ситуаций:
    • выявление уязвимых мест компании;
    • классификация возможных опасных событий и оценка вероятности их возникновения;
    • сценарии чрезвычайных ситуаций;
    • потенциальные источники отрицательных последствий каждой чрезвычайной ситуации и оценка величины ущерба;
    • набор критериев, на основании которых объявляется чрезвычайная ситуация.
  3. Деятельность компании в чрезвычайной ситуации:
    • первоначальное реагирование на чрезвычайную ситуацию (оценка опасного события, объявление чрезвычайной ситуации, оповещение необходимого круга лиц, ввод в действие чрезвычайного плана);
    • мероприятия, обеспечивающие бесперебойность деятельности компании в чрезвычайной ситуации и восстановление ее нормального функционирования.
  4. Поддержание готовности к возникновению чрезвычайной ситуации:
    • контроль правильности и корректировка содержания плана;
    • составление списка адресов и процедуры рассылки плана;
    • разработка программы повышения квалификации и ознакомления персонала с действиями, необходимыми для восстановления деятельности компании после бедствия;
    • подготовка к опасным событиям, обеспечение безопасности и предотвращение бедствий;
    • регулярное проведение частичных и комплексных проверок (типа пожарных учений) готовности компании к действиям в чрезвычайной ситуации и способности восстановить нормальную деятельность;
    • регулярное создание резервных копий данных, документации, бланков входных и выходных документов и основного программного обеспечения, их хранение в безопасном месте.
  5. Информационное обеспечение:
    • приоритетные функции, выполняемые компанией;
    • списки внутренних и внешних ресурсов - технических средств, программного обеспечения, средств связи, документов, офисного оборудования и персонала;
    • учетная информация о техническом, программном и другом обеспечении, необходимом для восстановления деятельности организации в случае чрезвычайной ситуации;
    • список лиц, которых необходимо оповестить о чрезвычайной ситуации с указанием адресов и телефонов;
    • вспомогательная информация - планы и схемы, маршруты перевозок, адреса и т.п.;
    • описание детальных пошаговых процедур, обеспечивающих четкое выполнение всех предусмотренных мер;
    • функции и обязанности сотрудников в случае возникновения непредвиденных обстоятельств;
    • сроки восстановления деятельности в зависимости от типа возникшей чрезвычайной ситуации;
    • смета расходов, источники финансирования.
  6. Техническое обеспечение:
    • создание и поддержание базы технических средств, обеспечивающей бесперебойную деятельность компании в чрезвычайной ситуации;
    • создание и поддержание в надлежащем состоянии резервного производственного помещения.
  7. Организационное обеспечение, состав и функции следующих групп, обеспечивающих бесперебойную деятельность в случае бедствия:
    • группы оценки чрезвычайной ситуации;
    • группы управления в кризисной ситуации;
    • группы для работ в чрезвычайной ситуации;
    • группы восстановления;
    • группы обеспечения работы в резервном производственном помещении;
    • группы административной поддержки.

Даже простое перечисление элементов плана говорит о серьезности проблемы и объеме работ по его составлению.

Этапы методологии планирования бесперебойной деятельности организации в случае бедствия

Организации, занимающиеся оценкой квалификации специалистов в определенных сферах деятельности, обычно формулируют общий свод знаний специалистов данной профессии. Такой свод знаний имеет абстрактный характер, он стабилен и независим от используемой технологии, что облегчает общение специалистов данной области и устанавливает единые требования к их квалификации.

Освоение общего свода знаний является необходимым, но не единственным доказательством профессиональных способностей. Для успешной сдачи квалификационных экзаменов, проводимых на его основе, необходимо вести профессиональную деятельность и иметь определенные навыки в данной области.

Квалификация должна соответствовать содержанию общего свода знаний.

Материал данной главы основан на разработках Международного института восстановления после бедствия (DRI International). Целью деятельности института является накопление и распространение практического опыта, формулирование базы общедоступных знаний специалистов и организаций, разрабатывающих планы мероприятий по обеспечению бесперебойного функционирования организаций и восстановлению их деятельности после бедствия.

Свод знаний состоит из 9 предметных областей, соответствующих этапам методологии планирования бесперебойной деятельности организации в случае бедствия.

Каждая область содержит следующую информацию:

  • описание предметной области,
  • функции специалиста,
  • квалификацию, которой должен обладать специалист для выполнения своих функций в данной области.

Руководство по составлению плана, обеспечивающего бесперебойное функционирование и восстановление деятельности организации после бедствия

Описание предметной области:

Руководство включает обоснование необходимости выполнения проекта, определяет организационную структуру управления проектом и структуру самого проекта.

Функции специалиста:
  1. Формирование стратегии реализации проекта, т.е. формирование требований, определение масштаба и целей проекта, юридическое обоснование, анализ примеров успешной реализации сходных проектов (best practice);
  2. Разработка бюджета проекта;
  3. Определение организационной структуры управления проектом и структуры самого проекта;
  4. Управление ходом проекта;
  5. Разработка должностных инструкций;
  6. Разработка рекомендаций для руководства и сотрудников по следующим направлениям работ:
    • сотрудничеству с другими организациями;
    • проведению переговоров;
    • поиску компромиссов;
    • выступлению в роли посредника;
    • утверждению документов.
Специалист должен уметь:
  1. Формулировать проблему.
  2. Убеждать в необходимости плана мероприятий, обеспечивающих бесперебойное функционирование организации:
    • обосновывать необходимость проекта;
    • формулировать цель проекта;
    • демонстрировать выгоды от наличия плана;
    • добиваться поддержки со стороны высшего руководства;
    • обеспечивать вовлечение сотрудников в работу над планом.
  3. Формулировать функции высшего руководства.
  4. Разбираться в структуре подчиненности и ответственности различных уровней руководства.
  5. Создавать комитет по руководству планированием:
    • формулировать его функции,
    • определять структуру,
    • обеспечивать управление его деятельностью и развитием,
    • определять его состав.
  6. Разрабатывать требования к обеспечению финансами и человеческими ресурсами.
  7. Устанавливать состав и обязанности группы (групп) планирования.
  8. Разрабатывать и координировать планы действий.
  9. Разрабатывать требования к управлению проектом и его документации.

Оценка риска и управление риском

Описание предметной области:

Выявление событий, которые могут оказать отрицательное влияние на деятельность организации, оценка возможного ущерба и определение мероприятий, необходимых для предотвращения или минимизации потерь.

Функции специалиста:
  1. Выявление потенциальных факторов риска для организации, их вероятности и последствий;
  2. Определение потребности во внешней экспертизе;
  3. Выявление уязвимых мест организации;
  4. Определение альтернативных способов уменьшения риска;
  5. Выявление заслуживающих доверия организаций, оказывающих информационные услуги;
  6. Взаимодействие с руководством с целью определения допустимых уровней риска;
  7. Составление документации и представление полученных результатов.
Специалист должен уметь:
  1. Прогнозировать последствия случайных опасных событий;
  2. Разбираться в следующих источниках потенциального ущерба:
    • естественных,
    • искусственных,
    • случайных,
    • преднамеренных,
    • внутренних,
    • внешних.
  3. Оценивать вероятность ущерба для организации в результате действия различных неблагоприятных факторов;
  4. Определять управляющие воздействия и меры предосторожности для предотвращения или минимизации потерь:
    • знать инфраструктуру и конструкцию зданий;
    • выявлять уязвимые места;
    • обнаруживать неблагоприятные факторы, уведомлять о них и уменьшать их воздействие;
    • проводить кадровые мероприятия;
    • обеспечивать безопасность и контроль доступа на охраняемую территорию;
    • формировать политику резервного архивирования;
    • обеспечивать сохранность и защиту информации, в том числе в вычислительной сети, как аппаратными, так и программными средствами;
    • управлять профилактическим обслуживанием и планировать установку оборудования;
    • обеспечивать дублирование и резервирование систем электропитания,
    • сотрудничать с внешними организациями.
  5. Использовать инструментальные средства анализа риска, позволяющие:
    • определять качественную и количественную оценку риска;
    • сопоставлять выгоды от проведения мероприятий по уменьшению риска и затраты на них;
  6. Использовать разнообразные методы и средства сбора информации:
    • бланки и анкеты;
    • опросы;
    • совещания;
    • просмотр документации;
    • обследования.
  7. Определять вероятность опасных событий, используя различные источники информации и оценивая достоверность соответствующих данных;
  8. Оценивать эффективность управляющих воздействий и мер предосторожности, т.е.:
    • определять соотношение затрат и выгод;
    • анализировать качество процедур реализации мероприятий и управления;
    • осуществлять испытания;
    • проводить ревизию функций и обязанностей.

Анализ последствий бедствий для деятельности организации

Описание предметной области:

Определение последствий нарушения нормального функционирования для организации, количественная и качественная оценка подобных последствий.

Функции специалиста:
  1. Выявление и спецификация функций (бизнес-процессов) организации;
  2. Поиск знающих и заслуживающих доверия специалистов в сфере деятельности организации;
  3. Определение критериев, по которым функции причисляются к разряду критически важных;
  4. Представление критериев руководству для утверждения;
  5. Координация работ по анализу последствий бедствия для деятельности организации;
  6. Выявление взаимосвязей функций;
  7. Определение ограничений процесса восстановления функций:
    • установление приоритетов функций;
    • задание сроков восстановления функций;
    • оценка потерь.
  8. Определение потребностей в информации;
  9. Определение потребностей в ресурсах;
  10. Определение формы отчета;
  11. Подготовка и представление результатов анализа в виде отчета.
Специалист должен уметь:
  1. Определять возможные последствия нарушения нормального функционирования организации:
    • потерю собственности (материальной, информационной);
    • перебои в предоставлении услуг и деятельности организации;
    • нарушения требований законодательства и нормативных документов.
  2. Понимать последствия для организации, касающиеся:
    • финансового положения;
    • взаимодействия с заказчиками и поставщиками;
    • имиджа в глазах общественности;
    • юридических обязательств;
    • выполнения требований и условий нормативных документов;
    • нарушения требований к охране окружающей среды;
    • оперативной деятельности;
    • персонала;
    • прочих ресурсов.
  3. Разбираться в количественных и качественных методах оценки последствий;
  4. Определять критичность функций;
  5. Проводить:
    • количественную оценку:
      • потерь собственности,
      • упущенных доходов,
      • штрафов,
      • потерь из-за нарушения движения денежных средств,
      • дебиторской задолженности,
      • кредиторской задолженности,
      • потерь человеческих ресурсов,
      • дополнительных расходов,
    • качественную оценку:
      • потерь человеческих ресурсов,
      • потерь по юридическим обязательствам,
      • социальных потерь,
      • морального ущерба,
      • утраты доверия.
  6. Определять функции, имеющие критически важное значение для организации, и их взаимосвязь.
  7. Устанавливать приоритетные функции.
  8. Определять минимальные потребности в ресурсах:
    • внутренних,
    • внешних,
    • денежных,
    • дополнительных.
  9. Определять сроки восстановления ресурсов.

Разработка стратегий восстановления деятельности организации

Описание предметной области:

Определение альтернативных стратегий восстановления деятельности организации, которые могут обеспечить сохранение критически важных функций и представление рекомендаций по их выбору.

Функции специалиста:
  1. Выявление имеющихся альтернатив, определение их преимуществ и недостатков, оценка затрат.
  2. Поиск действенных стратегий восстановления функций организации.
  3. Интеграция стратегий.
  4. Формулирование требований к хранению данных и документации во внешнем хранилище и выбор резервных помещений.
  5. Обеспечение поддержки стратегий структурными подразделениями организации.
  6. Представление стратегии руководству и обеспечение его участия в работе.
Специалист должен уметь:
  1. Определять требования к стратегии восстановления деятельности организации по следующим критериям:
    • срокам восстановления;
    • типу стратегии;
    • восстанавливаемым объектам;
    • необходимому персоналу;
    • требуемым средствам связи.
  2. Выбирать подходящую стратегию восстановления из следующих составляющих:
    • не предпринимать никаких действий;
    • отложить действия;
    • использовать ручные процедуры;
    • заключить обоюдное соглашение с другой организацией;
    • использовать резервное рабочее помещение;
    • воспользоваться услугами внешнего вычислительного центра;
    • вступить в консорциум с другими организациями;
    • организовать распределенную обработку данных;
    • использовать альтернативные средства связи.
  3. Выбирать резервное рабочее помещение (помещения) и внешнее хранилище для данных и документов:
    • устанавливать критерии выбора;
    • определять необходимые средства связи;
    • формулировать условия соглашений;
    • разрабатывать методы сравнения;
    • приобретать помещения и технические средства;
    • формулировать условия контрактов.
  4. Проводить анализ затрат и выгод.

Реагирование на чрезвычайную ситуацию

Описание предметной области:

Разработка и внедрение процедур реагирования на чрезвычайное происшествие и предотвращения его развития.

Функции специалиста:
  1. Выявление наличия в организации процедур реагирования на чрезвычайную ситуацию.
  2. Разработка процедур реагирования на чрезвычайную ситуацию в случае их отсутствия.
  3. Интеграция процедур восстановления деятельности после бедствия с процедурами реагирования на чрезвычайную ситуацию.
  4. Определение требований к управлению и контролю при ликвидации последствий чрезвычайной ситуации.
  5. Разработка процедур управления и контроля с четким определением функций, полномочий и процессов обмена информацией, необходимых для ликвидации чрезвычайной ситуации.
Специалист должен уметь:
  1. Разрабатывать процедуры реагирования на чрезвычайную ситуацию, в том числе:
    • обеспечивать готовность к чрезвычайным происшествиям:
      • разрабатывать процедуры реагирования, детализированные по типам бедствий, например:
        • природное бедствие,
        • случайное происшествие,
        • преднамеренное действие,
      • определять полномочия руководства,
      • определять средства, обеспечивающие бесперебойность управления,
      • определять функции выделенного персонала,
    • регламентировать действия в чрезвычайной ситуации, которые состоят в:
      • уведомлении о чрезвычайной ситуации,
      • эвакуации,
      • оказании медицинской помощи,
      • мероприятиях по обращению с опасными материалами,
      • борьбе с катаклизмами (огнем, затоплением и т.п.)
    • обеспечивать:
      • сохранность оборудования и помещений,
      • уменьшение причиненного ущерба,
      • проведение испытаний,
    • определять должностные обязанности,
    • подготавливать отчеты:
      • внутренние:
        • в рамках отдельного подразделения,
        • в рамках организации в целом,
      • внешние:
        • для общественности,
        • для поставщиков.
  2. Определять средства и методы управления и контроля в чрезвычайной ситуации, включая:
    • разработку проекта центра для работы в чрезвычайной ситуации и его оборудования,
    • определение полномочий по управлению и принятию решений в чрезвычайной ситуации,
    • определение необходимых средств связи (радиосвязь, курьерская связь и сотовая телефонная связь),
    • разработку методов регистрации и составления документации.
  3. Разрабатывать процедуры управления центром для работы в чрезвычайной ситуации и контроля его деятельности, охватывающие:
    • открытие центра,
    • обеспечение безопасности центра,
    • составление графика работы рабочих групп центра,
    • управление центром и контроль его деятельности,
    • закрытие центра.

Разработка и внедрение плана, обеспечивающего бесперебойное функционирование организации

Описание предметной области:

Разработка концепции, составление и внедрение плана мероприятий, обеспечивающих бесперебойное функционирование организации.

Функции специалиста:
  1. Планирование деятельности по разработке и внедрению плана.
  2. Организация работ над планом.
  3. Руководство работами над планом.
  4. Контроль и корректировка хода выполнения работ над планом.
  5. Обеспечение работ специалистами.
  6. Внедрение плана.
  7. Испытания плана.
  8. Ведение плана.
Специалист должен уметь:
  1. Определять требования к Плану:
    • применять средства планирования,
    • использовать:
      • должностные инструкции,
      • планы действий,
      • контрольные перечни,
      • матрицы,
      • формы,
      • другую вспомогательную документацию.
  2. Определять требования к руководству и оперативному управлению восстановлением деятельности:
    • концепцию группы восстановления:
      • описание,
      • организация,
      • обязанности членов группы восстановления:
        • координатора восстановления,
        • координаторов работы специализированных групп,
      • обязанности обеспечивающего персонала,
      • требования к резервному центру для работы в чрезвычайной ситуации.
  3. Определять и описывать форму и структуру основных элементов плана.
  4. Подготавливать общее введение к основным положениям плана:
    • общая информация:
      • предисловие,
      • содержание,
      • цели,
      • допущения,
      • общие сведения об обязанностях,
      • испытания,
      • сопровождение,
    • ввод плана в действие:
      • уведомление:
        • первичное,
        • вторичное,
      • процедуры объявления бедствия,
      • процедуры мобилизации,
      • концепция оценки ущерба:
        • первоначальной,
        • детальной,
    • организация группы восстановления:
      • описание,
      • состав,
      • обязанности руководителя,
    • изложение политики,
    • центр для работы в случае чрезвычайной ситуации.
  5. Подготавливать раздел об административном управлении:

    • определять функции обеспечивающих подразделений по восстановлению:
      • обеспечение человеческими ресурсами,
      • обеспечение безопасности,
      • страхование и управление рисками,
      • закупка оборудования и материалов,
      • транспортировка,
      • учет юридических аспектов,
    • регламентировать назначение координатора по связям с общественностью и средствами массовой информации, определив требуемую квалификацию и должностные обязанности, включая:
      • связь с правительственными органами,
      • связь с инвесторами,
    • подготавливать разделы, касающиеся:
      • группы восстановления:
        • состав группы,
        • обязанности членов,
        • необходимые ресурсы,
      • контрольные перечни,
      • технические процедуры.
  6. Разрабатывать план производственной деятельности организации:
    • составлять планы оперативного отдела, включая:
      • основные бизнес функции,
      • мероприятия по вводу плана в действие,
      • действия по восстановлению рабочего помещения, пострадавшего от бедствия, и его возврату в первоначальное состояние,
      • обеспечение сохранности и восстановление информации,
      • потребности конечного пользователя в средствах вычислительной техники,
    • определять элементы программы создания жизненно важных архивов,
    • подготавливать разделы плана, касающиеся действий:
      • группы восстановления:
        • состав группы,
        • обязанности,
        • необходимые ресурсы,
    • разрабатывать планы действий:
      • общие планы отдельных подразделений и индивидуальные планы сотрудников,
      • контрольные перечни,
      • технические процедуры.
  7. Разрабатывать план восстановления информационной инфраструктуры:
    • запуск функционирования резервного центра:
      • управление центром,
      • административное руководство,
      • материально-техническое снабжение,
      • установка нового оборудования,
      • техническое обслуживание,
      • поддержка решения прикладных задач,
      • создание сети,
      • передача данных по сети,
      • оперативная деятельность,
      • обеспечение транспортировки и связи между рабочими помещениями,
      • подготовка данных,
      • оперативное управление производством,
      • установление связи с конечными пользователями,
    • удовлетворение требований конечных пользователей,
    • определение элементов программы создания жизненно важных архивов,
    • планы действий:
      • общие планы отдельных подразделений и индивидуальные планы сотрудников,
      • контрольные перечни,
      • технические процедуры.
    • действия группы восстановления:
      • состав группы,
      • обязанности,
      • необходимые ресурсы.
  8. Разрабатывать планы обеспечения бесперебойной работы систем связи.
  9. Разрабатывать планы обеспечения бесперебойной работы прикладных систем конечных пользователей.
  10. Устанавливать процедуры распространения, контроля и корректировки плана.
  11. Внедрение плана:
    • разработка программы обучения сотрудников:
      • типовые рекомендации,
      • функции и обязанности сотрудников,
      • процедуры,
      • ознакомление с планом и практическое обучение предусмотренным в нем мероприятиям,
      • проведение презентаций,
    • выполнение необходимых работ:
      • приобретение дополнительного оборудования,
      • заключение контрактов,
      • подготовка резервных копий и обеспечение хранения данных и документов во внешнем хранилище,
    • разработка планов и графиков проведения испытаний, а также процедур отчетности,
    • разработка процедур ведения и обновления плана и соответствующей отчетности.

Ознакомительные программы и практическое обучение персонала организации

Описание предметной области:

Реализация программы по ознакомлению персонала с проблемой обеспечения бесперебойного функционирования организации и повышение квалификации персонала в части внедрения, реализации и ведения плана обеспечения бесперебойного функционирования организации.

Функции специалиста:
  1. Определение целей и элементов программы обучения.
  2. Задание функциональных требований к обучению.
  3. Разработка методики обучения.
  4. Разработка программы ознакомления персонала с проблемой обеспечения бесперебойного функционирования организации.
  5. Приобретение и разработка учебных пособий.
  6. Выявление и использование возможностей обучения вне организации.
  7. Определение материалов и способов ознакомления персонала с проблемой обеспечения бесперебойного функционирования организации.
Специалист должен уметь:
  1. Определять цели обучения.
  2. Разрабатывать программы обучения различных типов:
    • с использованием вычислительной техники,
    • в учебном классе,
    • на базе тестов.
  3. Разрабатывать ознакомительные программы:
    • для руководства,
    • для членов группы,
    • для вновь принятого сотрудника.
  4. Определять другие возможности обучения:
    • профессиональные конференции и семинары по планированию бесперебойного функционирования,
    • участие в работе групп пользователей,
    • публикации.

Испытания плана и проведение учений по реализации плана

Описание предметной области:

Заблаговременное планирование учений по реализации плана, проведение учений по реализации и испытанию плана, оценка и документирование результатов испытаний и учений.

Функции специалиста:
  1. Заблаговременное планирование испытаний.
  2. Координация проведения испытаний.
  3. Оценка испытаний плана.
  4. Проведение учений по реализации плана.
  5. Составление документации о результатах.
  6. Оценка результатов.
  7. Корректировка плана.
  8. Информирование руководства о результатах испытаний и их оценке.
Специалист должен уметь:
  1. Разрабатывать программу испытаний.
  2. Определять требования к испытаниям:
    • цели и критерии оценки успешности испытаний,
    • типы испытаний (преимущества и недостатки):
      • имитационное моделирование и комплексные испытания,
      • частичные,
      • функциональные,
      • с предварительным извещением,
      • без предварительного извещения,
    • определение и описание содержания испытаний,
    • развитие и расширение испытаний,
    • частота проведения испытаний,
    • обеспечение материально-технического снабжения, транспортировки и заблаговременного планирования.
  3. Разрабатывать реалистичные сценарии испытаний:
    • разрабатывать сценарии испытаний, приближенные к обстановке возможных чрезвычайных происшествий и предусматривающие разрешение всех возникающих проблем,
    • проводить для членов группы практическое обучение по выполнению новых функций с принятием решений, которые выходят за рамки их обычных должностных инструкций,
    • проводить учения по открытию резервного центра для работы в чрезвычайной ситуации, созданию средств связи, проведению регистрации и составлению документации:
      • восстановление:
        • оценка ущерба,
        • восстановление рабочих помещений,
        • восстановление оборудования,
        • создание условий работы,
        • спасение и возврат в первоначальное состояние (использование услуг специалистов),
        • страхование.
  4. Устанавливать критерии оценки результатов испытаний:
    • наблюдение,
    • регистрация,
    • оценка:
      • сопоставление ожидаемых и фактических результатов,
      • разработка рекомендаций по корректировке плана.

Ведение и обновление плана

Описание предметной области:

Разработка процедур, которые поддерживают план в актуальном состоянии, обеспечивающем бесперебойное функционирование организации.

Функции специалиста:
  1. Участие в совещаниях по стратегическому планированию.
  2. Координация работ по ведению плана.
Специалист должен уметь:
  1. Разбираться в стратегических направлениях деятельности.
  2. Устанавливать критерии корректировки плана:
    • периодическая корректировка,
    • при возникновении значительных перемен,
    • по результатам испытаний.
  3. Вести план:
    • владеть инструментальными средствами,
    • контролировать действия сотрудников,
    • проводить корректировки,
    • проводить ревизию и контроль.
  4. Вести отчетность о состоянии плана.
  5. Устанавливать процедуры доведения плана до всех сотрудников и контроля их исполнения.

Примеры планов обеспечения бесперебойной работы систем обработки информации

В настоящее время деятельность всех без исключения компаний осуществляется с использованием информационных технологий.

Восстановление локальной вычислительной сети после бедствия

Для того, чтобы восстановление функционирования ЛВС проходило организованно, быстро и без каких-либо непредвиденных задержек, необходимо иметь четкий план на случай чрезвычайных обстоятельств. Каждый план должен иметь, как минимум, следующие разделы:

Титульный лист. Официальное наименование плана, учетный номер, даты составления, изменений и утверждений, фамилии руководителей и исполнителей.

Цель. Краткое описание целей составления плана, ЛВС, для которой он предназначен. "Основные положения" плана позволяют каждому, кто возьмет план в руки, быстро получить представление о нем.

Общие стратегии. В этом разделе приводятся общее описание плана, а также:

  • Процедуры первоначальной оценки ситуации и ввода плана в действие.
  • Набор критериев, на основании которых объявляется бедствие.
  • Перечень обязанностей сотрудников при восстановлении ЛВС.
  • Общий перечень действий, выполняемых координатором восстановления ЛВС и другими ведущими сотрудниками.
  • Общий перечень восстановительных работ, обеспечивающих либо организацию работы ЛВС в резервном центре, либо восстановление ее функционирования в производственном помещении, потерпевшем ущерб.
  • Сводная оценка ущерба и сведения о необходимых работах по ремонту оборудования ЛВС.
  • Время, требуемое на восстановление функционирования.

Учетная информация. Она может содержать различные типы учетных данных. Например, стандартную конфигурацию сервера, стандартную конфигурацию рабочей станции, структуру каталогов, прочие данные о конфигурации, список идентификаторов, связанных с сервером, копии системных файлов для каждой рабочей станции, а также любые другие типы учетных данных, которые помогут осуществить восстановление ЛВС.

Состав группы восстановления после бедствия. Список всех лиц, которые будут принимать участие в восстановлении ЛВС, с указанием имени, домашнего адреса, домашнего телефона, рабочего телефона, номеров пейджера и сотового телефона, если они есть. В этот же список должны быть включены наименования, адреса и номера телефонов компаний-поставщиков. Можно включить также адреса и номера телефонов руководителя и другие "полезные" номера.

Заблаговременные мероприятия. Список мероприятий, которые нужно проводить задолго до возникновения бедствия, чтобы уменьшить опасность его возникновения и возможные последствия. Одним из таких важнейших мероприятий является создание резервных копий. В плане должно быть указано, когда осуществляется создание резервных копий, куда они пересылаются, когда пересылаются, как должна выглядеть этикетка на носителях резервных копий и все то, что может потребоваться при реальном создании резервных копий. Стандартизация этикеток и носителей облегчит работу тем, кто будет хранить копии, и тем, кому придется восстанавливать по ним информацию. Данные на этикетках должны гарантировать, что носитель может быть легко доставлен из помещения с вашей ЛВС в место внешнего хранения и обратно и что им можно будет легко пользоваться.

Процедуры восстановления ЛВС. В этом разделе указываются требуемые действия в непредвиденных обстоятельствах и мероприятия по восстановлению функционирования ЛВС в различных ситуациях. Даются рекомендации по правильному использованию материалов плана. Должно быть оставлено место для отметки о выполнении каждого этапа с указанием имени ответственного, даты и, возможно, времени выполнения. Это гарантирует, что ни один этап не будет упущен.

Ведение плана. Этот раздел должен устанавливать процедуры ведения плана, в частности частоту корректировки соответствующей документации плана и лицо, ответственное за данное действие. Кроме того, даются рекомендации по составлению плановых документов, их рассылке и обучению методам составления и ведения плана. Если процедуры ведения определяются общими процедурами, установленными в компании, на них может быть сделана ссылка.

Испытания плана. В этом разделе описывается, что должно испытываться при проверке реализуемости плана, кто должен проводить испытания, когда должны осуществляться испытания и каковы их результаты. План испытаний может быть общим или состоять из отдельных частей. Некоторые разделы этого плана могут являться разделами других общих планов.

Приложения. - Содержат различные формы, соглашения и т.п.

Даже в таком схематичном виде приведенный выше вариант плана будет весьма полезным для большинства ЛВС и не требует больших затрат на разработку, потому что может быть составлен с помощью обычного текстового редактора.

При составлении плана восстановления ЛВС после бедствия следует придерживаться известного принципа "Keep It Simple Stupid" ("Стремитесь к простоте, - не мудрствуйте"). Правда, если у вас вообще нет плана восстановления, простота, конечно же, доведена до предела, а вот насчет мудрости...

План создания резервных копий и восстановления информации в ЛВС

Когда дело касается создания резервных копий информации для вычислительной сети, некоторые организации предпочитают рисковать. Отношение, как правило, меняется, когда с ЛВС случается катастрофа.

"Время - деньги". Справедливость этой поговорки становится особенно очевидной, когда из-за отказа ЛВС нарушается нормальная деятельность всей организации. По оценке Джеффа Конца, системного администратора компании Itron Corp. (США), выпускающей портативные компьютеры, при неработоспособности ЛВС его компания теряет примерно 25000 долларов в час.

Регламенты резервного копирования могут различаться. Целесообразно создавать полные резервные копии исходных текстов программ и критически важных приложений один раз в неделю, а инкрементное копирование - каждую ночь. Для проверки качества резервных копий на ленте, нужно регулярно восстанавливать скопированную информацию на другом компьютере.

Производительность системы резервного копирования и восстановления информации не должна отставать от наращивания мощности вычислительных средств компании.

Несмотря на то, что конкретные регламенты резервного копирования и восстановления информации в разных компаниях различны, наличие четкого плана проведения соответствующих работ является абсолютно необходимым.

В плане указываются: временные регламенты создания резервных копий, места хранения, вид этикеток на носителях и все, что может потребоваться при реальной работе, связанной с восстановлением данных. Стандартизация этикеток и носителей облегчит работу тем, кто будет хранить копии, и тем, кому придется восстанавливать по ним информацию. Данные на этикетках должны гарантировать, что носитель может быть легко доставлен из помещения с вашей ЛВС в место внешнего хранения и обратно и что им можно будет легко пользоваться.

Решающее значение при составлении плана имеет определение приоритетов. После анализа затрат следует проанализировать системные требования и задать приоритеты, учитывающие такие факторы, как объем и перечень имеющихся данных, для которых нужно создавать резервные копии. На основе проведенного анализа и заданных приоритетов распределяются ресурсы системы резервного копирования.

Реализация плана создания резервных копий должна быть повседневной заботой компании.

Зачастую неэффективность этого плана выявляется только тогда, когда происходит бедствие. Чтобы этого не случилось, необходимо регулярно проводить процедуры проверки типа "пожарных учений". Поскольку эти процедуры по восстановлению информации довольно трудоемки, для проведения их испытаний рекомендуется воспользоваться специальным программным обеспечением.

Планирование действий в непредвиденных обстоятельствах для систем обработки банковской информации

В сфере обработки банковской информации планирование действий в непредвиденных обстоятельствах необходимо для того, чтобы свести к минимуму ущерб, который может быть нанесен неожиданными и нежелательными событиями, влияющими на обработку данных. Подобные ситуации складываются как в результате бедствий, которые трудно предотвратить, и вероятность возникновения которых относительно мала, так и в результате прогнозируемых и довольно часто происходящих событий, например отказов технических средств или электрического питания. Цель планирования действий в непредвиденных обстоятельствах заключается в том, чтобы свести к минимуму отрицательные последствия, независимо от масштаба нежелательных событий. Наша зависимость от вычислительных систем выросла до такой степени, что возврат к ручной обработке данных, если он вообще возможен, приведет к неприемлемым потерям времени и средств.

Отправной точкой в планировании действий в непредвиденных обстоятельствах является установление принципов, которых необходимо придерживаться при создании такого плана. Успешная реализация плана может дать огромные выгоды. Для предотвращения губительных последствий любых бедствий необходимо:

  • знать взаимосвязи между всеми элементами цикла обработки информации;
  • иметь общие представления о вероятности каждого неблагоприятного события;
  • заблаговременно принять меры, направленные на минимизацию размера потерь;
  • сохранять резервные копии файлов;
  • совершенствовать условия функционирования системы обработки данных;
  • регулярно обновлять документацию;
  • обеспечить стандартизацию технического и программного обеспечения;
  • разработать процедуры на случай чрезвычайных ситуаций;
  • учитывать в технической политике требования к резервированию и восстановлению системы.

В плане должен быть описан поэтапный процесс плавного и максимально быстрого возобновления деятельности.

В плане действий в непредвиденных обстоятельствах необходимо предусмотреть его увязку с планом готовности к чрезвычайным ситуациям и их предупреждения. Эти планы следует разрабатывать во взаимосвязи с учетом приемлемой степени риска и затрат.

Основной целью составления плана действий в непредвиденных обстоятельствах является распределение обязанностей (кто, что, когда и как должен делать) для сохранения работоспособности организации.

Проект плана следует предоставить для анализа и утверждения высшему руководству.

Роль руководства

При составлении плана требуется значительный вклад со стороны подразделений, занимающихся обработкой данных. Однако процесс планирования в целом должен начинаться и заканчиваться на уровне высшего руководства.

Высшее руководство хорошо понимает уязвимость современной банковской технологии, базирующейся на вычислительной технике, и в связи с этим осознает необходимость составления плана действий на случай непредвиденных обстоятельств. Основная функция руководства - поддержка подобного планирования и назначение подразделения, которое должно этим заниматься.

Первым шагом является подготовка меморандума, отражающего позицию руководства. Такой меморандум может, например, гласить: "Каждое оперативное и административное подразделение несет ответственность за компьютерные системы сбора и обработки данных, от которых зависит работа банка. Поскольку эти системы обеспечивают функционирование банка, руководители оперативных подразделений должны понимать, что для них безостановочная работа компьютерных систем имеет большее значение, чем для руководителей подразделений, отвечающих за обработку данных". Разработка плана требует времени, терпения и прямого участия руководителей всех уровней. Нужно сформировать руководящий комитет из представителей всех направлений деятельности, который будет давать рекомендации по вопросам политики.

Для непосредственного составления плана действий в непредвиденных обстоятельствах можно создать особое подразделение, состоящее из руководителя и небольшой группы помощников. После окончания разработки плана руководитель группы может быть назначен координатором по планированию действий в непредвиденных обстоятельствах, подчиненным руководству службы обработки данных.

Заметим, что участие руководства должно быть постоянным, только в этом случае можно предотвратить устаревание плана и сохранить его пригодным к использованию.

Составление плана действий в непредвиденных обстоятельствах

План действий в непредвиденных обстоятельствах не может быть разработан одним человеком. Для гарантии успеха координатор должен иметь не только поддержку со стороны руководства, но и группу подчиненных. Эти сотрудники должны обладать определенным набором знаний в данной области. Нужно иметь в виду, что в случае бедствия восстановление работоспособности потребует затрат времени и средств, а одной из целей плана будет являться минимизация этих затрат.

В плане обязательно должны быть указаны следующие сведения:

  • имена, адреса и номера телефонов ведущих сотрудников;
  • цели и обязанности сотрудников при восстановлении деятельности;
  • списки необходимых внешних ресурсов, включая технические средства, программное обеспечение, средства связи, данные, документы, офисное оборудование, документацию и персонал;
  • вспомогательная информация - маршруты перевозок, карты, адреса и т.п.;
  • процедуры, детально описывающие, как должны проводиться мобилизация персонала и восстановительные работы;
  • административная деятельность по координации работ, связанных с восстановлением;
  • процедуры постоянной корректировки и испытаний плана;
  • список адресов для рассылки плана.

Детализировать план нужно до такой степени, чтобы максимально упростить принятие решений.

Следует ежеквартально проводить актуализацию плана, поддерживая точность приведенных в нем сведений. Аналогичным образом регулярно уточняется потребность в технических средствах и программном обеспечении для основных и резервных производственных помещений. Ответственность за ведение, испытания, обновление и рассылку плана возлагается на координатора. Испытания можно проводить в два этапа: сначала испытывать каждый элемент плана, а затем имитировать бедствие и испытать план целиком. При этом очень важным фактором остаются затраты.

Руководство должно исходить из того, что неблагоприятные события рано или поздно неизбежны. В связи с этим необходимо осуществить затраты, направленные на принятие мер предосторожности, которые сведут к минимуму отрицательные последствия неблагоприятных событий. Эти затраты в некоторой степени можно оправдать, если использовать план действий в непредвиденных обстоятельствах в целях маркетинга: демонстрировать крупным клиентам, что такой план существует и постоянно корректируется, обеспечивая тем самым бесперебойное функционирование банка в любых обстоятельствах.

Распространено мнение, что затраты на подобное планирование обычно не должны превышать 1% общих затрат на обработку данных, однако их конкретная величина устанавливается в соответствии с политикой организации.

Обследование деятельности

Перед составлением плана необходимо провести обследование деятельности банка, чтобы определить:

  • список жизненно важных прикладных задач и их приоритеты;
  • список ресурсов, обеспечивающих обработку данных, и их приоритеты;
  • потенциально опасные события и вероятность их наступления;
  • возможные денежные убытки в случае чрезвычайных ситуаций.

К возможным опасным событиям относятся:

  • отказ системы кондиционирования воздуха;
  • отказ электрического питания;
  • отказ оборудования;
  • отказ системы телекоммуникации;
  • наводнение;
  • пожар;
  • гражданские беспорядки;
  • вандализм или саботаж;
  • кража;
  • пикетирование компании;
  • чрезвычайные происшествия, которые приводят к повреждению здания, оборудования и материалов;
  • забастовки;
  • локальные военные конфликты.

В плане должны быть описаны конкретные действия, которые необходимо предпринять в каждом из выбранных, в качестве возможных угроз, обстоятельств.

Косвенные убытки в результате подобных внешних воздействий трудно оценить количественно, однако можно указать некоторые их потенциальные источники:

  • увеличение эксплуатационных расходов;
  • потеря клиентов;
  • потеря имущества;
  • публикация неблагоприятной информации;
  • потеря прибыли;
  • утрата престижа;
  • потеря конкурентоспособности;
  • невыполнение требований законов и нормативных документов.
Приоритетность прикладных задач

Чтобы установить порядок, в котором следует решать производственные задачи при ограниченном количестве ресурсов, для каждой из них должен быть установлен приоритет.

Список приоритетов может, например, быть таким:

  • Приоритет 1 - задания, которые должны выполняться в соответствии с установленным графиком.
  • Приоритет 2 - задания, которые могут выполняться при наличии времени и ресурсов.
  • Приоритет 3 - задания, которые не должны выполняться в случае бедствия.

Окончательное решение о приоритетах принимает руководство с учетом рекомендаций руководящего комитета. После их определения необходимо указать ресурсы, требуемые для выполнения этих заданий (персонал, материалы, оборудование). Все эти данные вносятся в план действий в непредвиденных обстоятельствах.

Условия функционирования

В плане надо указать ресурсы, необходимые для обработки данных:

  • конфигурацию технических средств;
  • системную конфигурацию;
  • сеть телеобработки;
  • программное обеспечение, включая системное, прикладное и для передачи данных;
  • документацию (для программ, эксплуатации и пользователя);
  • потребности в персонале.

При этом нужно учитывать и будущее развитие системы обработки данных.

Хранение документации и данных вне производственного помещения

Это одна из самых важных частей плана! Резервное место хранения должно быть безопасным и удаленным от основного помещения. В плане необходимо предусмотреть наличие резервных экземпляров следующих документов и данных:

  • документации на прикладные системы, программы и операционную систему,
  • исходных текстов программ и объектных кодов,
  • библиотек процедур,
  • библиотеки операционной системы,
  • основных файлов,
  • файлов изменений,
  • форм всех входных и выходных документов в достаточном количестве,
  • руководства для действий в непредвиденных обстоятельствах,
  • учетной ведомости технических средств,
  • программного обеспечения.

При покупке пакетов программ следует по возможности приобретать тексты программ на исходном языке, чтобы обезопасить себя от непредвиденного прекращения поставщиком своей деятельности.

Продолжительность чрезвычайной ситуации

Не менее важным фактором является длительность периода неработоспособности. Нужно предусмотреть варианты различной продолжительности неработоспособности системы и для каждого из них разработать свой план действий.

Эти варианты делятся на три основные категории:

  • кратковременная неработоспособность (до 6 часов);
  • неработоспособность средней продолжительности (от 6 до 24 часов);
  • длительная неработоспособность (свыше 24 часов).

Решение о конкретной величине периодов должно принимать руководство.

Как правило, кратковременная неработоспособность не требует переезда в резервное производственное помещение, но влечет за собой изменение графика работы сотрудников, оборудования, транспорта и т.д. Однако иногда оценить период неработоспособности бывает трудно. В этом случае благоразумно сразу же начать подготовку к переезду в резервное производственное помещение, чтобы при необходимости его можно было быстро осуществить. Для этой цели руководство должно постоянно контролировать ситуацию и определять, когда нужно приступить к выполнению плана на случай бедствия более высокой категории. Заблаговременное предупреждение о вводе в действие другого плана сделает переход в следующий режим работы плавным и облегчит работу тем, кто его реализует.

Восстановление вычислительного центра

Планирование и выполнение работ, связанных с реализацией плана действий в непредвиденных обстоятельствах, требует больших усилий. Не меньше усилий потребуется и на обратный переезд в исходное помещение, здесь нужна такая же организованность. До некоторой степени можно сказать, что план действий в непредвиденных обстоятельствах реализуется дважды: первый раз - при переезде в резервное производственное помещение, а второй раз - при переезде в исходное место.

Каждый план действий в непредвиденных обстоятельствах всегда разрабатывается с учетом конкретных условий, в которых функционирует система обработки данных, и имеющихся технических ресурсов. Тем не менее, план должен охватывать все аспекты, перечисленные выше.

Разработка и ведение плана действий в непредвиденных обстоятельствах является чрезвычайно кропотливым, сложным и ответственным делом. Однако эти затраты труда и средств нельзя считать выброшенными на ветер, потому что для банковских систем, как ни для каких других, справедлив принцип "Время - деньги!" и от быстроты восстановления их нормальной деятельности может зависеть будущее банка.

Заключение

Руководители организации или компании являются хранителями ее интересов. Они должны применять качественные методы управления, которые обеспечат получение прибыли, должное качество продукции и услуг, стабильность и развитие организации в интересах заказчиков, служащих и инвесторов. Если нештатная ситуация может поставить под вопрос само существование организации, то вряд ли ее руководство справляется со своими обязанностями.

При отсутствии эффективного "Плана обеспечения бесперебойной деятельности организации в случае нештатных ситуаций" могут возникнуть следующие проблемы и опасности:

  • Прерывание деятельности организации, которое влечет за собой неспособность обслуживания имеющихся заказчиков, потерю перспектив для бизнеса, уменьшение существующего круга заказчиков, утрату престижа и потерю конкурентоспособности.
  • Финансовый ущерб из-за невозможности обрабатывать счета дебиторов, штрафов за задержку платежей, упущенных скидок, неспособности обновлять балансы счетов и потерянных или неучтенных продаж.
  • Юридическая ответственность из-за невыполнения обязательств по контрактам.
  • Прекращение деятельности организации.

Под "планированием бесперебойной деятельности организации в случае нештатных ситуаций" понимается "выявление и защита критически важных бизнес-процессов и ресурсов, необходимых для поддержания деятельности организации на нужном уровне, а также разработка процедур, которые обеспечат выживание организации при нарушении ее нормальной деятельности".

Для обеспечения бесперебойной деятельности необходимо учитывать все взаимосвязанные внешние и внутренние функции, в том числе ручные методы учета и обработки информации.

Целями проекта по составлению плана, обеспечивающего бесперебойность и восстановление деятельности организации в случае бедствий, являются:

  • Оценка бизнес-процессов, которая обеспечит разработку плана с помощью хорошо структурированной и всеобъемлющей методологии.
  • Разработка экономичного и работоспособного плана, который обеспечит бесперебойность критически важных бизнес-процессов в случае серьезного нарушения деятельности организации.
  • Минимизация последствий любого бедствия для организации.

Эффективный план обеспечения бесперебойной деятельности является относительно недорогой формой страхования компаний от последствий возможных бедствий, и затраты на него должны рассматриваться как составляющая необходимых издержек на поддержание нормальной деятельности организации.

. Источники информации по проблемам обеспечения бесперебойной деятельности организаций в случае бедствий

В настоящее время в России нет государственной организации, которая систематически занимается вопросами распространения знаний в области обеспечения бесперебойной деятельности организаций и компаний в случае бедствий. В тоже время в Интернет имеется множество WEB-серверов, посвященных данному вопросу, перечислим только несколько из них:

  1. http://www.bcp.ru - русскоязычный информационный портал по вопросам управления и планирования непрерывности бизнеса. Его создали и ведут сертифицированные специалисты в области управления непрерывностью бизнеса (квалификация MBCI по версии международного института непрерывности бизнеса). В Англии the Business Continuity Institute, BCI, http://www.the bci.org, из российского представительства компании KPMG, а также аудита и контроля информационных систем (квалификация CISA по версии Международной ассоциации аудита и контроля информационных систем), Information Systems Audit and Control Assosiation, ISACA, http://www.isaca.org .
  2. http://www.dr.org - сервер Международного института восстановления после бедствия (Disaster Recovery Institute International - DRI International, ранее DRI).

    Международный институт восстановления после бедствия (DRI International) был создан в 1988 г. при Вашингтонском университете. Он является некоммерческой организацией, которая занимается обучением и выдачей квалификационных свидетельств в области восстановления деятельности организаций после бедствия.

    Основными направлениями деятельности института являются:

    • создание соответствующего Общего свода знаний и распространение информации;
    • первичное обучение в области обеспечения бесперебойной деятельности организации в случае бедствия;
    • непрерывное повышение квалификации специалистов;
    • выполнение роли ведущей организации по экспертизе соответствующих стандартов.
  3. http://www.drj.com - сервер независимого американского журнала по вопросам восстановления после бедствия (Disaster Recovery Journal).

    Disaster Recovery Journal, или DRJ - журнал по вопросам восстановления после бедствия, выпускается с 1987 года. Он имеет более 40 000 подписчиков и содержит почти 100 страниц.

    С 1989 г. DRJ проводит ежегодные конференции. В настоящее время в них принимает участие свыше 2000 человек, приезжающих со всего мира, эти конференции являются крупнейшими в данной области.

    Web-сервер DRJ помимо статей из двух последних номеров журнала содержит массу полезной информации: телеконференцию, описание продуктов и консультационных услуг, список фирм и организаций, работающих в рассматриваемой области, список Web-серверов на данную тему и т.д.

    http://www.fema.gov - сервер Федерального агентства по управлению чрезвычайными ситуациями США (Federal Emergency Management Agency - FEMA).

    На сервере имеется раздел, посвященный проблеме уменьшения пагубных последствий бедствия, информация о происшедших бедствиях, телеконференции по различным темам, данные о конференциях и семинарах, перечень курсов обучения, проводимых FEMA, справочная литература и т.п.

  4. http://www.iaem.com - сервер Международной ассоциации менеджеров чрезвычайных ситуаций. Это некоммерческая образовательная организация, распространяющая знания по методам спасения жизни людей и имущества в чрезвычайных обстоятельствах.
  5. http://www.sba.gov/disaster - раздел сервера Администрации малого бизнеса США, посвященный планированию непрерывности бизнеса.

Определяющей частью функционирования любой информационной системы является наличие современной материально-технической базы, в данном случае средств вычислительной техники и средств коммуникаций. Сейчас попробуем освятить этот вопрос применительно к состоянию дел в администрации Рыбинска.


  1. Аппаратное обеспечение.
В настоящее время в здании администрации используется около 100 рабочих станций (без учета компьютеров департамента финансов). 45 % этого парка уже перешли барьер технического и морального износа, еще 15% приблизились к этому пределу.

В первую очередь наблюдается несоответствие требований к вычислительной технике и решаемых на ней задач в следующих подразделениях администрации: общий отдел, департамент строительства и инвестиций, управление экономического развития. Помимо морального износа компьютеров (технические характеристики не обеспечивают требований установленных операционных систем и программного обеспечения), присутствует износ механический (это касается лазерных принтеров и электронно-лучевых мониторов).

Не все службы администрации укомплектованы компьютерами в достаточном количестве по числу сотрудников, осуществляющих документооборот, электронную корреспонденцию и выполняющих другие задачи, связанные с наличием вычислительной техники. Также не все подразделения обеспечены достаточным количеством принтеров и оптических устройств ввода информации (сканеров).

Принятие неотложных мер по исправлению сложившейся ситуации не терпит отлагательств. Чтобы безнадежно не отставать от требований, выдвигаемых техническим прогрессом в отрасли высоких технологий, необходимо ежегодно подвергать замене примерно пятую часть парка вычислительной техники.

Таким образом, по прошествии пяти лет будет завершаться цикл технического переоснащения, рекомендованный и диктуемый условиями развития рынка компьютерной индустрии. Примерная расчетная стоимость одного рабочего места составляет 27-29 тысяч рублей без учета программного обеспечения, таким образом годовые затраты на переоснащение парка вычислительной техники составят примерно 550-600 тысяч рублей.

Помимо приобретения новой техники для установки на рабочие места, необходимо создать резервный фонд средств вычислительной техники, заменяемых частей и расходных материалов, используемый в случае экстренных ситуаций, связанных с потерей работоспособности отдельных единиц действующего парка и обеспечения неотложных задач (например, при изменениях в структуре администрации или обеспечение избирательных комиссий).

2. Программное обеспечение.

Работа персональных компьютеров невозможна без соответствующего современного программного обеспечения. Операционные системы и офисные программные продукты, установленные на каждом рабочем месте, должны приобретаться как непременный компонент компьютера. Если специализированные программы, требующее поддержки производителем (например продукты 1С), приобретаются легально, то продукты Microsoft, установленные на каждом компьютере в настоящее время в администрации нелицензированы.

В силу недостаточного финансирования приоритеты сдвигались в пользу приобретения дополнительных аппаратных средств, экономя на программных. Ситуацию упрощает то, что особенно дорогостоящие продукты, необходимые для обеспечения работы серверов, заменены на свободно распространяемые и в чем-то более эффективные и производительные продукты семейства Unix. Использование их на рабочих станциях не приемлемо в силу достаточной сложности их освоения персоналом и проблем совместимости.

В последнее время в стране ужесточились требования по соблюдению авторских прав, созданы структуры при правоохранительных органах, осуществляющих контроль за соблюдением действующего законодательства в этой сфере. Поэтому необходимо срочное исправление текущей ситуации.

Стоимость необходимого минимума программного обеспечения составляет около трети стоимости компьютера. Существенной экономии средств можно достичь, участвуя в программе Microsoft по лицензированию продуктов для государственных и образовательных учреждений, приобретая только право использования продуктов, без носителей и документации.

Все вышесказанные решения относительно приобретения вычислительной техники и лицензионного программного обеспечения могут выступать как рекомендации для всех подразделений отдельных юридических лиц администрации.


  1. Локальная и корпоративная сеть.
Локально-вычислительная сеть (ЛВС) в здании администрации спроектирована и смонтирована в 2000 году, с учетом существующих на тот момент потребностей (витая пара, 100 мегабит). С тех пор произошло много изменений в организационной структуре администрации, добавилось более половины рабочих станций от прежнего количества (всего около 150). Ввиду того, что финансирование работ по монтажу сети было сокращено вдвое, она была построена, чтобы удовлетворить задачи текущего момента, без перспектив на дальнейшее развитие. И поэтому, уже давно мы столкнулись со следующими проблемами:

Высокая сегментированность сети. Недостаточное количество соединений в кабельной структуре и узкие межстенные отверстия делают невозможным подключение рабочих станций к существующему активному оборудованию. Используется просто добавление новых активных устройств, практически в каждый кабинет, что вызывает дополнительные ошибки в работе сети (коллизии). Соединительные провода кладутся поверх кабельных каналов, следствием чего является неэстетичный вид рабочих мест.

Возросший объем передачи данных по сети. Узким местом становятся участки между этажными и центральным коммутаторами.

Необходимо финансирование на поэтапную модернизацию ЛВС, которая включает в себя:

Замену активного оборудования на устройства со скоростью передачи 1 Гбит/с, с приоритизацией трафика и расширенными функциями управления;

Перекладка сегментов сети с учетом количества рабочих мест и одновременная прокладка дополнительных кабельных соединений с расчетом внедрения в перспективе IP телефонии и оборудования средств пожарной и охранной сигнализации (в первую очередь в левом крыле второго этажа, где размещаются департаменты строительства и инвестиций и управление экономического развития);

Модернизация и замена серверного оборудования, установка средств обеспечения бесперебойного питания и устройств сетевого хранения данных для резервного копирования.
4. Связь между подразделениями администрации.

Подразделения администрации размещаются в зданиях, территориально удаленных друг от друга. В настоящие время по арендованной медной паре (технология DSL, скорость передачи данных 0,5–2 Мбит/с) объединены ЛВС администрации и ЛВС следующих служб:

Департамент ЖКХ, транспорта и связи (Стоялая, 19);

Департамент недвижимости, департамент по управлению земельными ресурсами (связь с управлением градостроительства и архитектуры отсутствует),(Крестовая, 77);

Централизованные бухгалтерии управления образования (Крестовая, 19) и департамента здравоохранения и фармации (Преображенский пер., 2);

Департамент по социальной защите населения (нет связи с управлением по делам образования и департаментом здравоохранения и фармации, расположенными в этом здании),(Крестовая, 139);

Департамент культуры и спорта (Чкалова, 89)

Не осуществлено подключение (в том числе и из-за отсутствия технических возможностей):

Отдел ЗАГС (Гоголя, 10);

Отдел по делам несовершеннолетних и защите их прав (Расплетина,9);

Архивный отдел (Ухтомского, 8).

Большой проблемой является отсутствие высокоскоростного подключения к зданию по адресу Крестовая,77, где расположены службы, непосредственно заинтересованные в использовании единой информационной системы. Решением может быть объединение ЛВС департаментов в этом здании и организация радиоканала со зданием администрации (Рабочая, 1). Скорость передачи данных - 50 Мбит/с, стоимость оборудования и монтажных работ – 150-200 тыс. рублей.

Перспективным решением была бы прокладка волоконно-оптического кабеля по столбам электрического освещения от здания администрации (Рабочая, 1) до здания общественно-культурного центра (Чкалова,89). По предварительной оценке, стоимость разработки технического задания проекта по прокладке кабеля и его реализации составит 1.7-2.0 млн. рублей. Это позволило бы связать высокоскоростным каналом передачи данных (не менее 100 Мбит/с) все перечисленные выше подразделения администрации и создать внутреннюю телефонную корпоративную сеть с единой нумерацией, которая бы интегрировалась в цифровую телекоммуникационную сеть органов власти Ярославской области и решить в ближайшем будущем высокоскоростной обмен информации по линии административного управления всех уровней, в том числе создания Единой диспетчерской службы и систем оповещения ГУ МЧС.
5. Подготовка персонала

В заключение хотелось бы заострить внимание на следующем моменте. Для эффективного решения всех задач, связанных с информационными технологиями и просто использованием вычислительной техники, необходима соответствующая подготовка персонала. Непременным условием этого видится ввод в штатное расписание всех крупных структур администрации на уровне департаментов и управлений квалифицированных сотрудников, осуществляющих системное администрирование и обеспечивающих оперативный контроль за работоспособностью вычислительной техники и локально-вычислительных сетей, отвечающих за информационное взаимодействие. Сейчас этого нет в департаменте ЖКХ транспорта и связи и департаменте по культуре и спорту.

Помимо этого обязан добавить, что возросший объем работ по администрированию сети администрации с учетом требований к безопасности и защите информации требует большого количества времени и необходимо срочно вводить в структуру центра информатизации штатную единицу для решения этих вопросов.

Для любой компании крайне важна бесперебойная работа ее IT-инфраструктуры, особенно серверов и установленного на них программного обеспечения. Прекращение доступа к Интернет, электронной почте, базам данных и другим приложениям неминуемо приведет к серьезным сбоям в бизнес-процессах компании.

Для обеспечения стабильной работы приложений серверное оборудование должно отвечать высоким требованиям по надежности. Одним из основных методов повышения надежности сервера является резервирование его подсистем путем дублирования компонентов: процессора, оперативной памяти, сетевых подключений, дисковых и твердотельных накопителей, устройств охлаждения, блоков питания. Отказ дублированного компонента не приводит к отказу сервера в целом, но может снизить его производительность. Устранение неисправности обычно выполняется без остановки работы сервера путем "горячей" замены отказавшего компонента.

Однако полное резервирование в рамках традиционной серверной архитектуры невозможно. Такие компоненты сервера как системная плата и контроллер дисков обычно не дублируются. Поэтому их выход из строя будет означать отказ сервера в целом и, как следствие, аварийную остановку всех приложений. Какова вероятность такой ситуации?

Надежность сервера определяется параметром MTBF — средним временем наработки на отказ. MTBF сервера можно вычислить теоретически — на основании известных значений MTBF серверных компонентов. С помощью данного метода мы рассчитали MTBF типового сервера и получили значение, равное 10 годам (детали расчета). Для такого сервера вероятность выхода из строя в течение одного года будет равна 10%.

Согласно статистике нашего сервисного центра серверы Team имеют среднее время наработки на отказ 25 лет, коэффициент готовности 99,99% и вероятность выхода из строя в течение одного года около 4%. При этом в отличие от "теоретического" расчета наша статистика учитывает любые отказы, в том числе и отказы дублированных компонентов, которые не приводят к отказу сервера в целом.

Очевидно, что столь высокие показатели надежности вполне достаточны для обеспечения устойчивой работы серверных приложений и соответствуют потребностям большинства компаний малого и среднего бизнеса.

Однако для некоторых компаний внеплановая остановка бизнес-приложений (пусть даже очень маловероятная) неприемлема. Например, одним из клиентов нашей компании является предприятие непрерывного цикла с численностью работников 150 человек. Производственный процесс на предприятии управляется при помощи специализированного серверного приложения. Остановка этой программы означает остановку производства. Восстановление работоспособности приложения после аппаратного или программного сбоя может занять несколько часов и на протяжении этого времени производство будет простаивать. Поэтому требуется обеспечить гарантированную непрерывность работы этого приложения как необходимое условие непрерывности всего бизнес-процесса.

Переход на виртуальную платформу VMware позволяет решить эту задачу.

Предлагаемое решение основано на использовании кластера двух (или более) серверов с общей системой хранения. В таком кластере все компоненты (в том числе компоненты системы хранения) продублированы. Восстановление работы приложений в случае отказа одного из серверов обеспечивается средствами виртуализации.

В штатном режиме на каждом сервере работает свой набор приложений, каждое приложение — в отдельной виртуальной машине. Все приложения изолированы друг от друга и не влияют на работу других приложений. Виртуальные машины и данные, с которыми они работают, хранятся на общем дисковом массиве, доступ к которому имеют оба сервера. Распределение виртуальных машин по серверам изначально задается администратором. Им же для каждой виртуальной машины выделяется часть аппаратных ресурсов сервера, при этом коэффициент загрузки каждого сервера может достигать 70-80%.

Непрерывность работы приложений обеспечивается средствами виртуальной платформы, которые осуществляют постоянный мониторинг виртуальных машин. В случае остановки виртуальной машины из-за отказа сервера она автоматически перезапустится на другом сервере. После устранения причины отказа и включения сервера виртуальные машины автоматически вернутся на "свой" сервер без прерывания работы.

Данное решение позволяет выполнять плановые работы по техническому обслуживанию серверов без остановки приложений. Перед выключением сервера его приложения "переезжают" на другой сервер, а после завершения работ возвращаются обратно.

Важным достоинством данного решения является его универсальность, поскольку оно подходит для любых приложений и не накладывает практически никаких ограничений на тип гостевых операционных систем виртуальных машин. Этим оно выгодно отличается от службы кластеров Microsoft Windows Server. Другими преимуществами решения являются более эффективное использование аппаратных ресурсов серверов, а также простота внедрения и администрирования.

Состав решения

Решение по обеспечению непрерывной работы серверных приложений на виртуальной платформе VMware включает следующие компоненты:

  1. Два (или более) сервера Team . Все серверы Team совместимы с платформой VMware.
  2. Дисковый RAID-массив с полным резервированием подсистем.
  3. VMware Essentials Plus Kit в качестве платформы виртуализации.
  4. Лицензии на операционные системы в соответствии с количеством виртуальных машин.
  5. Необходимые пользователю серверные приложения.

В рамках внедрения данного решения наша компания готова выполнить следующие работы:

  1. Подбор конфигурации серверов с требуемым уровнем производительности.
  2. Подбор системы хранения.
  3. Поставку серверов, системы хранения и другого необходимого оборудования.
  4. Поставку программного обеспечения.
  5. Монтаж и подключение оборудования.
  6. Установку и настройку платформы виртуализации.
  7. Установку и настройку виртуальных машин, операционных систем и приложений.
  8. Тестирование системы и ввод в эксплуатацию.
  9. Сопровождение в рамках гарантийного обслуживания и, по желанию, по договору аутсорсинга.

В составе решения мы бесплатно предоставим восемь часов работы сертифицированного специалиста VMware и Microsoft для консультаций, обучения и работ по внедрению решения.