Технические основы концепции отказоустойчивости Stratus ftServer

982 0 0

В статье даётся обзор технических особенностей отказоустойчивых систем Stratus ftServer. Описаны концепция решения и механизмы обеспечения отказоустойчивости.

Афонин Игорь

Потребность в высокой доступности IT-решений постоянно растёт. Это обусловлено прежде всего тем, что цена простоя современного высокотехнологичного производства становится всё выше.
Как показали исследования, проведённые Aberdeen Group в 2010, 2012 и 2013 годах, стоимость простоя оборудования значительно увеличилась всего в течение двух лет и продолжает расти с каждым годом (рис. 1).
Рис. 1. Средняя стоимость одного часа простоя высокотехнологичного производства, по данным Aberdeen Group

Рис. 1. Средняя стоимость одного часа простоя высокотехнологичного производства, по данным Aberdeen Group

Это связано с глобализацией экономики, высокой интеграцией производственных процессов и постоянно растущей производительностью. Географически разнесённые подразделения компаний требуют систем и приложений, работающих круглосуточно. Любой простой информационной системы и недоступность сервисов приводят к потере продуктивности.
На современном высоком уровне автоматизации и интеграции производственных процессов при постоянном росте производительности (выпуска продукции в единицу времени) даже небольшой простой какого-либо цикла непрерывного производства влечёт за собой значительные финансовые потери, связанные с недополученной прибылью и затратами на восстановление технологического процесса. Таким образом, главным требованием к современным системам становится минимизация времени простоя, а в идеале сведение его к нулю.
Как было описано в [1], наиболее эффективным методом повышения надёжности является резервирование. Существуют различные решения для повышения надёжности систем – от одиночного (Standalone) сервера с резервированием компонентов, обеспечивающих функционирование вычислительных ресурсов, таких как блоки питания, вентиляторы системы охлаждения и жёсткие диски, до систем с резервированием самих вычислительных ресурсов, реализованных в виде отказоустойчивых кластеров (Failover Cluster) на базе стандартного серверного программного обеспечения VMware и Microsoft Windows Server, имеются также отказоустойчивые (Fault Tolerance) решения на базе программного обеспечения промежуточного уровня – Stratus everRun.
Каждое решение имеет свои преимущества и недостатки, и все они широко применяются для задач определённого класса и уровня доступности.
Отказоустойчивая система Stratus ftServer кардинально отличается от приведённых решений для обеспечения отказоустойчивости вычислительных ресурсов. Её ключевым отличием является обеспечение отказоустойчивости не программным способом на уровне виртуальных машин (уровень гипервизора), а благодаря оригинальному архитектурному решению на уровне аппаратных ресурсов, что, в свою очередь, позволяет использовать Stratus ftServer как отказоустойчивую платформу для виртуализации с использованием стандартных гипервизоров от VMware и Microsoft.

Особенности системы Stratus ftServer

Начав с выпуска тяжёлых UNIX-серверов, компания Stratus переориентировалась на быстрорастущий рынок Windows- и Linux-серверов. Основным критерием при разработке системы было достижение высокого уровня доступности для приложений (99,9999%) на стандартной архитектуре Intel x86, возможного ранее только для проприетарных решений на UNIX-подобных системах.
Для обеспечения высокого уровня доступности необходимо комплексное решение. Оно основывается на разработанной компанией Stratus технологии непрерывности процессов – Stratus Continuous Processing Technology. Это результат многолетнего опыта работы в области обеспечения непрерывного функционирования критически важных приложений.
Система Stratus ftServer построена на базе двух специально спроектированных (технология Lockstep) отказоустойчивых серверов (Fault Tolerant Server), программных средствах повышения готовности (Automated Uptime Layer) и интегрированной сервисной архитектуре (ActiveService Architecture) с проактивным управлением доступностью (Proactive Availability Management). Вместе они обеспечивают комплексное решение для высокой доступности (рис. 2).
Рис. 2. Технология Stratus Continuous Processing

Рис. 2. Технология Stratus Continuous Processing

В данной статье рассматриваются технические особенности аппаратного обеспечения системы Stratus ftServer.
Следует отметить, что Stratus ftServer – это коммерческий продукт, поэтому при его разработке были заданы определённые рамки, которые иногда ограничивают технические возможности для повышения экономических характеристик. Целью разработки было создание простого решения для обеспечения высокой доступности на основе стандартных компонентов.
Под стандартными компонентами в дальнейшем понимаются:

распространённые на рынке процессорные технологии, а именно архитектура Intel x86;
стандартные наборы микросхем процессорной логики (чипсет);
современные технологии шин передачи данных и памяти (USB, PCI, DIMM);
стандартные PCI Express-адаптеры и стандартные технологии работы с накопителями (SAS – Serial Attached SCSI);
стандартные серверные операционные системы без модификаций, не зависящие от аппаратных средств;
существующие (стандартные и широко распространённые) технологии для повышения доступности.

При разработке преследовались следующие цели:

обеспечение доступности аппаратных средств и операционной системы на уровне более 99,9999%;
непрерывная работа системы, несмотря на сбои и ошибки, которые могут возникнуть в отдельных аппаратных средствах;
отсутствие единой точки отказов (SPOF – Single Point Of Failure);
возможность замены частей системы в процессе эксплуатации без прерывания работы приложений и с минимальным снижением производительности и функционала;
удалённое, в режиме онлайн, обновление микропрограммного обеспечения и компонентов операционной системы;
гибкость при внедрении новых технологий (новых поколений процессоров, новых версий интерфейсов и типов памяти);
единый образ сервера – развёртывание на сервере только одной стандартной операционной системы.

Исходя их этих критериев, в 1999 году было разработано техническое решение, которое успешно применяется до сих пор, позволяя постоянно обновлять системы Stratus ftServer с выходом новых процессоров Intel, а также по мере совершенствования и появления новых технологий.
Свои первые серверы под Windows на процессорах Intel Xeon компания представила в 2001 году, и на текущий момент выпущено 8 поколений системы на основе процессоров Intel Xeon E5-2600 v3 архитектуры Haswell. Правильность выбранного подхода подтверждает постоянный прирост производительности систем от поколения к поколению с выходом новых процессоров Intel.
На рис. 3 показана производительность систем разных моделей и поколений относительно ftServer 2500: 2XXX – модели начального уровня, 4XXX – универсальная модель промежуточного уровня, 6XXX – высокопроизводительная модель.
Рис. 3. Относительная производительность систем разных поколений процессоров Intel относительно ftServer

Рис. 3. Относительная производительность систем разных поколений процессоров Intel относительно ftServer

Архитектура решения

Основные принципы обеспечения аппаратной отказоустойчивости, реализованные в системах Stratus ftServer, можно описать следующим образом.

Удвоение числа (дублирование) компонентов – технология DMR (Dual Modular Redundancy).
Синхронизация параллельных потоков данных через эти компоненты – технология Lockstep.
Сравнение потоков данных: если потоки данных одинаковые, то компоненты исправны, отклонения свидетельствуют о неисправности.

Дублирование компонентов

Для устранения единой точки отказов в системах Stratus ftServer продублированы все компоненты. Такая избыточность реализована простым способом: используются два независимых, автономно работающих (с точки зрения электрических компонентов) сервера. Физически два сервера высотой 2U установлены в одно шасси высотой 4U с возможностью «горячей» замены (CRU – Сustomer Replaceable Unit), которые в терминологии Stratus ftServer [2] также называются CPU-IO Enclousures и соединены между собой пассивной объединительной платой (Сommon System Backplane), рис. 4.
Рис. 4. Общая компоновка системы ftServer

Рис. 4. Общая компоновка системы ftServer

Данный конструктив исключает наличие единой точки отказа, так как все компоненты системы продублированы и работают автономно, независимо друг от друга. Единственный недублированный компонент системы – это объединительная плата, которая выполнена в виде пассивной (то есть не имеющей активных элементов) печатной платы. По сути это просто электрический соединитель, вероятность его выхода из строя очень мала. Более того, даже если по каким-либо причинам он откажет (например, в результате физического воздействия), это не приведёт к сбою системы, так как он не участвует в процессе обработки информации, а только обеспечивает отказоустойчивость. Как и выход из строя любого дублированного компонента, приводящего к потере отказоустойчивости, такая ситуация диагностируется системой и требует оперативной замены неисправного компонента для её восстановления.

Технология Lockstep

Систему Stratus ftServer можно рассматривать как два независимых автономных компьютера с общей шиной PCI и логикой сравнения. Для операционной системы Stratus ftServer выглядит как единый компьютер, причём каждая половинка «видит» все устройства PCI. Как ранее упоминалось, основная идея этого подхода состоит в том, чтобы использовать стандартные, то есть широко распространённые компоненты, разработанные для каждого типа процессоров. В дополнение к стандартным вычислительным модулям (половинкам системы) имеются только связь между ними и логика сравнения, реализованные в дополнительной микросхеме (ASIC – Application Specific Integrated Circuit), которая для обеспечения отказоустойчивости тоже продублирована.
Технология Lockstep гарантирует, что все ошибки (в том числе и неповторяющиеся) будут обнаружены и при сбое модуля процессор–память не произойдёт прерывания в работе системы или потери данных либо состояния. В случае неисправности компонента его партнёр продолжит нормальную работу и обеспечит непрерывность функционирования системы.
Отказоустойчивая архитектура построена на основе собственной разработки компании Stratus – чипсете Albireo (название по имени двойной звезды в созвездии Лебедя) на базе трансиверов Stratix IV GX.
Каждый сервер (CPU-IO Enclosure) логически состоит из процессорного модуля (CPU Element) и модуля ввода-вывода (I/O Element), физически установленных на системной плате. Процессорный модуль – это процессор и память. Модуль ввода-вывода – это устройства PCI и SCSI, а также сетевой контроллер (рис. 5).
Рис. 5. Логическая организация системы ftServer

Рис. 5. Логическая организация системы ftServer

Применены различные подходы к реализации отказоустойчивости. Логика работы построена так, что модули функционируют независимо и в случае отказа какого-либо из них перекрёстно могут обеспечить непрерывную работу системы.

Процессорный блок

Синхронизация процессоров и оперативной памяти между двумя материнскими платами достигается за счёт так называемой технологии Lockstep, которая гарантирует, что начиная с заданного момента времени резервные компоненты всегда находятся в одинаковом состоянии в каждый момент времени. Они будут функционировать (идти) «шаг в шаг», как солдаты в строю.
Для начала работы обе части системы необходимо привести в одно начальное состояние. Это осуществляется в несколько этапов.
Загрузка первой части системы
Сначала загружается одна часть системы (один сервер из пары), в то время как вторая находится в состоянии ожидания без каких-либо действий. Первым шагом после включения является выполнение процедуры самотестирования POST (Power-On Self-Test).
Если проверка была успешной, то начинается обычный процесс загрузки сервера. После того как первая часть системы полностью загрузилась, в том числе и операционная система, от логики сравнения посылается сообщение драйверу системы о том, что первая часть находится в рабочем состоянии без резервирования (Single) и ждёт ввода в эксплуатацию второй части, которая пока находится в состоянии обслуживания (Maintenance).
Включение второй части системы
Драйвер вводит в эксплуатацию вто-рую часть системы. Проводится диагностика, если есть проблемы, тест повторяется. При этом счётчик ошибок увеличивается. При достижении максимального количества ошибок системная плата считается неисправной (Broken).
Проверка версии BIOS
После того как диагностика успешно пройдена, проверяется, совпадают ли версии прошивок на системных платах. В случае замены системной платы после аппаратного сбоя может оказаться, что новая плата будет иметь другую, обычно более свежую прошивку, чем та, на которой работает система. В этом случае выполняется понижение (даунгрейд) версии прошивки до той, на которой работает система. Это делается для того, чтобы избежать возможных проблем, связанных с использованием непротестированных версий прошивок, исходя из принципа «что раньше было хорошо, и сейчас ещё хорошо». Более того, в некоторых производственных отраслях, например таких, как фармацевтика и химическое производство, нормы и требования по контролю качества и соответствия выпускаемой продукции требуют при изменении компонентов, участвующих в производственном процессе, к которым относится и прошивка системной платы, провести полную сертификацию производственного процесса.
Синхронизация оперативной памяти
На следующем этапе содержимое оперативной памяти первого сервера передаётся второму. Это делается во время работы, на лету – без прерывания выполнения запущенных программ. Поскольку в то же время происходит обработка информации и содержимое памяти во время передачи может меняться, используется специальный алгоритм. Сначала выполняется передача содержимого всей памяти, так называемая фаза Brownout, а затем повторная передача модифицированных страниц (Dirty Pages). Алгоритм Brownout интерактивный, поэтому, если страницы памяти интенсивно меняются и их невозможно передать за заданное число проходов, то доступ к ним приостанавливается – это так называемая фаза Blackout, когда они «замораживаются» и передаются на другой сервер. Всё происходит в течение нескольких десятков микросекунд и практически незаметно для приложения.
Дуплексный режим
После синхронизации процессоры и оперативная память находятся в одинаковом исходном состоянии и одновременно запускаются в работу. С этого момента логика синхронизации контролирует оба вычислительных узла и ведёт их шаг в шаг по технологии Lockstep. Система переходит в дуплексный режим (Duplex).
Изоляция сбоев
Дальше для контроля сбоев вступает в работу логика сравнения. С момента перехода в дуплексный режим благодаря технологии Lockstep системы работают независимо друг от друга и полностью синхронно, используя данные из одного источника (одного дискового массива). Интеллектуальный арбитр – специаль-ный чипсет Stratus Albireo – сверяет результаты операций, в случае расхождения выбирает правильный результат и изолирует сбойный компонент, который определяется на основе мониторинга в реальном масштабе времени более 500 параметров системы и отслеживания цепочки событий (сообщения, датчики, триггеры).
Система пытается самостоятельно восстановить работоспособность с минимальными усилиями. Так, если сбой происходит в оперативной памяти, например, какое-то несоответствие в определённый момент времени, то система пытается перевести её в синхронный режим, выполняя кратковременное затемнение участка соответствующей области памяти. Если этого сделать не удалось, данный компонент помечается как неисправный и требуется его замена. Если сбой удалось устранить, то система продолжает работу, а счётчик ошибок компонента (счётчик MTBF – Mean Time Between Failures) увеличивается. Далее выполняется алгоритм работы со счётчиками MTBF.

Блок ввода-вывода

В отличие от вычислительного блока в блоке ввода-вывода используются различные каналы (протоколы) и устройства. И в связи с тем, что далеко не каждый протокол подходит для технологии Lockstep, а также не существует стандартных протоколов, позволяющих привести PCI-адаптеры в одинаковое начальное состояние, реализовать технологию, похожую на Lockstep, не представляется возможным, поэтому для блока ввода-вывода применяются разные виды резервирования в зависимости от вида канала (протокола) ввода-вывода.
Для серверов существует четыре основных класса каналов ввода-вывода:

дисковый ввод-вывод;
сетевой интерфейс (Ethernet);
консольные интерфейсы (VGA, USB);
другие асинхронные и синхронные интерфейсы.

Рассмотрим процессы, происходящие в блоке ввода-вывода, по аналогии с процессами в блоке центрального процессора/памяти.
Включение первого блока
После включения модули ввода-вывода получают команду на тестирование. Если результат теста отрицательный, автоматически выполняется попытка ввести в эксплуатацию другую плату. В случае успешного тестирования проверяются все PCI-устройства, а также совместимость со стандартом PCI Express. Если полной совместимости нет, эти адаптеры исключаются, так как надёжная работа не гарантируется и заметно ухудшается отказоустойчивость. Для обеспечения высокой готовности необходимо использовать только сертифицированные PCI-устройства. Не прошедшие тестирование адаптеры объявляются неисправными.
Загрузка
После того как плата заработала (в одиночном режиме – Simplex), процессорный модуль получает доступ к загрузочному диску. Может оказаться, что из-за аппаратных сбоев загрузочный диск не будет найден. Это состояние будет перехвачено по таймеру и будет выполнена попытка загрузиться с другого модуля ввода-вывода (режим отказоустойчивой загрузки).
Включение второго блока
После того как операционная система загрузилась, устанавливаются драйверы диагностики и обслуживания и инициализируется ввод в эксплуатацию второго модуля ввода-вывода. Выполняется диагностика системной платы и затем всех PCI-устройств.
Проверка прошивок
После успешного тестирования системной платы выполняется проверка прошивки платы ввода-вывода (не PCI-устройств). Она аналогична по смыслу процедуре, описанной для процессорного блока. Что касается прошивки PCI-адаптеров, считается, что пары адаптеров имеют нужные прошивки до установки в систему.
Инициализация состояния избыточности
После того как все PCI-адаптеры активированы, то есть включены драйверы адаптера (драйвер физического устройства), выполняется процедура установки состояния избыточности для пар PCI-адаптеров. Эта избыточность достигается через виртуальный драйвер устройства, причём опять-таки, насколько возможно, используются стандартные, широко распространённые на рынке продукты.
Перед тем как использовать драйвер для ftServer, Stratus подвергает его строгому тестированию и в случае отрицательных результатов требует устранения проблем от поставщика устройства. Этот процесс называется «закалкой» драйверов.
Помимо стабильности, Stratus тестирует возможности драйвера по «горячей» замене устройства. Это необходимо для обеспечения возможности заменить в любой момент неисправное устройство ввода-вывода, причём так, чтобы операционная система после замены смогла определить его как исправное. Кроме того, необходима поддержка драйвером ряда сообщений для управления и мониторинга PCI-устройств (например, для индикации состояния: одиночный, дуплекс или неисправно).
Состояние отказоустойчивости
Когда все пары PCI-адаптеров находятся в состоянии избыточности, считается, что модули ввода-вывода работают в дуплексном режиме (Duplex).
Теперь рассмотрим немного подробнее четыре класса каналов ввода-вывода и механизмы реализации избыточности с помощью виртуального драйвера.
1. Дисковый ввод-вывод

Внутренние диски в ftServer подключены через SAS-контроллер. При этом в каждом блоке ввода-вывода есть один контроллер, который управляется драйвером физического устройства. Над физическим драйвером находится виртуальный драйвер, разработанный Stratus, который в операционной системе представляет два физических диска в виде одного. Каждая операция чтения/записи через виртуальный драйвер происходит параллельно и физически выполняется одновременно для двух дисков, то есть все внутренние диски объединены в массив RAID 1 для обеспечения избыточности.
Внешние системы хранения данных обеспечивают равномерное распределение нагрузки и резервирование путей доступа к внешней памяти и берут на себя управление доступом к данным в случае отказа посредством соответствующих программ управления, например, для EMC при помощи PowerPath. Для ftServer избыточность обеспечивается резервированием контроллеров и путей доступа к системе хранения.

Если подключение к системе хранения происходит не напрямую, а через SAN (Storage Area Network), необходимо резервировать пути и использовать не менее двух коммутаторов.
Резервирование хранения данных возлагается на саму систему хранения, то есть необходимо убедиться, что видимые для операционной системы логические диски (LUN – Logical UNit) хранятся на избыточных дисках (RAID 1, RAID 5 и т.д.) и потеря одного из физических дисков не приведёт к утрате данных.
2. Сетевой интерфейс
В локальной сети для резервирования используется специальное программное обеспечение групповой работы сетевых интерфейсов – Teaming Software. Встроенный PCI LAN-адаптер на чипсете Intel использует продукт Intel Pro Teaming для Windows-систем. В Linux для совместной работы имеется функция Bonding.
По умолчанию отказоустойчивые группы (команды) Adapter Fault Tolerant (AFT) объединяют два или более физических адаптера Ethernet в один логический, связанный с виртуальным адаптером внутри операционной системы.
В одной AFT-команде все адаптеры имеют один MAC-адрес и один IP-адрес. Один адаптер является основным (принимает и передаёт данные), остальные только принимают. Формируются два постоянных потока данных, отправляемых от процессора через шину PCI каждому виртуальному адаптеру. Один из потоков данных передаётся в локальную сеть, однако для резервирования используются два. Если происходит отказ по маршруту через первый адаптер, то с помощью программного обеспечения групповой работы (Teaming Software) происходит переключение на второй адаптер. Также в Teaming Software отображается резервирование локальной сети на основе отказоустойчивых коммутаторов (SFT – Switch Fault Tolerance).
3. Консольные интерфейсы (нерезервированные устройства)
Третий класс охватывает так называемые неизбыточные (нерезервированные) устройства: мышь, клавиатуру и монитор. Соответствующие PCI-адаптеры для VGA- и USB-портов находятся в блоке ввода-вывода. Через объединительную плату они электрически соединены с соответствующим разъёмом. Если один блок ввода-вывода будет выведен из работы, выходы переключаются на другой.
В видеоподсистеме поток видеоданных с помощью виртуального драйвера идёт на два VGA-адаптера. При переключении происходит кратковременная потеря изображения на экране монитора, связанная с синхронизацией нового видеосигнала.
Мышь и клавиатура используют функцию «горячего» подключения (Hot-Plug) протокола USB. Если выходит из строя блок ввода-вывода, к которому осуществляется доступ по USB, то происходит переключение шины USB к другому блоку. После этого выполняется сканирование шины USB и подключение нового устройства. Для таких устройств, как USB-мышь и USB-клавиатура, процедура безопасна и не влияет на работу системы, но следует избегать использования USB-дисков, которые при переключении могут потерять данные, передаваемые в этот момент, что может привести к нарушению работы операционной системы.
4. Другие асинхронные и синхронные интерфейсы
Для четвёртого класса пока ещё нет отказоустойчивых драйверов и процедур. Если есть необходимость, например, в нескольких COM-интерфейсах и нужно обеспечить отказоустойчивость системы, то требуется использование преобразователей протоколов для отказоустойчивой работы через протокол Ehernet.

Счётчики MTBF

Важным элементом обеспечения отказоустойчивости является предупреждение отказов. В системе Stratus ftServer применяется специальная методика, использующая счётчики средней наработки на отказ MTBF, которая позволяет заменить компонент системы, не дожидаясь его отказа. Средним временем безотказной работы является усреднённое время, в течение которого устройство работает без ошибок (рис. 6).
Рис. 6. Циклограмма состояния устройства

Рис. 6. Циклограмма состояния устройства

Ключевой особенностью системы является то, что она оперирует не с расчётными (статистическими) значениями MTBF компонентов, а с реальными, получаемыми в процессе эксплуатации системы. Система Stratus ftServer автоматически рассчитывает MTBF как время работы компонента, делённое на количество отказов, которое определяется системной переменной MinFaults. При этом считается только время фактической работы. Время простоя не учитывается, то есть, хотя используется термин MTBF, система фактически оперирует не со средним временем работы между отказами, а со средним временем наработки до отказа. Такой подход позволяет избежать завышения реального MTBF.
Например, если устройство выходит из строя в момент времени t₁ = 3 ч, возвращается к работе при t₂ = 5 ч и снова выходит из строя при t₃ = 17 ч, то время безотказной работы между двумя неисправностями (между 3 ч и 17 ч) составляет 12 ч, а не 14 ч, так как между моментами времени t₁ = 3 ч и t₂ = 5 ч устройство не работало.
Для примера рассчитаем величину времени безотказной работы для следующих значений, собранных системой:

отказ 1 – время работы 11 часов;
отказ 2 – время работы 17 часов;
отказ 3 – время работы 8 часов;
отказ 4 – время работы 4 часа.

Среднее время безотказной работы будет рассчитываться следующим образом: (11 + 17 + 8 + 4) / 4 = 40 / 4 = 10 часов.
Итак, значение MTBF для компонентов системы получено. То, что дальше происходит с компонентом в системе, зависит от того, какой порог значения MTBF был для него установлен: порог изоляции (вывода из эксплуатации – eviction) или порог замены (replacement).
Если MTBF устройства превышает порог изоляции, система исключает его из функционирования, пока оно не будет заменено, или, в случае программных сбоев ввода-вывода, до тех пор, пока система сможет выполнить корректирующие действия и изменить его состояние на исправное. В этом случае генерируется сообщение о необходимости замены компонента. Если MTBF устройства превышает порог замены, система сигнализирует об этом, но сохраняет его в работе, пока оно не будет заменено.
Порог замены всегда выше, чем порог удаления. Это сделано для того, чтобы выявлять моменты, когда устройство начинает сбоить и может стать причиной отказа, но оно ещё сбоит недостаточно часто для автоматического вывода из функционирования. Система сохраняет устройство в работе до его замены или до появления возможности его замены.

Типы выявляемых ошибок

Система Stratus ftServer выявляет следующие типы ошибок:

ошибки в процессорном модуле и модуле ввода-вывода;
необходимость замены/изоляции;
корректируемые/некорректируемые ошибки;
ошибки микросинхронизации (без порога изоляции);
программные ошибки ввода-вывода, требующие изоляции (без порога замены, возникают только в Windows-системах).

Специальные алгоритмы декодируют ошибки устройств, определяют тип ошибки, сообщают о них операционной системе, которая обновляет соответствующие расчётные значения и, исходя из них, выполняет соответствующие действия.

Встроенный инструментарий

Для комплексной регистрации состояния системы используется специальный встроенный инструментарий. Для операционной системы Windows пользовательский интерфейс администратора для конфигурирования, управления и визуализации состояния реализован в ftServer Management Console (ftSMC) – подключаемом модуле для стандартной консоли Microsoft Management Console (MMC), который может выполняться как локально на любой системе ftServer, так и удалённо на любой системе Windows.
Для каждого элемента системы ftSMC отображает текущую наработку на отказ, которая позволяет анализировать причины отказа системы (рис. 7).
Рис. 7. Отображение MTBF для подсистемы центрального процессора на консоли ftSMC

Рис. 7. Отображение MTBF для подсистемы центрального процессора на консоли ftSMC

Заключение

Реализованная в системах ftServer архитектура обеспечения отказоустойчивости позволяет достичь высоких показателей доступности при минимальных затратах. Стандартная архитектура Intel x86 и единый образ сервера позволяет использовать без модификации любые широко распространённые приложения (SCADA-системы, серверы исторической информации, SQL-серверы и др.), для которых требуется только одна лицензия операционной системы и одна лицензия для приложения.
Решения на базе ftServer, не требующие специальных навыков для эксплуатации системы, с одной стороны, и гарантирующие высокую доступность, с другой, обеспечивают значительно более низкую стоимость владения по сравнению с другими, в том числе и стандартными кластерными решениями. ●

Литература

И. Афонин. Решение AdvantiX Intellect для обеспечения высокой доступности информационных систем // Современные технологии автоматизации. – 2013. – № 4.
StrataDOC Online Documentation Service for Stratus Products [Электронный ресурс] // Режим доступа : http://stratadoc.stratus.com/

Автор – сотрудник
фирмы ПРОСОФТ
Телефон: (495) 234-0636
E-mail: info@prosoft.ru

982 0 0