Фильтр по тематике

Устойчивость IBM PC совместимых контроллеров к радиационным сбоям на орбитах космических аппаратов

В статье обсуждается проблема возникновения сбоев в бортовых IBM PC совместимых контроллерах, обусловленная влиянием заряженных высокоэнергетичных частиц (протонов, ядер и ионов химических элементов) космического пространства. Для некоторых орбит космического аппарата с использованием расчётной методики сделан прогноз частоты сбоев оперативной памяти процессорной платы 2133 фирмы Octagon Systems. Даны рекомендации по способам защиты центрального бортового компьютера от влияния последствий сбоев.

Введение

Соответствие IBM PC совместимых процессорных плат индустриального уровня, используемых в составе бортовых систем космических аппаратов (КА), более жёстким требованиям по сравнению с гарантированными их производителями по части устойчивости к механическим воздействиям, условиям глубокого вакуума, накопленной дозе радиации и т.д., обеспечивается специальными конструкторскими и системными решениями.

Одним из важнейших дополнительных требований к процессорным платам, работающим на борту КА, является необходимость разработки повышенных мер защиты от сбоев во время выполнения рабочей программы. Эти сбои возникают вследствие попадания в чувствительные области элементов СБИС высокоэнергетичных (с энергией более 1 МэВ) частиц (ВЭЧ) космического пространства (КП).

Вероятность проявления этих эффектов в СБИС бортовой аппаратуры возникает сразу же после старта КА (в отличие от дозовых эффектов) и не может быть существенно снижена посредством разумного увеличения толщины защитных экранов. Она зависит от величины и вида энергетического спектра потока ВЭЧ и от типов используемых СБИС с учётом их функционального назначения, технологии изготовления, архитектуры и степени интеграции.

Отличительной особенностью архитектуры IBM PC совместимых контроллеров является загрузка операционной системы и рабочих программ с твердотельных дисков (ТД) в оперативную память перед началом работы и хранение их вместе с обрабатываемыми данными в процессе вычислений. В качестве оперативной памяти используется КМОП СБИС динамической памяти высокой степени интеграции, а в качестве ТД – СБИС флэш-памяти.

СБИС динамической памяти служат основными источниками сбоев контроллера на борту КА из-за высокой вероятности инверсий логического состояния ячеек памяти при попадании в них ВЭЧ. В то же время вероятность сбоев процессора, контроллеров, ПЗУ и других СБИС из-за «случайных» ионизационных эффектов значительно ниже (более чем на два порядка), а вероятность инверсий логического состояния ячеек флэш-памяти ТД практически равна нулю [1]. Учитывая всё это, в дальнейшем для количественных оценок сбоев контроллера рассматриваются только сбои, возникающие в его оперативной памяти.

Высокоэнергетичные частицы КП на орбитах КА

Источниками ВЭЧ в околоземном космическом пространстве являются три основных радиационных поля, отличающихся своим происхождением и характеристиками потоков частиц [2, 3]:

  • естественный радиационный пояс Земли (ЕРПЗ);

  • галактические космические лучи (ГКЛ);

  • солнечные космические лучи (СКЛ).

Пространственное распределение потоков частиц этих радиационных полей в околоземном КП в плоскости, перпендикулярной плоскости эклиптики, схематически изображено на рис. 1.


ЕРПЗ состоит из протонов и электронов, захваченных магнитным полем Земли, однако только протоны ЕРПЗ являются источником сбоев. В основном потоки этих частиц сосредоточены в области экватора (на широтах порядка ±30...45°) из-за диполеподобной конфигурации магнитного поля Земли. Высота нижней границы области распространения данных потоков варьируется в пределах ~300...1000 км в зависимости от долготы и широты, достигая наименьших значений над районом Южно-Атлантической (магнитной) аномалии (ЮАА), расположенной в Атлантическом океане вблизи берегов Бразилии. Приблизительные границы области распространения потоков протонов ЕРПЗ над ЮАА на высоте 500 км находятся в пределах 10...40° западной долготы и 10...60° южной широты. С увеличением высоты границы этой области расширяются в восточном направлении (на высоте 900 км приблизительно на 20°). Верхняя граница области распространения потоков протонов ЕРПЗ находится на высоте ~10000 км, достигая максимальных значений потока на высоте ~3000 км. На низких высотах (менее 1000 км) потоки протонов ЕРПЗ периодически изменяются в течение цикла солнечной активности (период порядка 11 лет), увеличиваясь в годы минимума солнечной активности.

Потоки ВЭЧ ГКЛ (протонов и ядер химических элементов вплоть до урана) приходят к Земле из межзвёздного пространства со всех направлений. На их величину в околоземном КП влияют солнечная активность (в годы минимума солнечной активности наблюдается наибольший поток, а в годы максимума – наименьший) и магнитное поле Земли, которое не позволяет всем частицам ГКЛ проникать вглубь магнитосферы Земли.

Потоки ВЭЧ ЕРПЗ и ГКЛ постоянно присутствуют в околоземном КП и поэтому ответственны за «обычные» радиационные условия на борту КА. Эпизодически эти условия могут нарушаться во время появления вблизи Земли потоков ВЭЧ СКЛ (протонов и ионов), которые возникают из-за так называемых вспышек на Солнце в результате выброса частиц солнечного вещества. При этом обычно происходит возрастание потока ВЭЧ в течение ~6…12 часов, а затем его уменьшение в течение ~1…3 суток. Частота появления подобных событий СКЛ тем выше, чем выше солнечная активность, цикл изменения которой повторяется каждые 11 лет. В среднем в течение одного цикла солнечной активности на КА с геостационарными и более высокими орбитами регистрируется около 70 событий СКЛ, в которых потоки ВЭЧ СКЛ заметны на фоне потоков ВЭЧ ГКЛ. Причём поток ВЭЧ в каждом из таких событий является случайной величиной и может отличаться от события к событию на несколько (до четырёх) порядков. Чем выше поток ВЭЧ в конкретном событии, тем реже такое событие возникает. Так, за 11-летний цикл можно ожидать до 10 событий с очень большими потоками ВЭЧ СКЛ. Потоки ВЭЧ СКЛ, так же как и потоки ВЭЧ ГКЛ, ослабевают при проникновении вглубь магнитосферы Земли. Суммарное время, в течение которого потоки ВЭЧ множества событий СКЛ дополнительно к потокам ВЭЧ ЕРПЗ и ГКЛ воздействуют на КА, значительно ниже (приблизительно в 30 раз), чем срок активного существования КА.

Так как потоки ВЭЧ всех указанных радиационных полей неравномерно распределены в околоземном пространстве и изменяются во времени по своим собственным законам, радиационные условия на КА и, следовательно, условия возникновения сбоев в его бортовой аппаратуре изменяются в течение всего полёта. Эти изменения для разных орбит КА имеют свои особенности, и в настоящей работе они рассматриваются только для наиболее известных орбит, параметры которых приведены в табл. 1.


Оценка частоты сбоев при воздействии ВЭЧ КП

Количество сбоев в СБИС при воздействии ВЭЧ во время полёта КА является случайной величиной. На практике в качестве характеристики, определяющей работоспособность СБИС во время полёта КА, используют частоту сбоев ν, представляющую собой среднее количество (математическое ожидание) сбоев, которое может возникнуть в единицу времени на заданном участке орбиты КА. Причём, учитывая изменение радиационных условий вдоль орбиты КА, эта величина может отличаться для её разных участков.

Для прогнозирования частоты сбоев в СБИС, находящихся на борту КА, существуют специальные расчётные методики. В настоящей работе результаты расчётов были получены с применением методики, разработанной в НИИЯФ МГУ [3, 4]. Эта методика использует компьютерные версии моделей потоков ВЭЧ трёх указанных радиационных полей околоземного КП (с учётом проникновения потоков частиц ГКЛ и СКЛ в магнитосферу Земли) и учитывает трансформацию этих потоков после прохождения защитных экранов различной толщины. В качестве исходных данных, характеризующих возможность возникновения инверсий ячеек памяти в СБИС ОЗУ при воздействии ВЭЧ, в методике используются специальные параметры (параметры чувствительности) СБИС, устанавливаемые в результате их испытаний на ускорителях тяжёлых ионов. Численные значения этих параметров для СБИС КМ416V104ST, используемой в процессорной плате 2133 (5066) фирмы Octagon Systems, были получены в результате сопоставления и анализа параметров чувствительности, которые приведены в базе данных по адресу http://Radnet.jpl.nasa.gov/compend.htm для аналогичных СБИС динамической памяти (с учётом объёма памяти и фирмы-изготовителя).


Условные обозна чения:
обычные радиационные условия;  особые радиационные условия;  экстремальные радиационные условия.

Важной особенностью методики является возможность расчёта частоты сбоев в каждой точке орбиты, а следовательно, и определения зависимости этой величины от времени полёта (положения КА на орбите). Результаты таких расчётов для оперативной памяти процессорной платы 2133 (две СБИС КМ416V104ST – 4 Мбайт) приведены на рис. 2 для орбит МКС, ССО, ВЭО и ГКЛ. В расчётах предполагалось, что СБИС защищена сферическим экраном с толщиной 1 г/см2. Графики показывают изменение частоты сбоев в контроллере при воздействии потоков ВЭЧ для радиационных условий трёх видов: обычных, особых и экстремальных. В обычных условиях КА находится 95-98% срока активного существования (САС), который, как правило, составляет 5-10 лет. В этом случае частота сбоев определяется постоянно существующими потоками ВЭЧ ГКЛ и ЕРПЗ. Во время особых радиационных условий дополнительно к потокам ВЭЧ ЕРПЗ и ГКЛ добавляется поток ВЭЧ «ординарного» события СКЛ. Этот поток характеризует верхний уровень потоков ВЭЧ СКЛ, которые могут проявляться в течение времени, соответствующего 2-5% от САС. При экстремальных радиационных условиях уровень потока ВЭЧ СКЛ значительно выше. Он соответствует «мощным» событиям СКЛ, которые могут произойти только несколько раз в течение цикла солнечной активности и под влиянием которых КА может находиться в течение времени, составляющего не более 0,5% от САС.

На орбите МКС и ССО отмечаются пиковые всплески частоты сбоев во время полёта КА. В обычных радиационных условиях это объясняется неравномерным распределением (резкими повышениями) потоков ВЭЧ ЕРПЗ и ГКЛ на отдельных участках орбиты. Причём наиболее резкие всплески наблюдаются в так называемых «опасных зонах» (ОЗ) над районом ЮАА, когда КА пересекает область потоков протонов ЕРПЗ повышенной интенсивности. В особых и экстремальных условиях появляются дополнительные пиковые всплески частоты сбоев, связанные с проникновением потоков ВЭЧ СКЛ на рассматриваемые орбиты (на орбите МКС такое случается только несколько раз в течение суток).

На ВЭО при обычных радиационных условиях пиковые всплески частоты сбоев наблюдаются в двух близко расположенных ОЗ во время пересечения ЕРПЗ. Всё оставшееся время в течение витка (~10 часов из 12-часового периода орбиты) частота сбоев, как и в случае ГСО, обусловлена потоками ВЭЧ ГКЛ при обычных радиационных условиях и потоками ВЭЧ СКЛ при особых и экстремальных радиационных условиях.

Средняя частота и количество сбоев

Приведённые на рис. 2 расчётные зависимости частоты сбоев в СБИС динамической памяти контроллера от времени полёта КА (положения КА на орбите) позволяют найти среднюю частоту сбоев 〈ν〉T, которую можно ожидать в памяти контроллера на любом протяжённом участке орбиты (∆T – время прохождения участка) или на орбите за определённое расчётное время ∆T (∆T – не менее суток полёта), по формуле:


Здесь T0 – время, соответствующее началу расчётного участка орбиты КА.

Расчёт среднеорбитальной частоты сбоев (∆T≥1 сутки) является общепринятым в практике оценки работоспособности СБИС на орбите. Однако, учитывая резкие изменения частоты сбоев во время полёта КА на орбитах, проходящих через ЕРПЗ, представляется целесообразным усреднённое за расчётное время (обычно за сутки) количество сбоев (N) оценивать отдельно для участков орбиты вне ОЗ и для участков орбиты, соответствующих ОЗ. Расчёты проводились по формуле:


Здесь ∆Ti и 〈ν〉∆Ti – соответственно время нахождения КА и средняя частота сбоев на отдельных участках орбиты, расположенных только вне или только внутри ОЗ на i-м витке орбиты, а суммирование ведётся для n витков орбиты, которые КА совершает в течение расчётного времени.



В табл. 2 приведены значения N, рассчитанные для рассматриваемых орбит на участках вне ОЗ при обычных, особых, экстремальных радиационных условиях и расчётного времени 1 сутки. Результаты расчётов значений N при прохождении ОЗ представлены в табл. 3. В этом случае вычисления проводились только для тех из рассматриваемых орбит, которые проходят через особые зоны. Для таких орбит в табл. 3 дополнительно приводится доля суммарного времени нахождения КА в ОЗ в течение расчётного времени по отношению к этому расчётному времени. Для выбранного расчётного времени (тоже 1 сутки) эта доля практически совпадает с долей суммарного времени, которое КА на данной орбите проводит в ОЗ в течение всего САС.

Из таблиц 2 и 3 видно, что в обычных радиационных условиях основное количество сбоев возникает во время полёта КА в ОЗ, хотя суммарное время нахождения КА в этих зонах незначительно по отношению к полному расчётному времени. В экстремальных радиационных условиях большинство сбоев возникает на участках орбит, находящихся вне ОЗ.

Полученные данные об усреднённом за сутки количестве сбоев для разных орбит и для их отдельных участков являются количественной оценкой, которую необходимо учитывать при разработке аппаратных и программных методов защиты от сбоев.

Особенности использования платы 2133 в составе ЦБК

Вычислительные ресурсы, а также простота разработки и отладки программного обеспечения позволяют рассматривать возможность использования IBM PC совместимых процессорных плат, в частности платы 2133 фирмы Octagon Systems, в качестве основного компонента центрального бортового компьютера (ЦБК) КА – вычислительного модуля (ВМ) [5]. ЦБК работает по жёсткому циклу (например, 100 мс), используя многозадачный режим работы. Задачи выполняются многократно, с разными входными данными, причём время выполнения отдельных задач существенно отличается по длительности, но не превышают 20 минут. Результаты вычислений используются для управления бортовой аппаратурой, могут храниться достаточно долго, использоваться в последующих циклах задачи, при решении других задач или для передачи на Землю.

Другим компонентом ЦБК является системный контроллер (СК), выполняющий функции внешнего диспетчера для ВМ, сбоеустойчивого хранения бортовой шкалы времени (БШВ), согласования с внешней магистралью, хранения и исполнения аварийных программ и т.п. СК имеет статическую память данных небольшого объёма и программное обеспечение, исполняемое из ПЗУ. В связи с этим опасность сбоев программы и данных от ВЭЧ будет для СК существенно меньше, чем для ВМ, использующего ОЗУ, поэтому ресурсы СК могут быть использованы также для защиты от последствий сбоев в работе ВМ. Между ВМ и СК предусматривается обязательный обмен в каждом цикле. При отсутствии обмена в течение заданного времени, например в течение 1 с, СК выдаёт аппаратный сигнал сброса (reset), после чего оперативная память ВМ обновляется и инициируется процесс восстановления вычислений. Помимо этого, таймер-сторож процессорной платы может блокироваться или настраиваться на прерывание, он поддерживается общим программным обеспечением. В свою очередь, в СК тоже имеется таймер-сторож, запускающий аварийную программу в случае сбоя его основной программы.

Способы защиты бортовых контроллеров от последствий сбоев

Использование ТД

Как уже отмечалось, потоки ВЭЧ не искажают информацию в ячейках флэш-памяти ТД. Таким образом, очевидной возможностью минимизировать последствия сбоев памяти является максимальное применение ТД для хранения массивов данных и системной информации. Однако если число обращений по считыванию к ТД платы 2133 (DiskOnChip объёмом 16 Мбайт) не ограничено, то количество обращений по записи ограничено временем жизни диска τ. Это время, согласно документации TN-DOC-017 фирмы M-Systems, рассчитывается по формуле:


Здесь 100000 – допустимое число записей в одну ячейку памяти, V – объём памяти микросхемы, u – объём записываемой за день информации.

Применяя формулу (3) для времени жизни τ = 10 лет (САС КА) и объёма флэш-памяти V = 16 Мбайт, можно видеть, что максимальный объём записываемой на ТД информации будет составлять до u = 328 Мбайт ежедневно. Это существенно превышает объёмы, необходимые для решения бортовых задач управления.

ТД на основе флэш-памяти можно использовать не только для хранения массивов данных и системной информации. Текущие результаты вычислений в процессе обработки тоже записываются на ТД, причём частота записи выбирается, исходя из допустимого времени на восстановление в случае сбоя программы.

Принудительная перезагрузка программы в оперативную память

Не все сбои в ячейках памяти ОЗУ ВМ проявляются через ошибки в вычислениях или сбои программы. К некоторым ячейкам просто не бывает обращения, и среднесуточное число сбоев программы и данных может оказаться меньше, чем приведённое в табл. 2 число сбоев памяти. Однако реально с течением времени число искажённых ячеек будет увеличиваться и одновременно будет увеличиваться вероятность сбоев в работе программы.

Отсюда следует, что целесообразно проводить перезагрузку оперативной памяти, не дожидаясь проявления сбоя, с предварительной записью текущего состояния программы и текущих данных на ТД. После перезагрузки запускается программа восстановления, которая обеспечивает продолжение работы основного многозадачного режима.

Перезагрузку памяти можно проводить перед ответственными работами, после прохождения особых зон, а также полезно её выполнять просто периодически.

Многократный пересчёт задачи

Избыточные вычислительные ресурсы процессорной платы при применении многозадачной операционной системы могут быть использованы для пересчёта одной и той же задачи несколько раз как разных задач, с точки зрения операционной системы. Полученные результаты сравниваются (например, по методу два из трёх), что позволяет отбраковать неправильный результат, не нарушая режим реального времени.

Передача функций локальным контроллерам

Восстановление после сбоя требует дополнительного времени. Между тем, задержка выдачи команд или сообщений в некоторых случаях может привести к серьёзным проблемам для бортовой аппаратуры КА. В [5] рассматривается структура взаимодействия ЦБК с системами КА через локальные контроллеры с автономными синхронизируемыми счётчиками БШВ. В локальных контроллерах вероятность сбоев будет значительно ниже, чем в ЦБК, и они могут выполнять короткие задачи без обращения к ЦБК в режиме реального времени по предварительным закладкам, заранее формируемым ЦБК в виде временных программ. В этом случае задержки на восстановление вычислительного процесса ЦБК не будут влиять на диаграмму управления.

Привязка к положению на орбите

Как правило, КА имеет систему навигации, позволяющую заранее определить время прохождения аппаратом тех или иных участков орбиты, в том числе и особых зон, когда частота сбоев весьма высока (табл. 3). В таких случаях, например на ВЭО при прохождении участка ЕРПЗ, целесообразно приостановить ответственные вычисления.

Защита от «зависания» программы

Для обнаружения сбоев, вызванных нарушением предусмотренного хода программы, в управляющих индустриальных контроллерах (в том числе и в плате 2133 фирмы Octagon Systems) используется специальный таймер-сторож. Во всех вариантах корректного выполнения программы должен быть предусмотрен периодический сброс таймера-сторожа. Если такого сброса нет в течение заданного времени (для платы 2133 это время составляет 1,6 с), таймер-сторож вырабатывает сигнал прерывания или перезагрузки программы с ТД (в зависимости от установки перемычки на плате) и работа программы продолжается по предусмотренным алгоритмам восстановления. Этот же механизм (задержка выдачи сброса) может использоваться целевой программой в случае получения недостоверных результатов (например, из-за выхода за пределы допуска). В некоторых случаях жёсткая установка времени срабатывания встроенного таймера-сторожа на уровне секунд недопустима, и использование таймера-сторожа, входящего в состав платы, может оказаться проблематичным.

Специальный режим

В случае экстремальных радиационных условий число сбоев памяти может доходить до 1-2 сбоев в минуту, что делает проблематичной нормальную работу и может привести к необратимым последствиям, особенно если это относится к задачам ориентации или энергоснабжения. Наряду с этим можно рассматривать и полный отказ ВМ. Поэтому при неустойчивом обмене ВМ – СК или его длительном отсутствии начинает в специальном режиме работать аварийная временная программа СК, обеспечивающая безопасный останов для большинства систем КА, проведение тестирования ВМ и при необходимости переключение на другой комплект. Переход на специальный режим и переключение комплектов может производиться и по командам с Земли.

Отладка программного обеспечения

Достижение высокой сбоеустойчивости во многом зависит от организации и качества отладки программного обеспечения в ходе наземных стендовых испытаний при имитации сбоев с учётом ожидаемой частоты их появления на предполагаемой орбите. Для отработки режима восстановления в большинстве случаев достаточно подавать внешний сигнал аппаратного сброса (reset) в случайные или заданные моменты выполнения целевых программ. Такого рода отработка повышает качество программного обеспечения, в том числе выявляет алгоритмические и программные ошибки.

Отладка комплекса ЦБК в целом

Предлагаемые способы защиты от сбоев носят общий характер и ориентированы на использование платы 2133 в составе ЦБК. Возможность применения тех или иных способов зависит от целевого назначения аппаратуры, используемой операционной системы, запасов ресурсов процессорной платы для решаемых задач, а также от пристрастий разработчиков. Реализация данных способов защиты от сбоев, в конечном счёте, создаёт условия для отказа от многоканальной структуры ЦБК и перехода к одноканальной структуре ЦБК с «холодным» резервом [5], что снижает энергопотребление, увеличивает радиационную стойкость, надёжность и срок активного существования ЦБК.

Выводы

  1. Потоки ВЭЧ КП являются основной причиной сбоев в IBM PC совместимых контроллерах, работающих на борту КА. В основном эти сбои происходят из-за случайных инверсий логического состояния ячеек СБИС оперативной памяти. В ячейках СБИС флэш-памяти (твердотельного диска) этот эффект отсутствует.

  2. Расчётные методики НИИЯФ МГУ позволяют количественно оценить частоту сбоев в СБИС оперативной памяти контроллера на различных орбитах и их локальных участках с учётом неравномерного распределения потоков частиц в пространстве и во времени.

  3. Реализация различных способов защиты от последствий сбоев и применение принудительного переключения режима [6] создают условия для обеспечения потенциальной возможности использования процессорных плат 2133 на основных орбитах КА. ●

Литература

  1. Schwartz H.R., Nichols D.K. and Johnston A.H. Single-Event Upset in Flash Memories// IEEE Transactions on Nuclear Science. — 1997. — Vol. 44. — No 6. — P. 2215-2324.

  2. Кузнецов Н.В., Панасюк М.И. Космическая радиация и прогнозирование сбое- и отказоустойчивости интегральных микросхем в бортовой аппаратуре космических аппаратов// Вопросы атомной науки и техники (ВАНТ): сб. Серия «Радиационное воздействие на радиоэлектронную аппаратуру». – 2001. – Вып. 1-2. – С. 3-8.

  3. Новые наукоёмкие технологии в технике// Энциклопедия. Т. 16. Воздействие космической среды на материалы и оборудование космических аппаратов/ Под ред. Л.С.Новикова и М.И.Панасюк. — М.: ЭНЦИТЕХ, 2000.

  4. Башкиров В.Ф., Кузнецов Н.В., Ныммик Р. А. Оценка интенсивности одиночных сбоев на космических аппаратах// Вопросы атомной науки и техники (ВАНТ): сб. Серия «Радиационное воздействие на радиоэлектронную аппаратуру». – 1999. – Вып. 1-2. – С. 136-140.

  5. Гобчанский О.П. Проблемы создания бортовых вычислительных комплексов малых космических аппаратов// Современные технологии автоматизации. – 2001. – № 4.

  6. Гобчанский О.П., Попов В.Д., Николаев Ю.М. Повышение радиационной стойкости индустриальных средств автоматики в составе бортовой аппаратуры// Современные технологии автоматизации. – 2001. – № 4. 

Авторы – сотрудники РНИИ КП и НИИЯФ МГУ
Телефоны: (095) 673-9354, 932-8861

Комментарии
Рекомендуем