Принципы резервирования. С чего начинались дата-центры. Часть 1
2026-04-29 15:56
Сегодня мы решили вспомнить с чего начинались технологии, которые сегодня реализованы в дата-центрах или "Зонах доступности" (термин 2026 года).
Инженерные решения, которые сегодня лежат в основе отказоустойчивых дата-центров (стандарты Tier III/IV), имеют глубокие корни в военных и транспортных технологиях XX века. В первую очередь стоит рассматривать парадигму «ни одного единого отказа» (No Single Point of Failure).
Вот ключевые принципы и их исторические предшественники:
Полное резервирование (N+1 и 2N): Идея дублирования родилась в системах управления кораблями и подводными лодками 1940–50-х годов. Для дата-центров этот принцип был адаптирован в эпоху мейнфреймов (1960–70-е), когда сбои в электропитании ставили под угрозу работу банков и оборонных систем.
Двойной ввод питания: Концепция раздельных фидеров и шин пришла из авиационной электроники 1950–60-х годов. В вычислительной технике ее закрепили суперкомпьютеры начала 1980-х, требующие абсолютной стабильности напряжения, а в стандарты ЦОД она вошла с распространением стоечных серверов в 1990-х.
Автоматическое переключение (ATS): Механизмы мгновенного перехода на резервный канал с 1930–40-х годов применялись в судостроении (рулевые и трансмиссионные системы) и ж/д сигнализации. В дата-центрах это стало стандартом де-факто в конце 1980-х, когда даже секундная задержка при ручном переключении приводила к фатальной перезагрузке мейнфреймов.
Ремонт без остановки (Live Maintenance): Идея изоляции отказавшего компонента («горячего резерва») пришла из военных радиолокационных станций 1950-х годов и телекоммуникационных АТС (1960-е).
Избыточность охлаждения и пути потоков: В подводных лодках (1940–50-е) и космических кораблях всегда использовались многоконтурные замкнутые системы охлаждения на случай отказа насосов. В мейнфреймах 1960-х использовали водяное охлаждение, требующее круглосуточной работы насосов, из чего выросло требование резерва чиллеров и насосных групп.
Что было до стандарта Tier III (Uptime Institute)?
До появления классификации Tier в середине 1990-х не существовало единой шкалы для оценки готовности ЦОД. Предшественником были внутренние стандарты ведомств:
1960–1980-е: Федеральные стандарты США (для Пентагона, NASA, АЭС), регламентировавшие подводку электричества и сейсмостойкость, и стандарты телекоммуникационных компаний (AT&T, Bellcore), требовавшие резервирования сетевого оборудования (Sonet ring).
Начало 1990-х: Корпоративные спецификации крупных финансовых бирж и банков. Им нужны были не просто резервные генераторы, а гарантия доступности 99.99%+.
Именно консолидация этих разрозненных военных, индустриальных и банковских требований в конце 90-х привела к созданию стандарта Tier III, где впервые были жестко прописаны требования к параллельно-ремонтируемой архитектуре (Concurrently Maintainable).
Российский и советский опыт
В отличие от западной классификации Tier, в СССР и России существовала иная философия обеспечения надёжности. Основной упор делался не на коммерческую эффективность (доходность ЦОД), а на гарантированное выполнение боевой задачи и абсолютную безопасность.
Ключевое отличие от Tier III: если западный стандарт допускает отключение части системы для планового ремонта, то советские стандарты (особенно военные и атомные) часто требовали живучести — т.е. способности выполнять функцию даже при физическом уничтожении отдельных элементов.
1. Главный стандарт: ГОСТ 27.002-89 (основа всей терминологии)
Ключевым документом, кодифицировавшим все принципы резервирования, стал ГОСТ 27.002-89 «Надежность в технике» .
Когда введен: 1 июля 1990 года (разрабатывался в перестройку, впитал опыт 70-80-х гг.) .
Суть: Этот стандарт ввел железные определения для всех видов резервирования, которые действуют и сейчас (в актуализированной версии ГОСТ 27.002-2015) .
Какие механизмы были прописаны в стандарте (и применялись на практике):
Дублирование (Duplication): Резервирование "один к одному" (1+1). Классика для автопилота самолета или блока питания сервера .
Раздельное резервирование: Когда резервируется каждый элемент в отдельности (самый надежный, но дорогой способ — аналог 2N в ЦОД) .
Скользящее резервирование: Группа основных элементов резервируется одним резервным. Используется в космосе и на подводных лодках для экономии места .
Нагруженный/Ненагруженный резерв:
Горячий резерв (нагруженный) — резервная лампа в блоке питания включена всегда.
Холодный резерв (ненагруженный) — генератор, который запускается при отказе основного .
2. Области применения (где и когда это работало)
Хотя ГОСТ вышел в 1989 году, эти принципы реализовывались в технике начиная с 1960-х годов:
Авиация (1960–1980-е)
Механизм: Тройное резервирование гидравлики и электродистанционная система управления (ЭДСУ). В истребителях МиГ-29 и Су-27 было реализовано 4-кратное резервирование каналов управления.
Применение: Гражданские и военные самолёты (Ту-154, Ил-86, Су-27).
Космические корабли (1960-е – 1980-е)
Механизм: Скользящее резервирование и "холодный" резерв. Корабли "Союз" имеют дублированные двигатели причаливания и ориентации.
Конкретный пример (лунная программа): В проекте Н1-Л3 (советская лунная программа) из-за невозможности спасти космонавта при нештатной ситуации конструкторы закладывали резервный взлётный модуль или альтернативный сценарий возврата .
Подводные лодки и флот (1970-е)
Механизм: Зональное резервирование питания и полное дублирование систем охлаждения реактора. АПЛ проекта 949А ("Курск") имели два автономных отсека-убежища.
Системы управления ПВО и РВСН (1980-е)
Механизм: Полностью дублированные каналы связи и командные пункты. Система "Периметр" (на Западе известна как "Мёртвая рука") — классический пример резервирования управления на государственном уровне.
3. Что пришло на смену?
2009 год: В России был принят ГОСТ Р 27.002-2009. Он был попыткой унифицировать советскую школу с международным стандартом МЭК 60050 (191). Документ был ближе к западной терминологии, но вызвал споры в научной среде .
2015 год (текущая версия): ГОСТ 27.002-2015. Этот стандарт вернул ряд классических советских понятий, но адаптировал их под современные сложные системы (включая IT и критическую инфраструктуру) .
Краткий вывод: В России используется не коммерческий стандарт Uptime Institute (Tier I-IV), а государственный ГОСТ 27.002. Согласно ему, любая критическая инфраструктура должна проектироваться с учетом одного из видов резервирования (общее, раздельное, скользящее или дублирование), причем зачастую с требованием работы в условиях активного воздействия противника (живучесть).