Часто употребляемые термины и определения в области мониторинга, наблюдаемости, обеспечения надёжности, высокой доступности и инцидент-менеджменте.
А
Alert (Алерт) — уведомление о событии, требующем внимания. Обычно создаётся автоматически при срабатывании правила мониторинга.
Anomaly Detection (Обнаружение аномалий) — использование алгоритмов машинного обучения для выявления нетипичного поведения системы.
APM (Application Performance Monitoring) — специализированный мониторинг производительности приложений с детализацией по транзакциям, запросам и коду.
Availability (Доступность) — доля времени, в течение которого система или сервис функционирует корректно и доступен для пользователей. Часто выражается в процентах (например, 99,9 %).
D
Downtime (Простой) — период, когда система или сервис недоступен, или не функционирует должным образом.
DRP (Disaster Recovery Plan) — план восстановления после катастроф, описывающий действия при масштабных сбоях.
E
Error Budget — допустимый объём ошибок за период. Рассчитывается как 1 - SLO. Например, при SLO 99.9% error budget = 0.1% = ~43 минуты простоя в месяц.
Escalation (Эскалация) — передача алерта или инцидента следующему ответственному, если текущий не отреагировал вовремя.
H
Health Checks (Проверки работоспособности) — автоматические тесты состояния сервисов (например, проверка HTTP‑статуса /health‑эндпоинта).
High Availability (Высокая доступность) — свойство системы или сервиса обеспечивать минимальное время простоя и максимально возможную доступность, обычно достигаемое за счёт резервирования и отказоустойчивых архитектур.
I
Incident (Инцидент) — незапланированное событие, влияющее на работу сервиса. Имеет жизненный цикл: открыт → в работе → закрыт.
Incident Management (Управление инцидентами) — процесс обнаружения, классификации, реагирования, устранения и документирования инцидентов для минимизации влияния на сервис и скорейшего восстановления его работоспособности.
L
Logs (Логи, журналы) — структурированные или неструктурированные записи событий, генерируемые системой или приложением в процессе работы. Содержат информацию о действиях, ошибках, запросах и других событиях. Бывают разных уровней детализации: DEBUG, INFO, WARN, ERROR, FATAL.
Log Aggregation (Агрегация логов) — сбор логов из разных источников (серверов, приложений, сервисов) в единое хранилище для централизованного анализа и поиска.
Log Parsing (Парсинг логов) — процесс извлечения структурированной информации из неструктурированных или частично структурированных логов (например, выделение IP‑адресов, кодов ответов, временных меток).
M
Metrics (Метрики) — количественные показатели работы системы, собираемые с определённой периодичностью. Примеры: загрузка CPU, использование памяти, количество запросов в секунду, время ответа. Используются для мониторинга, анализа трендов и срабатывания алертов.
Metric Aggregation (Агрегация метрик) — объединение метрик из разных источников или за разные периоды времени для получения обобщённых показателей (среднее, максимум, сумма, перцентили).
MTBF (Mean Time Between Failures) — средняя наработка на отказ — это метрика надежности, показывающая прогнозируемое время между исправимыми сбоями ремонтируемого оборудования.
MTTD (Mean Time To Detect) — среднее время от возникновения инцидента до его обнаружения командой. Ключевой показатель эффективности мониторинга.
MTTF (Mean Time To Failure) — среднее время до отказа — показатель надежности, определяющий ожидаемый срок службы неремонтируемых компонентов или устройств до их первого и единственного отказа.
MTTR (Mean Time To Resolve) — среднее время от обнаружения инцидента до полного восстановления работоспособности системы.
O
Observability (Наблюдаемость) — способность системы предоставлять достаточные и понятные данные о своём внутреннем состоянии для диагностики проблем и понимания поведения. Включает логи, метрики и трейсы (traces).
On-Call (Дежурный) — сотрудник, обычно инженер, ответственный за реагирование на инциденты в текущий момент. Определяется расписанием дежурств.
P
Predictive Monitoring (Предиктивный мониторинг) — прогнозирование возможных сбоев на основе анализа трендов и исторических данных.
Postmortem (Постмортем) — разбор инцидента после его завершения. Цель — без поиска виновных выявить причину и предотвратить повторение.
R
RCA (Root Cause Analysis) — метод выявления корневой причины инцидента для предотвращения его повторения, а не устранения симптомов.
RPO (Recovery Point Objective) — максимально допустимый период потери данных в случае инцидента. Определяет, насколько далеко назад нужно восстановить данные после сбоя.
RTO (Recovery Time Objective) — целевое время восстановления — максимально допустимое время, в течение которого сервис может быть недоступен после инцидента до момента полного восстановления работоспособности.
Runbook (Руководство по реагированию) — набор инструкций для дежурных по стандартным сценариям инцидентов (например, «что делать при падении базы данных»).
S
Service Degradation (Деградация сервиса) — снижение качества работы сервиса, не приводящее к полному отказу, но влияющее на пользовательский опыт (например, увеличение времени отклика).
SLA (Service Level Agreement) — соглашение об уровне обслуживания между поставщиком и клиентом. Например: «доступность 99.9% в месяц».
SLI (Service Level Indicator) — метрика, по которой измеряется достижение SLO. Например: процент успешных запросов.
SLO (Service Level Objective) — внутренняя цель по надёжности. Обычно строже, чем SLA.
SRE (Site Reliability Engineering) — инженерный подход к управлению надёжностью систем, сочетающий практики разработки и эксплуатации.
Synthetic Monitoring (Синтетический мониторинг) — имитация пользовательских действий для проверки доступности и производительности сервиса в контролируемых условиях.
T
Telemetry (Телеметрия) — сбор и передача данных о состоянии и работе системы (метрики, логи, трейсы) для мониторинга и анализа.
Threshold (Порог) — заранее установленное значение метрики, при превышении которого срабатывает алерт. Например, загрузка CPU > 90 % в течение 5 минут.
Traces (Трейсы, трассировки) — данные о пути выполнения запроса через распределённую систему. Показывают последовательность вызовов между сервисами, время выполнения каждого шага и возникающие ошибки. Позволяют выявить узкие места в производительности.
U
Uptime (Время безотказной работы) — период непрерывной корректной работы системы или сервиса без сбоев и простоев.