Глоссарий

Часто употребляемые термины и определения в области мониторинга, наблюдаемости, обеспечения надёжности, высокой доступности и инцидент-менеджменте.

А

Alert (Алерт) — уведомление о событии, требующем внимания. Обычно создаётся автоматически при срабатывании правила мониторинга.

Anomaly Detection (Обнаружение аномалий) — использование алгоритмов машинного обучения для выявления нетипичного поведения системы.

APM (Application Performance Monitoring) — специализированный мониторинг производительности приложений с детализацией по транзакциям, запросам и коду.

Availability (Доступность) — доля времени, в течение которого система или сервис функционирует корректно и доступен для пользователей. Часто выражается в процентах (например, 99,9 %).

D

Downtime (Простой) — период, когда система или сервис недоступен, или не функционирует должным образом.

DRP (Disaster Recovery Plan) — план восстановления после катастроф, описывающий действия при масштабных сбоях.

E

Error Budget — допустимый объём ошибок за период. Рассчитывается как 1 - SLO. Например, при SLO 99.9% error budget = 0.1% = ~43 минуты простоя в месяц.

Escalation (Эскалация) — передача алерта или инцидента следующему ответственному, если текущий не отреагировал вовремя.

H

Health Checks (Проверки работоспособности) — автоматические тесты состояния сервисов (например, проверка HTTP‑статуса /health‑эндпоинта).

High Availability (Высокая доступность) — свойство системы или сервиса обеспечивать минимальное время простоя и максимально возможную доступность, обычно достигаемое за счёт резервирования и отказоустойчивых архитектур.

I

Incident (Инцидент) — незапланированное событие, влияющее на работу сервиса. Имеет жизненный цикл: открыт → в работе → закрыт.

Incident Management (Управление инцидентами) — процесс обнаружения, классификации, реагирования, устранения и документирования инцидентов для минимизации влияния на сервис и скорейшего восстановления его работоспособности.

L

Logs (Логи, журналы) — структурированные или неструктурированные записи событий, генерируемые системой или приложением в процессе работы. Содержат информацию о действиях, ошибках, запросах и других событиях. Бывают разных уровней детализации: DEBUG, INFO, WARN, ERROR, FATAL.

Log Aggregation (Агрегация логов) — сбор логов из разных источников (серверов, приложений, сервисов) в единое хранилище для централизованного анализа и поиска.

Log Parsing (Парсинг логов) — процесс извлечения структурированной информации из неструктурированных или частично структурированных логов (например, выделение IP‑адресов, кодов ответов, временных меток).

M

Metrics (Метрики) — количественные показатели работы системы, собираемые с определённой периодичностью. Примеры: загрузка CPU, использование памяти, количество запросов в секунду, время ответа. Используются для мониторинга, анализа трендов и срабатывания алертов.

Metric Aggregation (Агрегация метрик) — объединение метрик из разных источников или за разные периоды времени для получения обобщённых показателей (среднее, максимум, сумма, перцентили).

MTBF (Mean Time Between Failures) — средняя наработка на отказ — это метрика надежности, показывающая прогнозируемое время между исправимыми сбоями ремонтируемого оборудования.

MTTD (Mean Time To Detect) — среднее время от возникновения инцидента до его обнаружения командой. Ключевой показатель эффективности мониторинга.

MTTF (Mean Time To Failure) — среднее время до отказа — показатель надежности, определяющий ожидаемый срок службы неремонтируемых компонентов или устройств до их первого и единственного отказа.

MTTR (Mean Time To Resolve) — среднее время от обнаружения инцидента до полного восстановления работоспособности системы.

O

Observability (Наблюдаемость) — способность системы предоставлять достаточные и понятные данные о своём внутреннем состоянии для диагностики проблем и понимания поведения. Включает логи, метрики и трейсы (traces).

On-Call (Дежурный) — сотрудник, обычно инженер, ответственный за реагирование на инциденты в текущий момент. Определяется расписанием дежурств.

P

Predictive Monitoring (Предиктивный мониторинг) — прогнозирование возможных сбоев на основе анализа трендов и исторических данных.

Postmortem (Постмортем) — разбор инцидента после его завершения. Цель — без поиска виновных выявить причину и предотвратить повторение.

R

RCA (Root Cause Analysis) — метод выявления корневой причины инцидента для предотвращения его повторения, а не устранения симптомов.

RPO (Recovery Point Objective) — максимально допустимый период потери данных в случае инцидента. Определяет, насколько далеко назад нужно восстановить данные после сбоя.

RTO (Recovery Time Objective) — целевое время восстановления — максимально допустимое время, в течение которого сервис может быть недоступен после инцидента до момента полного восстановления работоспособности.

Runbook (Руководство по реагированию) — набор инструкций для дежурных по стандартным сценариям инцидентов (например, «что делать при падении базы данных»).

S

Service Degradation (Деградация сервиса) — снижение качества работы сервиса, не приводящее к полному отказу, но влияющее на пользовательский опыт (например, увеличение времени отклика).

SLA (Service Level Agreement) — соглашение об уровне обслуживания между поставщиком и клиентом. Например: «доступность 99.9% в месяц».

SLI (Service Level Indicator) — метрика, по которой измеряется достижение SLO. Например: процент успешных запросов.

SLO (Service Level Objective) — внутренняя цель по надёжности. Обычно строже, чем SLA.

SRE (Site Reliability Engineering) — инженерный подход к управлению надёжностью систем, сочетающий практики разработки и эксплуатации.

Synthetic Monitoring (Синтетический мониторинг) — имитация пользовательских действий для проверки доступности и производительности сервиса в контролируемых условиях.

T

Telemetry (Телеметрия) — сбор и передача данных о состоянии и работе системы (метрики, логи, трейсы) для мониторинга и анализа.

Threshold (Порог) — заранее установленное значение метрики, при превышении которого срабатывает алерт. Например, загрузка CPU > 90 % в течение 5 минут.

Traces (Трейсы, трассировки) — данные о пути выполнения запроса через распределённую систему. Показывают последовательность вызовов между сервисами, время выполнения каждого шага и возникающие ошибки. Позволяют выявить узкие места в производительности.

U

Uptime (Время безотказной работы) — период непрерывной корректной работы системы или сервиса без сбоев и простоев.

Документация