Enterprise Incident Management

Интеграция PagerDuty

Автоматизируйте управление инцидентами: от обнаружения сбоя StatusPulse до оповещения дежурной смены PagerDuty.

Этапы подключения

Свяжите ваш аккаунт StatusPulse с сервисом PagerDuty за 5 минут. Это обеспечит мгновенную маршрутизацию критических алертов к ответственным инженерам.

1. Создание вебхука в PagerDuty

Перейдите в раздел Integrations → Add New Integration в панели PagerDuty. Выберите сервис мониторинга (например, api-gateway-prod) и тип интеграции Use our API directly. Скопируйте уникальный Integration Key (GUID).

2. Регистрация в StatusPulse

В консоли StatusPulse откройте Settings → Integrations → PagerDuty. Вставьте скопированный Integration Key в поле PD_Routing_Key. Убедитесь, что выбран регион eu-west-1 для минимальной задержки.

3. Тестовое событие

Нажмите кнопку «Send Test Alert». В PagerDuty должен появиться новый инцидент со статусом triggered. Проверьте наличие метаданных statuspulse_id в теле события для корректного сопоставления.

Политики эскалации

Настройте правила, определяющие, кто получает уведомление и когда. StatusPulse передает данные, позволяющие PagerDuty автоматически назначать ответственных.

Маршрутизация по ролям

Используйте параметр routing_key для разделения инцидентов. Критические сбои БД направляйте в Database On-Call, а проблемы UI — в Frontend Team. Это снижает время реакции (MTTR) на 40%.

Группировка инцидентов

Включите Event Grouping в настройках интеграции. Если 10 сервисов падают одновременно, StatusPulse сгруппирует их в один инцидент PagerDuty с тегом cluster_failure, предотвращая «шторм алертов».

Авто-решение (Auto-Resolve)

Настройте тайм-аут Recovery Window (рекомендуется 5 минут). Когда статус меняется с DOWN на UP, StatusPulse автоматически отправляет событие resolve в PagerDuty, закрывая тикет без участия человека.

Сопоставление уровней критичности

Карта соответствия статусов мониторинга StatusPulse и приоритетов PagerDuty для корректного срабатывания эскалации.

Статус StatusPulse Приоритет PagerDuty Действие
DOWN (Полный сбой) P1 (Critical) SMS + Phone Call + Push
DEGRADED (Высокая задержка) P2 (High) Email + Push Notification
MAINTENANCE P3 (Normal) Email (без звонков)
UP (Восстановление) Resolve Incident