Интеграция PagerDuty
Автоматизируйте управление инцидентами: от обнаружения сбоя StatusPulse до оповещения дежурной смены PagerDuty.
Этапы подключения
Свяжите ваш аккаунт StatusPulse с сервисом PagerDuty за 5 минут. Это обеспечит мгновенную маршрутизацию критических алертов к ответственным инженерам.
1. Создание вебхука в PagerDuty
Перейдите в раздел Integrations → Add New Integration в панели PagerDuty. Выберите сервис мониторинга (например, api-gateway-prod) и тип интеграции Use our API directly. Скопируйте уникальный Integration Key (GUID).
2. Регистрация в StatusPulse
В консоли StatusPulse откройте Settings → Integrations → PagerDuty. Вставьте скопированный Integration Key в поле PD_Routing_Key. Убедитесь, что выбран регион eu-west-1 для минимальной задержки.
3. Тестовое событие
Нажмите кнопку «Send Test Alert». В PagerDuty должен появиться новый инцидент со статусом triggered. Проверьте наличие метаданных statuspulse_id в теле события для корректного сопоставления.
Политики эскалации
Настройте правила, определяющие, кто получает уведомление и когда. StatusPulse передает данные, позволяющие PagerDuty автоматически назначать ответственных.
Маршрутизация по ролям
Используйте параметр routing_key для разделения инцидентов. Критические сбои БД направляйте в Database On-Call, а проблемы UI — в Frontend Team. Это снижает время реакции (MTTR) на 40%.
Группировка инцидентов
Включите Event Grouping в настройках интеграции. Если 10 сервисов падают одновременно, StatusPulse сгруппирует их в один инцидент PagerDuty с тегом cluster_failure, предотвращая «шторм алертов».
Авто-решение (Auto-Resolve)
Настройте тайм-аут Recovery Window (рекомендуется 5 минут). Когда статус меняется с DOWN на UP, StatusPulse автоматически отправляет событие resolve в PagerDuty, закрывая тикет без участия человека.
Сопоставление уровней критичности
Карта соответствия статусов мониторинга StatusPulse и приоритетов PagerDuty для корректного срабатывания эскалации.
| Статус StatusPulse | Приоритет PagerDuty | Действие |
|---|---|---|
| DOWN (Полный сбой) | P1 (Critical) | SMS + Phone Call + Push |
| DEGRADED (Высокая задержка) | P2 (High) | Email + Push Notification |
| MAINTENANCE | P3 (Normal) | Email (без звонков) |
| UP (Восстановление) | — | Resolve Incident |