Пропустить до основного содержимого

Записки о мониторинге инфраструктуры на русском языке

Найти
Домашняя
  

Записки о мониторинге инфраструктуры на русском языке > Записи > Состояние монитора не переходит из Critical в Healthy, хотя вызвавшая критическое состояние проблема решена
Состояние монитора не переходит из Critical в Healthy, хотя вызвавшая критическое состояние проблема решена

Описание проблемы:

На одном из серверов сбилось время (перескочило на год вперед). После этого он проработал некоторое время (несколько часов), так как произошло это ночью. Вследствии этого не запустились несколько служб (не смогли аутентифицироваться аккаунты, от которых они запускались) и агент OpsMgr сгенерировал несколько алертов, датированых 2009 годом.

После того как время восстановили, перезагрузили сервер (чтобы все службы запустились), осталась проблема с OpsMgr - состояние некоторых мониторов не переходило из Critical в нормальное (хотя этих проблем уже не было).~~~

Решение:

Переустанавливать агента не хотелось. Это бы "обнулило" графики данных о производительности и т.п. Поэтому я сделал так:

Находим все состояния с неправильным временем создания:

select *
FROM [State]
WHERE
  YEAR(LastModified) = 2009

Просматриваем их на всякий случай "вручную". И удаляем из базы:

delete
FROM [State]
WHERE
  YEAR(LastModified) = 2009

После этого все мониторы, которые были в Critical (включая аггрегирующие мониторы и Entity) переходят в состояние Not monitored.

Теперь заходим на сервер с агентом, останавливаем его службу Health Service, удаляем все из каталога Health Service State (не удаляя сам каталог). Каталог Health Service State, напомню, находится в том каталоге, куда установлен агент. Запускаем службу Health Service.

Через некоторое время (у меня это было примерно 15-20 минут) все приходит в порядок.

Заметки

Нет заметок для этой записи.

Автор *


Название


Основной текст *


StopSpam *


Введите, пожалуйста, в этом поле указанные цифры. Это помогает нам бороться со спамерами. 1414
Вложения