Описание проблемы:
На одном из серверов сбилось время (перескочило на год вперед). После этого он проработал некоторое время (несколько часов), так как произошло это ночью. Вследствии этого не запустились несколько служб (не смогли аутентифицироваться аккаунты, от которых они запускались) и агент OpsMgr сгенерировал несколько алертов, датированых 2009 годом.
После того как время восстановили, перезагрузили сервер (чтобы все службы запустились), осталась проблема с OpsMgr - состояние некоторых мониторов не переходило из Critical в нормальное (хотя этих проблем уже не было).~~~
Решение:
Переустанавливать агента не хотелось. Это бы "обнулило" графики данных о производительности и т.п. Поэтому я сделал так:
Находим все состояния с неправильным временем создания:
select *
FROM [State]
WHERE
YEAR(LastModified) = 2009
Просматриваем их на всякий случай "вручную". И удаляем из базы:
delete
FROM [State]
WHERE
YEAR(LastModified) = 2009
После этого все мониторы, которые были в Critical (включая аггрегирующие мониторы и Entity) переходят в состояние Not monitored.
Теперь заходим на сервер с агентом, останавливаем его службу Health Service, удаляем все из каталога Health Service State (не удаляя сам каталог). Каталог Health Service State, напомню, находится в том каталоге, куда установлен агент. Запускаем службу Health Service.
Через некоторое время (у меня это было примерно 15-20 минут) все приходит в порядок.