На прошлой неделе писал о косяках в инфраструктуре. Наступила новая рабочая неделя. Есть проблема - ее надо решать. Отбросил все дела и занялся лечением домена.
Суть проблемы. Есть два контроллера домена, репликации между ними идут без ошибок, но это на уровне базы DS. А каталог SYSVOL не реплицируется. Вроде можно забить, один то контроллер работает - «ну и пёс с ним». Но надо понимать риски. В SYSVOL хранятся групповые политики, скрипты, прочее и если «живой» контроллер рухнет, то весь домен потеряет половину функционала. В довесок к потере функционала потянет за собой цепочку неуправляемых проблем.
С чего начинается любое расследование? Правильно, со сбора улик. Смотрю журналы сервисов и начинаю тихо сползать со стула. Здесь и смех, и удивление. Все одновременно.
Вижу в журнале ошибку «Репликация DFS» DFSR 4012: «Ошибка: 9061 (Реплицированная папка была автономной слишком долго.)». Как долго? 983 дня назад сервер был отключен от репликации. Т.е. контроллер пытается реплицироваться с другими партнерами, но реплика не проходила 60 дней (параметр по умолчанию) и его отключили. Иными словами, система посчитала, что его вывели из работы и не перестала на него тратить время и ресурсы.

Прикол заключается в том, что «живой» контроллер, со всеми ролями FSMO сам на себя наложил руки. Превратился в такого «зомби».
Эта проблема лечится легко. Т.к. «зомби» единственный кто хранит актуальные параметры SYSVOL запускаю на «зомби» волшебную команду из CMD:
wmic /namespace:\\root\microsoftdfs path DfsrMachineConfig set MaxofflineTimeInDays=1000
Параметр MaxofflineTimeInDays должен превышать значение в ошибке.
«Толкаю» реплику и через несколько секунд на втором контроллере появляется папка SYSVOL. Проверил ее, там вся структура реплицировалась. Дальше из каталога script руками создаем шару NETLOGON. И последним штрихом запускаем «волшебную» команду с параметром MaxofflineTimeInDays = 60.
История возникновения проблемы
Когда, три года назад, поднимали второй контроллер, не проверили его состояние, а он оказался не готов к приему реплик SYSVOL. На проблему не обратили внимание, ведь ntds.dit реплицировался. Затем еще изменили уровень работы всего «леса». Через 60 дней единственно живой контроллер превратился в «зомби».
Также администратор не удосужился перед изменением работы режима «леса» прочитать мануал о переходе системы репликации с NTFRS на DFS.
Вывод
Администратор системы, который допустил такое, некомпетентен - это даже не обсуждается. Он больше 60 дней не удосужился заглянуть в журнал системы и посмотреть есть ли там ошибки. Он не исправим. Управление системами не его конек.