Восстанавливаем репликации SYSVOL и NETLOGON

На прошлой неделе писал о косяках в инфраструктуре. Наступила новая рабочая неделя. Есть проблема - ее надо решать. Отбросил все дела и занялся лечением домена.

Суть проблемы. Есть два контроллера домена, репликации между ними идут без ошибок, но это на уровне базы DS. А каталог SYSVOL не реплицируется. Вроде можно забить, один то контроллер работает - «ну и пёс с ним». Но надо понимать риски. В SYSVOL хранятся групповые политики, скрипты, прочее и если «живой» контроллер рухнет, то весь домен потеряет половину функционала. В довесок к потере функционала потянет за собой цепочку неуправляемых проблем.

С чего начинается любое расследование? Правильно, со сбора улик. Смотрю журналы сервисов и начинаю тихо сползать со стула. Здесь и смех, и удивление. Все одновременно.

Вижу в журнале ошибку «Репликация DFS» DFSR 4012: «Ошибка: 9061 (Реплицированная папка была автономной слишком долго.)». Как долго? 983 дня назад сервер был отключен от репликации. Т.е. контроллер пытается реплицироваться с другими партнерами, но реплика не проходила 60 дней (параметр по умолчанию) и его отключили. Иными словами, система посчитала, что его вывели из работы и не перестала на него тратить время и ресурсы.

Репликация DFS

Прикол заключается в том, что «живой» контроллер, со всеми ролями FSMO сам на себя наложил руки. Превратился в такого «зомби».

Эта проблема лечится легко. Т.к. «зомби» единственный кто хранит актуальные параметры SYSVOL запускаю на «зомби» волшебную команду из CMD:

wmic /namespace:\\root\microsoftdfs path DfsrMachineConfig  set MaxofflineTimeInDays=1000

Параметр MaxofflineTimeInDays должен превышать значение в ошибке.

«Толкаю» реплику и через несколько секунд на втором контроллере появляется папка SYSVOL. Проверил ее, там вся структура реплицировалась. Дальше из каталога script руками создаем шару NETLOGON. И последним штрихом запускаем «волшебную» команду с параметром MaxofflineTimeInDays = 60.

История возникновения проблемы

Когда, три года назад, поднимали второй контроллер, не проверили его состояние, а он оказался не готов к приему реплик SYSVOL. На проблему не обратили внимание, ведь ntds.dit реплицировался. Затем еще изменили уровень работы всего «леса». Через 60 дней единственно живой контроллер превратился в «зомби».

Также администратор не удосужился перед изменением работы режима «леса» прочитать мануал о переходе системы репликации с NTFRS на DFS.

Вывод

Администратор системы, который допустил такое, некомпетентен - это даже не обсуждается. Он больше 60 дней не удосужился заглянуть в журнал системы и посмотреть есть ли там ошибки. Он не исправим. Управление системами не его конек.