WHEA Logger 47 в Windows Server 2019: как найти ошибки ECC памяти и устранить зависания сервера
Краткое описание: подробное практическое руководство по ошибке WHEA Logger ID 47 в Windows Server 2019, зависаниям сервера, обрывам RDP, ошибкам ECC памяти и поиску проблемных модулей RAM с помощью PowerShell и журналов Windows.
Многие системные администраторы сталкиваются с ситуацией, когда сервер работает «почти нормально», но периодически появляются короткие зависания, отваливается сеть, разрываются RDP-сессии или система подвисает на несколько секунд без BSOD и без критических ошибок диска.
Очень часто причиной оказывается WHEA Logger Event ID 47, особенно на серверах и рабочих станциях с Xeon, ECC Registered памятью, платформами X99/C600, Dell Precision и RAID-контроллерами Intel RSTe.
В этой статье разберём, как выявить corrected ECC errors, как анализировать WHEA события, искать проблемные модули памяти и устранять фризы Windows Server 2019.
Что означает WHEA Logger Event ID 47
WHEA расшифровывается как Windows Hardware Error Architecture.
Событие:
WHEA Logger Event ID 47
означает:
Исправленная аппаратная ошибка
Это означает, что ECC память или memory controller процессора обнаружили аппаратную ошибку и смогли исправить её до падения системы.
Типичное сообщение:
Компонент: память
Источник ошибки: Исправленная ошибка проверки компьютера
Даже если сервер продолжает работать, это уже признак аппаратной нестабильности.
Какие симптомы вызывает WHEA 47
Чаще всего corrected ECC errors проявляются так:
- кратковременные фризы сервера;
- разрывы RDP соединений;
- временное пропадание сети;
- зависания 1С или SQL;
- подвисания мыши;
- лаг системы на 2-10 секунд;
- скачки latency RAID SSD.
Из-за того что ECC память исправляет ошибки автоматически, многие администраторы долго ищут проблему в Windows, драйверах или RAID.
Самый быстрый способ проверить WHEA ошибки
Откройте PowerShell от имени администратора и выполните:
PowerShell:
Get-WinEvent -FilterHashtable @{LogName=’System’; ProviderName=’Microsoft-Windows-WHEA-Logger’; Id=47}
Если сервер показывает множество событий — аппаратные ошибки памяти действительно происходят.
Как найти все ошибки памяти за последние 30 дней
Команда для поиска всех memory-related WHEA ошибок:
PowerShell:
$Start=(Get-Date).AddDays(-30); Get-WinEvent -FilterHashtable @{LogName=’System’; ProviderName=’Microsoft-Windows-WHEA-Logger’; StartTime=$Start} | Where-Object {$_.Message -match «память|memory»} | Select-Object TimeCreated, Id, LevelDisplayName, Message | Format-Table -Auto
Эта команда помогает:
- понять когда началась проблема;
- увидеть рост ошибок;
- сравнить время фризов и WHEA событий;
- найти нестабильную память.
Как посчитать количество corrected ECC errors
PowerShell:
Get-WinEvent -FilterHashtable @{LogName=’System’; ProviderName=’Microsoft-Windows-WHEA-Logger’; Id=47} | Measure-Object
Если число постепенно увеличивается — проблема продолжает развиваться.
Как посмотреть установленные модули памяти
Очень часто WHEA ошибки появляются из-за mixed ECC memory.
Например:
- 7 одинаковых модулей;
- 1 память другой ревизии;
- разные SPD таблицы;
- разные ранги памяти;
- разные тайминги.
Команда для просмотра всех планок памяти:
PowerShell:
Get-WmiObject Win32_PhysicalMemory | Select BankLabel, DeviceLocator, Capacity, Speed, Manufacturer, PartNumber
С её помощью можно быстро найти модуль, который отличается от остальных.
Реальный пример проблемы
На сервере Dell Precision 5810 с Windows Server 2019 наблюдались:
- короткие зависания RDP;
- временное пропадание сети;
- фризы всей системы;
- лаги RAID SSD;
- отсутствие критических disk errors.
После анализа PowerShell командами было обнаружено:
- WHEA Logger ID 47;
- corrected ECC errors;
- одна планка памяти отличалась по Part Number.
Конфигурация памяти:
- 7x Samsung M393A2K40BB1-CRC
- 1x Samsung M393A2K40CB1-CRC
Смешанная ECC память часто вызывает нестабильность на Xeon и X99 системах.
Почему сервер зависает без BSOD
ECC память исправляет ошибки автоматически.
Во время corrected ECC error:
- процессор повторяет операции памяти;
- memory controller выполняет retraining;
- появляются задержки работы всей системы;
- возникают spikes latency.
Пользователь видит это как:
- фриз;
- обрыв сети;
- подвисание RDP;
- медленную работу приложений;
- лаг всей системы.
Как правильно тестировать проблемные DIMM модули
Самый практичный способ — тестирование памяти попарно.
- Найти модуль, который отличается от остальных.
- Вытащить подозрительный DIMM вместе с его парным слотом.
- Запустить сервер.
- Несколько дней мониторить WHEA события.
Если WHEA 47 перестают появляться — проблема почти наверняка найдена.
Почему память лучше вытаскивать попарно
Xeon процессоры используют многоканальный memory controller.
Поэтому для корректного тестирования желательно:
- сохранять симметрию каналов;
- не нарушать interleaving памяти;
- не перегружать memory controller;
- избегать asymmetric memory topology.
Полезные PowerShell команды для диагностики фризов
Проверка latency диска:
Get-Counter ‘\PhysicalDisk(_Total)\Avg. Disk sec/Transfer’
Проверка очереди диска:
Get-Counter ‘\PhysicalDisk(_Total)\Current Disk Queue Length’
Поиск RAID ошибок:
Get-WinEvent -LogName System -MaxEvents 1000 | Where-Object { $_.ProviderName -match «storport|iaStor|RST|RAID» }
Поиск ошибок дисков:
Get-WinEvent -LogName System -MaxEvents 1000 | Where-Object { $_.ProviderName -match «disk|ntfs|volsnap|stornvme|storahci» }
Типичные ошибки администраторов
- Игнорирование WHEA warnings из-за отсутствия BSOD.
- Использование mixed ECC memory.
- Старый BIOS.
- Использование устаревших Intel RSTe драйверов.
- Поиск проблемы только в Windows.
- Игнорирование corrected ECC errors месяцами.
Что ещё может вызывать WHEA Logger 47
Не всегда проблема именно в планке памяти.
Также причиной могут быть:
- memory controller процессора;
- материнская плата;
- контакт DIMM слота;
- перегрев VRM;
- PCIe instability;
- Intel RAID controller;
- старый firmware.
Частые вопросы
Опасен ли WHEA Logger 47?
Да. Это признак аппаратной нестабильности.
Могут ли corrected ECC errors вызывать фризы?
Да. Это один из самых распространённых симптомов.
Нужно ли сразу менять память?
Лучше сначала протестировать DIMM модули попарно.
Может ли проблема быть в процессоре?
Да. Memory controller Xeon также может вызывать WHEA ошибки.
Помогает ли обновление BIOS?
Очень часто, особенно на X99 и Dell Precision.
Может ли RAID вызывать похожие симптомы?
Да. Intel RSTe иногда даёт похожие фризы.
Можно ли игнорировать corrected ECC errors?
Нет. Со временем corrected errors могут стать uncorrectable.
Читайте также
Закладки
Если статья была полезной, добавьте наш раздел про оперативную память и серверные ошибки в закладки.
Нажмите Ctrl + D

