WHEA Logger 47 en Windows Server 2019

WHEA Logger 47 en Windows Server 2019: cómo detectar errores de memoria ECC y solucionar congelamientos del servidor

Descripción corta: guía práctica y detallada sobre el error WHEA Logger ID 47 en Windows Server 2019, congelamientos del servidor, desconexiones RDP y detección de módulos ECC defectuosos mediante PowerShell y análisis de registros del sistema.

Muchos administradores de sistemas se enfrentan a una situación extraña: el servidor funciona aparentemente de forma normal, pero varias veces al día aparecen pequeños congelamientos, cortes de red, desconexiones RDP o pausas de varios segundos. En la mayoría de los casos no existen pantallas azules ni errores críticos visibles en los logs de Windows.

Uno de los escenarios más comunes en servidores con memoria ECC es el evento WHEA Logger 47. Este tipo de error suele aparecer en estaciones y servidores basados en Xeon, plataformas X99/C600, Dell Precision, Supermicro y sistemas RAID Intel RSTe.

En esta guía veremos cómo encontrar estos errores, cómo interpretar los eventos WHEA y cómo localizar el módulo de memoria que provoca los congelamientos del sistema.

Qué significa WHEA Logger Event ID 47

WHEA significa Windows Hardware Error Architecture.

El evento:

WHEA Logger Event ID 47

indica:

Error de hardware corregido

En la práctica significa que el controlador ECC de memoria detectó un error físico y logró corregirlo automáticamente antes de que el sistema se bloqueara.

Windows normalmente muestra mensajes como:

Componente: memoria

Fuente del error: error corregido de comprobación de máquina

Esto indica que el hardware ya no trabaja de forma completamente estable.

Síntomas típicos del problema

Los síntomas más comunes de WHEA 47 son:

micro congelamientos del servidor;
desconexiones RDP temporales;
pérdida de conexión de red durante algunos segundos;
pausas del sistema sin BSOD;
lentitud aleatoria de aplicaciones;
congelamientos de 1C, Medoc o bases SQL;
latencia elevada en RAID SSD.

Muchos administradores pierden semanas buscando problemas en Windows cuando el origen real es la memoria ECC.

La forma más rápida de comprobar errores WHEA

Abra PowerShell como administrador y ejecute:

PowerShell:

Get-WinEvent -FilterHashtable @{LogName=’System’; ProviderName=’Microsoft-Windows-WHEA-Logger’; Id=47}

Si aparecen múltiples eventos, el servidor está registrando errores corregidos de hardware.

Cómo obtener todos los errores de memoria de los últimos 30 días

Este comando permite encontrar todos los errores WHEA relacionados con memoria:

PowerShell:

$Start=(Get-Date).AddDays(-30); Get-WinEvent -FilterHashtable @{LogName=’System’; ProviderName=’Microsoft-Windows-WHEA-Logger’; StartTime=$Start} | Where-Object {$_.Message -match «memory|memoria|память»} | Select-Object TimeCreated, Id, LevelDisplayName, Message | Format-Table -Auto

Con esta información es posible:

ver cuándo comenzó el problema;
analizar si los errores aumentan;
comparar congelamientos con eventos WHEA;
identificar inestabilidad progresiva.

Cómo contar la cantidad de errores ECC

PowerShell:

Get-WinEvent -FilterHashtable @{LogName=’System’; ProviderName=’Microsoft-Windows-WHEA-Logger’; Id=47} | Measure-Object

Si el número aumenta constantemente, la degradación del hardware continúa.

Cómo identificar módulos de memoria diferentes

Uno de los problemas más comunes en servidores Xeon es el uso de memoria ECC mezclada.

Por ejemplo:

7 módulos idénticos;
1 módulo con otra revisión;
diferentes tablas SPD;
chips distintos;
timings diferentes.

Para revisar toda la memoria instalada:

PowerShell:

Get-WmiObject Win32_PhysicalMemory | Select BankLabel, DeviceLocator, Capacity, Speed, Manufacturer, PartNumber

Este comando ayuda a localizar módulos sospechosos.

Ejemplo real de un servidor con congelamientos

En un servidor Dell Precision 5810 con Windows Server 2019 aparecían:

congelamientos RDP;
caídas temporales de red;
micro freezes de varios segundos;
latencia RAID;
sin errores críticos de disco.

Después del análisis se detectó:

WHEA Logger 47;
errores ECC corregidos;
un módulo RAM diferente al resto.

Configuración encontrada:

7x Samsung M393A2K40BB1-CRC
1x Samsung M393A2K40CB1-CRC

Las memorias ECC mezcladas suelen causar problemas en plataformas X99 y Xeon.

Por qué el servidor se congela aunque no exista BSOD

La memoria ECC corrige errores automáticamente.

Cuando ocurre un corrected ECC error:

el controlador de memoria reintenta operaciones;
el procesador revisa páginas dañadas;
se generan pausas internas del sistema;
el memory controller realiza retraining.

El usuario simplemente observa:

un freeze;
una desconexión RDP;
un corte de red;
lag del servidor;
respuesta lenta del sistema.

Cómo probar módulos DIMM correctamente

La forma más práctica consiste en retirar módulos por pares.

Identifique el módulo diferente.
Retire el DIMM sospechoso junto con su par.
Inicie el servidor.
Supervise nuevos eventos WHEA durante varios días.

Si los eventos desaparecen, el problema probablemente estaba relacionado con esa memoria.

Por qué es mejor retirar memoria por pares

Los procesadores Xeon utilizan controladores de memoria multicanal.

Por eso es recomendable:

mantener simetría entre canales;
evitar configuraciones desequilibradas;
no mezclar revisiones diferentes;
preservar el funcionamiento correcto del memory interleaving.

Comandos útiles para diagnosticar freezes del servidor

Latencia de disco:

Get-Counter ‘\PhysicalDisk(_Total)\Avg. Disk sec/Transfer’

Cola del disco:

Get-Counter ‘\PhysicalDisk(_Total)\Current Disk Queue Length’

Errores RAID Intel:

Get-WinEvent -LogName System -MaxEvents 1000 | Where-Object { $_.ProviderName -match «storport|iaStor|RST|RAID» }

Errores de disco:

Get-WinEvent -LogName System -MaxEvents 1000 | Where-Object { $_.ProviderName -match «disk|ntfs|volsnap|stornvme|storahci» }

Errores frecuentes de los administradores

Ignorar WHEA porque no existe BSOD.
Mezclar módulos ECC diferentes.
No actualizar BIOS.
Usar drivers antiguos Intel RSTe.
Confundir freezes de memoria con problemas de Windows.
Ignorar errores corregidos ECC durante meses.

Qué más puede provocar WHEA 47

No siempre el problema es únicamente la memoria.

También pueden causar WHEA:

memory controller del procesador;
placa base;
contactos DIMM defectuosos;
sobrecalentamiento VRM;
PCIe instability;
controladores RAID Intel;
firmware antiguo.

Preguntas frecuentes

¿Es peligroso WHEA Logger 47?

Sí. Es una señal de inestabilidad de hardware.

¿Puede ECC corregido provocar freezes?

Sí. Es uno de los síntomas más comunes.

¿Debo cambiar la memoria inmediatamente?

Primero conviene probar módulos DIMM por pares.

¿Puede el problema estar en el procesador?

Sí. El memory controller del Xeon puede generar errores WHEA.

¿BIOS update ayuda?

Muy frecuentemente, especialmente en X99 y Dell Precision.

¿Los errores RAID pueden parecer iguales?

Sí. Intel RSTe a veces genera síntomas similares.

¿Puedo ignorar los corrected ECC errors?

No es recomendable. Pueden convertirse en errores no corregibles.

Lea también

Marcadores

Si esta guía le ayudó, añada nuestro blog sobre memoria RAM y servidores Windows a sus favoritos.

Pulse Ctrl + D

WHEA Logger 47 en Windows Server 2019