SHAP explicado: cómo la IA le dice exactamente a sus ingenieros por qué disparó una alerta

«Porque el modelo lo dijo» no es suficiente

Imagine esta conversación en su reunión matutina de mantenimiento:

«La IA dice que hay que reemplazar el rodamiento del Motor 12B.»

«¿Por qué?»

«Porque la confianza del modelo es del 91 %.»

«¿91 % de qué? ¿Qué está fallando exactamente? ¿Es vibración? ¿Temperatura? ¿Es realmente el rodamiento o podría ser alineación?»

Silencio.

Este es el momento en que la mayoría de las herramientas de mantenimiento basadas en IA pierden a las personas que más importan: los ingenieros de fiabilidad que, en última instancia, tienen que tomar la decisión. Y tienen razón en cuestionar. Décadas de experiencia les dicen que un número sin contexto es inútil, o peor aún, peligroso.

El problema de confianza es real

Los ingenieros de fiabilidad no son obstinados cuando rechazan la IA de caja negra. Son responsables. Saben que:

Un modelo entrenado con datos limitados puede aprender patrones incorrectos
La deriva de sensores, los errores de calibración y los cambios de proceso generan señales falsas
El costo de una parada incorrecta puede ser de decenas de miles de euros por hora
El costo de un fallo no detectado puede ser aún mayor

Así que cuando un sistema de IA dice «fallo detectado» sin explicar su razonamiento, se ignora. Los estudios sobre adopción de mantenimiento predictivo muestran consistentemente lo mismo: la tecnología no es el cuello de botella, la confianza sí lo es. Los ingenieros necesitan entender el «por qué» antes de actuar sobre el «qué».

Precisamente para esto fue diseñado SHAP.

Qué es SHAP realmente

SHAP son las siglas de SHapley Additive exPlanations. El nombre proviene de Lloyd Shapley, un economista ganador del Premio Nobel que resolvió un problema fundamental en la teoría de juegos: ¿cómo distribuir de forma justa el resultado de un esfuerzo colectivo entre los jugadores individuales?

Aplicado al aprendizaje automático, el «equipo» es el conjunto de características de entrada (lecturas de sensores, métricas calculadas), y el «resultado» es la predicción del modelo. SHAP responde a la pregunta: ¿cuánto contribuyó cada característica a esta predicción específica?

Una analogía sencilla. Imagine que su planta tuvo un día perfecto: cero anomalías, todo funcionando sin problemas. Esa es su línea de base. Luego algo cambia: la vibración sube, la temperatura aumenta, la corriente se vuelve errática. SHAP pregunta, para cada uno de esos cambios: «Si devolvemos esta característica a su valor normal, ¿cuánto cambiaría la predicción?» Hace esto para cada característica y cada combinación de características, produciendo una puntuación de contribución precisa para cada una.

El resultado no es un vago «estas características son importantes en general». Es específico para esta predicción, esta máquina, este momento: «Vibration RMS contribuyó +0,34 hacia la predicción de fallo. El delta de temperatura contribuyó +0,21. La desviación estándar de RPM contribuyó -0,05, empujando en realidad en dirección contraria a la predicción de fallo.»

Eso no es una caja negra. Eso es un informe de diagnóstico.

Cómo aplica Prevly esto. Prevly utiliza SHAP directamente para su modelo de Vida Útil Restante (RUL) basado en gradient boosting. Para los modelos de aprendizaje profundo —el autoencoder LSTM que detecta anomalías y la CNN que clasifica fallos de rodamientos— utiliza un método de atribución estrechamente relacionado, Integrated Gradients, que produce el mismo tipo de desglose de contribución por característica. El diagrama de cascada y la forma de leerlo son idénticos; solo difiere la matemática subyacente (valores de Shapley frente a gradientes integrados). Así que todo lo explicado en esta guía aplica a todas las alertas de Prevly, independientemente del modelo que las haya generado.

Cómo leer el diagrama de cascada: un ejemplo de fallo de rodamiento

Recorramos una predicción real. El modelo ha marcado un fallo de rodamiento en una bomba centrífuga con un 87 % de confianza. Seis características impulsaron la predicción. Aquí está el diagrama de cascada SHAP:

Valor base (promedio saludable): 0.12
───────────────────────────────────────────────
vibration_x_rms     ████████████████░  +0.34
temperature_delta   ██████████░        +0.21
current_kurtosis    █████░             +0.12
flow_rate_mean      ██░                +0.04
rpm_std             ▓░                 -0.05
pressure_slope      ▓▓░                -0.08
───────────────────────────────────────────────
Predicción final:                       0.70
                               (87 % de probabilidad de fallo tras sigmoid)

Leyendo de arriba a abajo:

vibration_x_rms (+0,34): Este es el factor más determinante. El RMS de vibración radial ha aumentado por encima de lo que el modelo considera normal para esta máquina bajo las condiciones operativas actuales. No simplemente «por encima del umbral», sino por encima de la línea de base aprendida para esta bomba específica a esta velocidad y carga. Un ingeniero con experiencia que vea esto pensaría de inmediato en: holgura mecánica, desequilibrio o defecto de rodamiento.

temperature_delta (+0,21): Esta no es la temperatura absoluta, sino la diferencia entre la temperatura del rodamiento y la temperatura de la carcasa. Un delta creciente significa que el rodamiento está generando más calor del que debería en relación con su entorno. Esto descarta cambios en la temperatura ambiente y apunta a fricción interna.

current_kurtosis (+0,12): La kurtosis mide la «agudeza» de la señal de corriente del motor. Una kurtosis elevada indica fluctuaciones de corriente breves e intensas, del tipo que se producen cuando un rodamiento dañado se engancha intermitentemente y obliga al motor a trabajar con mayor esfuerzo en ráfagas cortas. La kurtosis normal es cercana a 3,0 (gaussiana); el motor de este rodamiento muestra 4,8.

flow_rate_mean (+0,04): Una pequeña contribución positiva. El caudal ha caído ligeramente, coherente con un mayor rozamiento mecánico en la bomba, pero insuficiente por sí solo para generar una alerta.

rpm_std (-0,05): Aquí es donde resulta interesante. El valor negativo significa que esta característica está empujando en contra de la predicción de fallo. La velocidad de giro es estable, lo que indica al ingeniero que no es un problema del accionamiento, el variador de frecuencia o la variación de carga. La velocidad del motor es constante. Eso ayuda a acotar el diagnóstico: el problema está aguas abajo del accionamiento.

pressure_slope (-0,08): La tendencia de la presión de descarga es plana. Una vez más, esto es evidencia en contra de ciertos modos de fallo (como la erosión del impulsor o la cavitación, que mostrarían cambios de presión). El modelo lo tiene en cuenta: no solo examina lo que está mal, sino también lo que está normal.

Segundo ejemplo: fallo en el bobinado del estátor del motor

Los fallos de rodamiento son el ejemplo de libro de texto, pero SHAP funciona de forma idéntica para los modos de fallo eléctrico, donde las contribuciones de características cuentan una historia completamente diferente.

El modelo marca el Motor 22C con un 79 % de probabilidad de fallo. Aquí está el diagrama de cascada SHAP:

Valor base (promedio saludable): 0.15
───────────────────────────────────────────────
current_rms         ██████████████░    +0.28
current_imbalance   █████████░         +0.19
temperature_stator  ██████░            +0.14
vibration_x_rms     ██░                +0.04
power_factor        ▓▓░                -0.07
rpm_std             ▓░                 -0.03
───────────────────────────────────────────────
Predicción final:                       0.70
                               (79 % de probabilidad de fallo tras sigmoid)

El patrón es inmediatamente reconocible para cualquier especialista en motores: dominado por la corriente, no por la vibración. El RMS de corriente está elevado, el desequilibrio de fase va en aumento (indicando una resistencia de bobinado asimétrica) y la temperatura del estátor está subiendo: un cortocircuito entre espiras en fase inicial clásico. Mientras tanto, la vibración y la velocidad de giro son esencialmente normales, lo que descarta causas mecánicas.

Sin SHAP, la alerta diría «anomalía detectada en Motor 22C». El ingeniero optaría por revisar el rodamiento (el modo de fallo más común). Con SHAP, va directamente a las pruebas eléctricas —resistencia de aislamiento con megóhmetro, comparación de impulsos y termografía del bobinado— ahorrando horas de investigación misdirected.

Este ejemplo ilustra un punto crítico: SHAP no solo le dice que algo está mal, sino qué tipo de problema existe, orientando el flujo de diagnóstico antes de que un técnico llegue siquiera a la máquina.

SHAP frente a otros métodos de explicabilidad

SHAP no es el único enfoque para la explicabilidad del ML, pero tiene ventajas específicas para el uso industrial. LIME (Local Interpretable Model-agnostic Explanations) aproxima el modelo localmente con un modelo lineal más sencillo. Es más rápido de calcular, pero menos preciso: las atribuciones de LIME pueden variar entre ejecuciones para la misma predicción, lo que socava la confianza en un contexto de mantenimiento donde la consistencia es fundamental. Los pesos de atención de los modelos Transformer muestran en qué pasos temporales se enfocó el modelo, pero no proporcionan atribución por característica: usted sabe cuándo miró el modelo, pero no qué vio. SHAP proporciona contribuciones exactas, deterministas y por característica, fundamentadas en la teoría de juegos, lo que lo convierte en la opción más sólida cuando los ingenieros necesitan explicaciones repetibles y auditables sobre las que actuar.

Qué significa esto en la práctica

Un ingeniero que lee este desglose de SHAP llega a la misma conclusión que a partir de un análisis manual de vibraciones, pero en segundos en lugar de horas:

Vibración radial elevada + aumento de temperatura del rodamiento = defecto mecánico del rodamiento
La kurtosis de corriente confirma resistencia mecánica intermitente
La velocidad estable descarta problemas de accionamiento o eléctricos
La presión estable descarta problemas hidráulicos o de cavitación
Diagnóstico más probable: defecto en la pista exterior, fase inicial a media

Ahora dispone de una hipótesis específica y verificable. Puede programar una inspección por ultrasonidos, revisar el espectro de vibración para detectar frecuencias de defecto de rodamiento (BPFO) y tomar una decisión respaldada por datos sobre cuándo intervenir.

Compárelo con «anomalía detectada, confianza 87 %». Es la diferencia entre inteligencia accionable y ruido.

Por qué les interesa esto a los responsables de planta

La explicabilidad no es solo una comodidad técnica. Para los responsables de planta y los directores de operaciones, la atribución SHAP cumple tres funciones empresariales críticas:

Pista de auditoría. Cada predicción viene con un registro completo de lo que la impulsó. Cuando la dirección pregunta «¿por qué paramos la Línea 3 el martes?», la respuesta no es «la IA nos lo dijo». Es: «el RMS de vibración del rodamiento era 2,3 veces la línea de base, el delta térmico aumentaba a 0,4 grados por día y la kurtosis de corriente indicaba resistencia mecánica intermitente, coherente con un defecto en la pista exterior confirmado en la inspección». Eso se sostiene ante cualquier revisión.

Cumplimiento y normas. ISO 55000 (gestión de activos) e ISO 27001 (seguridad de la información) enfatizan ambas los procesos de toma de decisiones documentados. La atribución SHAP le proporciona documentación generada automáticamente, con marca de tiempo, para cada decisión de mantenimiento que involucró IA. Cuando el auditor pregunte cómo funciona su IA, usted podrá mostrarle exactamente qué considera y por qué.

Reducción del costo de falsos positivos. Cuando los ingenieros confían en las alertas —porque pueden verificar el razonamiento— actúan sobre ellas con más rapidez y precisión. No más fatiga de «el pastorcillo mentiroso», donde alertas válidas se desestiman porque el sistema tiene fama de generar falsas alarmas. Cada alerta incluye su propia evidencia, y los ingenieros pueden distinguir rápidamente entre un patrón de degradación real y un error del sensor.

Cómo lo implementa Prevly

En Prevly, SHAP no es un añadido posterior ni un complemento premium. Cada alerta de anomalía y cada predicción de RUL (Vida Útil Restante) incluye automáticamente las características contribuyentes más importantes con sus valores SHAP. La visualización en cascada está integrada en la vista de detalle de la alerta: los ingenieros la ven en el momento en que abren una alerta.

El sistema calcula la atribución SHAP en tiempo real utilizando el mismo modelo que generó la predicción. No hay una tubería de explicabilidad separada que mantener. Y dado que Prevly aprende una línea de base separada por máquina, los valores SHAP reflejan lo que es anormal para ese activo específico, no algún umbral genérico extraído de un libro de normas.

Para los equipos que quieran profundizar, el vector de características SHAP completo está disponible a través de la API, lo que permite la integración con flujos de trabajo CMMS existentes, paneles personalizados o herramientas de análisis de causa raíz.

La confianza es el requisito previo

El mejor modelo de ML del mundo no vale nada si nadie actúa según sus resultados. SHAP cierra la brecha entre lo que la IA puede detectar y lo que los ingenieros realmente confiarán. Convierte una predicción en una conversación, una en la que la IA muestra su trabajo y el ingeniero decide qué hacer con él.

Eso no es IA sustituyendo la experiencia. Es IA potenciando la experiencia con velocidad y consistencia.

Inicie una prueba gratuita en prevly.org y vea predicciones de IA explicables sobre los datos de sus propios equipos. Cada alerta incluye el «por qué» integrado.

Lecturas relacionadas: Predicción de vida útil restante explicada · Por qué fallan las alertas por umbral · De los sensores a las predicciones