Entrenamiento y Validación de un Modelo de Detección Ecográfica Prenatal de Cardiopatías Congénitas Estructurales Basado en el Uso de un Algoritmo de Aprendizaje Automático Profundo en Gestantes Derivadas al Centro de Referencia Perinatal Oriente (CERPO)
Dra. Karen Rumante · Dr. Max Monckeberg
Programa de Especialidad en Medicina Materno Fetal
Facultad de Medicina — Universidad de Chile
en colaboracion con EMERCOM SpA (desarrollo técnico e IA)
Mayo 2025
Las cardiopatías congénitas (CC) representan una de las anomalías estructurales mas frecuentes en el periodo prenatal. Hasta el 90% de los casos se presentan en fetos de bajo riesgo, lo que convierte al cribado ecográfico prenatal en una herramienta fundamental para su detección temprana. Sin embargo, la tasa de detección prenatal es variable, oscilando entre un 4.5% y un 50% según las series publicadas, condicionada por factores como la experiencia del operador y la calidad del equipo.
El presente proyecto propone el entrenamiento y validación de un modelo de aprendizaje automático profundo basado en redes neuronales convolucionales (CNN), utilizando imágenes ecográficas de los cinco planos cardíacos de Yagel obtenidos durante el screening cardíaco fetal de rutina en gestantes entre las 18 y 32 semanas de edad gestacional derivadas al CERPO, con el objetivo de alcanzar un rendimiento diagnóstico comparable al de un operador experto en la detección de cardiopatías congénitas estructurales.
Contexto y Fundamentos
Las cardiopatías congénitas (CC) representan las anomalías estructurales mas frecuentes detectables durante el periodo prenatal. Constituyen una causa significativa de morbimortalidad neonatal, y su detección temprana permite una planificacion adecuada del parto y tratamiento postnatal inmediato.
Hasta el 90% de las cardiopatías congénitas se presentan en fetos de bajo riesgo[1], lo que hace del cribado prenatal una herramienta fundamental. Sin embargo, la tasa de detección prenatal es notablemente variable, oscilando entre un 4.5% y un 50%[2], condicionada por factores como la experiencia del operador[3], la calidad del equipo ecográfico, y las condiciones de la paciente durante el examen.
Está variabilidad en la detección plantea un desafío crítico: ¿como mejorar las tasas de detección de manera consistente, independientemente de la experiencia del operador? La propuesta de este proyecto es explorar el uso de modelos de inteligencia artificial basados en redes neuronales convolucionales profundas como herramienta de apoyo diagnóstico.
En mujeres embarazadas que cursan embarazos unicos y en quienes se realiza una ecografía de screening de cardiopatías congénitas de rutina entre las 18 y 31+6 semanas de edad gestacional, utilizando imágenes de los 5 planos de Yagel: ¿puede un modelo de aprendizaje automático basado en algoritmos de redes neuronales convolucionales, entrenado con imágenes ecográficas de los cinco planos cardíacos de Yagel, alcanzar un rendimiento diagnóstico comparable al de un operador experto en la detección de cardiopatías congénitas estructurales?
Objetivo General
Entrenar y validar un modelo de aprendizaje automático profundo para la detección de anomalías cardíacas estructurales, utilizando imágenes ultrasonográficas de los 5 planos de Yagel, obtenidos durante el screening cardíaco fetal realizado en gestantes entre las 18 y 32 semanas de edad gestacional derivadas a CERPO, y comparar el rendimiento diagnóstico del modelo desarrollado contra un gold estándar ecocardiográfico fetal.
Objetivos Específicos
- Ensamblar una cohorte prospectiva de pacientes embarazadas evaluadas con screening ecográfico cardíaco de rutina.
- Recopilar y etiquetar imágenes ecográficas de los 5 planos cardíacos de Yagel con un sistema de clasificación de 3 niveles.
- Entrenar un modelo CNN para cada plano de Yagel utilizando la cohorte de entrenamiento.
- Validar internamente el modelo y determinar puntos de corte óptimos mediante índices de Youden y Liu.
- Validar externamente el modelo contra el gold estándar ecocardiográfico fetal utilizando una cohorte independiente.
El Trabajo Médico en CERPO
Centro de Referencia Perinatal Oriente
El Centro de Referencia Perinatal Oriente (CERPO) es un centro especializado del sistema de salud público chileno, dependiente del Servicio de Salud Metropolitano Oriente, dedicado a la evaluación y seguimiento de embarazos de alto riesgo. CERPO recibe derivaciones de múltiples centros de atención primaria y hospitales del área oriente de Santiago, constituyendo un punto crítico en la cadena de detección prenatal de anomalías congénitas.
El Screening Cardíaco Fetal
El screening cardíaco fetal se realiza mediante ecografía entre las 18 y 32 semanas de edad gestacional. Siguiendo las guias de la ISUOG[5], el examen sistemático del corazón fetal se basa en la obtención de cinco cortes axiales secuenciales propuestos por Yagel et al.[4]
Los 5 Planos Cardíacos de Yagel
Propuestos por Yagel et al. (2001) como método sistemático para la evaluación cardíaca fetal completa mediante cinco cortes axiales secuenciales.
Corte transversal del abdomen fetal superior que permite evaluar la posición del estómago, aorta descendente y vena cava inferior para determinar el situs visceral.
Vista axial del corazón fetal que muestra ambas aurículas y ventrículos. Es el plano mas importante del screening cardíaco y permite evaluar 14 puntos anatómicos clave.
Muestra la continuidad entre el septum interventricular y la raíz aórtica, permitiendo evaluar la salida del ventrículo izquierdo.
Visualiza la arteria pulmonar emergiendo del ventrículo derecho y su cruce normal con la aorta.
Corte transversal superior que muestra la arteria pulmonar, aorta y vena cava superior en relación con la tráquea. Permite evaluar el tamaño relativo y la disposición espacial de los grandes vasos.
Checklist de Evaluación — Vista de 4 Cámaras
La vista de 4 cámaras es el plano mas importante del screening cardíaco fetal. Se evalúan sistemáticamente 14 puntos anatómicos:
Reclutamiento de Pacientes
El estudio contempla el reclutamiento prospectivo de gestantes que cumplen los criterios de inclusión, organizadas en dos cohortes independientes:
- 70% de los datos para entrenamiento del modelo
- 30% para validación interna
- Partición aleatoria estratificada
- Cohorte independiente para validación
- Comparacion contra gold estándar ecocardiográfico
- Evaluación de rendimiento diagnóstico real
El proceso de reclutamiento incluye la aplicación de criterios de inclusión y exclusión, la obtención de consentimiento informado, y la administración de una encuesta pre-especificada digital. Cada participante es evaluada con una ecografía cardíaca básica de screening y, adicionalmente, con una evaluación ecocardiográfica fetal avanzada que constituye el gold estándar diagnóstico.
Seguimiento Postnatal
Se realiza seguimiento postnatal de cada participante mediante revision de fichas clínicas y contacto telefónico, con el objetivo de confirmar o descartar los hallazgos prenatales y establecer el diagnóstico definitivo.
Proceso de Etiquetado de Imágenes
Cada imagen ecográfica se evalúa en CVAT (Computer Vision Annotation Tool) mediante un sistema jerárquico de 3 niveles diseñado por el equipo médico de CERPO, con un total de 39 puntos de evaluación distribuidos en los 5 planos de Yagel.
Sistema de Etiquetado — 3 Niveles
Identificación del plano de Yagel en cada imagen. Incluye la opción de marcar que el corte no fue obtenido.
Evaluación de cada estructura anatómica por plano. Cada checkpoint se clasifica en 3 estados:
Clasificación final: Normal o Anormal con diagnóstico específico usando el sistema de codificacion CRP (73 códigos).
Clasificación de Cardiopatías — Sistema CRP
El diagnóstico terciario utiliza un sistema propio de 73 códigos organizados en 9 categorías. Formato: CRP[categoría].[subcategoria].[específico]
Checklist Anatómico por Plano (Nivel Secundario)
Cada estructura se evalúa como Normal, Anormal o No Evaluable.
| # | Estructura | N | A | NE |
|---|---|---|---|---|
| 1. | Circunferencia Abdominal | |||
| 2. | Estómago a izquierda | |||
| 3. | Aorta posterior y a la izquierda de la columna | |||
| 4. | VCI anterior y a la derecha de la columna | |||
| 5. | Segmento corto de la Vena Umbilical |
| # | Estructura | N | A | NE |
|---|---|---|---|---|
| 1. | Área Cardíaca | |||
| 2. | Posición cardíaca en hemitorax izquierdo | |||
| 3. | Ángulo cardíaco 45° +/-20 | |||
| 4. | 4 cámaras presentes | |||
| 5. | 2 atrios de similar tamaño | |||
| 6. | 2 ventrículos de similar tamaño | |||
| 7. | Concordancia Aurículo Ventricular | |||
| 8. | FO de derecha a izquierda | |||
| 9. | Septum interauricular indemne | |||
| 10. | Al menos una vena pulmonar en AI | |||
| 11. | Banda moderadora en VD | |||
| 12. | Cruz cardíaca indemne | |||
| 13. | Offseting valvular normal | |||
| 14. | Aorta descendente posterior a AI | |||
| 15. | Derrame pericárdico < 2 mm |
| # | Estructura | N | A | NE |
|---|---|---|---|---|
| 1. | Se visualizan dos aurículas y dos ventrículos | |||
| 2. | Valvula aórtica abriendo libremente | |||
| 3. | Continuidad mitro aórtica | |||
| 4. | Continuidad entre el tabique interventricular y pared posterior de la aorta ascendente | |||
| 5. | Raíz aórtica | |||
| 6. | Aorta descendente retrocardíaca |
| # | Estructura | N | A | NE |
|---|---|---|---|---|
| 1. | Tronco pulmonar en su origen en VD | |||
| 2. | Valvula pulmonar abriendo libremente | |||
| 3. | Bifurcación de arteria pulmonar en izquierda y derecha | |||
| 4. | Aorta ascendente | |||
| 5. | Aorta descendente retrocardíaca | |||
| 6. | VCS a la derecha de la aorta mas posterior |
| # | Estructura | N | A | NE |
|---|---|---|---|---|
| 1. | Grandes vasos de tamaño similar | |||
| 2. | Número de 3 vasos correctos | |||
| 3. | Arco aórtico transverso a izquierda de tráquea | |||
| 4. | Arteria pulmonar principal anterior y a izquierda | |||
| 5. | Flujos anterógrados en forma de V con Doppler color | |||
| 6. | VCS a la derecha de la tráquea | |||
| 7. | Tráquea a la derecha de la aorta |
Los 5 cortes de Yagel — ejemplo visual
Estas son las clases que el Modelo 1 distingue. Ejemplo representativo de cada plano sobre ecografías reales del CERPO.

Estadísticas del Dataset (reporte final)
Snapshot al 2026-05-27. Hay ~1.500 imágenes adicionales pendientes de etiquetado (trabajo en curso).
El subset C4C para Modelo 2 cubre 73 pacientes con C4C usable, con desbalance ~3:1 normal:anormal a nivel paciente. 35 pacientes tienen diagnóstico CHD con códigos CRP específicos (CRP1.x — cardiopatías cono-truncales, CRP4.x — septales, etc.).
Una auditoría posterior detectó que la primera versión del pipeline derivaba el label normal/anormal de criterios anatómicos secundarios (atajos heurísticos sobre etiquetas CVAT auxiliares) en lugar de la observación clínica primaria 99901_Observación del Excel maestro. La corrección de la fuente de label:
- Aumentó el número de C4C anormales image-level de 53 → 65.
- Alineó el dataset con el Excel maestro del cardiólogo.
- Mejoró la performance de Modelo 2 en +16 puntos de AUC en validación cruzada.
La auditoría de etiquetas contra ground-truth clínico queda documentada como práctica recomendada para todo proyecto análogo.
Distribucion por Plano
Construcción del Sistema de Detección
El sistema opera como una cascada de dos modelos independientes entrenados sobre EfficientNet-B3 pre-entrenado en ImageNet. Esta arquitectura desacopla la tarea anatómica (identificar el plano) de la tarea clínica (detectar cardiopatía), permitiendo que cada modelo se especialice y que la métrica final agregue evidencia a nivel paciente.
Pipeline en cascada
Arquitectura común — EfficientNet-B3
Ambos modelos comparten el mismo backbone: EfficientNet-B3 (≈11M parámetros) de la librería timm, inicializado con pesos pre-entrenados en ImageNet. Las imágenes se redimensionan a 320×320 px. El cabezal y la función de pérdida cambian según la tarea:
- Modelo 1 (clasificación 5 clases): cabezal lineal de 5 salidas · CrossEntropy con pesos por clase · ensemble de 5 folds.
- Modelo 2 (binario sobre C4C): cabezal lineal de 2 salidas · Focal Loss (γ = 2, α = [1, 1]) +
WeightedRandomSampler· ensemble de 5 folds.
Optimizador AdamW (lr = 1×10⁻⁴, weight_decay = 1×10⁻²) · augmentación: RandomResizedCrop, flips horizontales, brillo/contraste, blur leve, CoarseDropout.
Partición de datos — sin leakage entre pacientes
Para evitar fuga de información, todas las imágenes de un mismo paciente quedan en el mismo split. La partición es estratificada por paciente, no por imagen, con semilla fija 42 (reproducible). La proporción objetivo es 70/15/15 a nivel paciente, alcanzada mediante asignación greedy.
Excepción FORCE_TRAIN: el paciente ID-191 tiene 147 imágenes C4C (≈30% del dataset C4C). Se forzó al split train para que no domine ningún fold de val ni test.
El TEST set nunca fue visto por ningún modelo durante entrenamiento ni durante la selección de hiperparámetros. Es la única métrica reportada como capacidad de generalización real del sistema.
Validación cruzada y ensemble
Sobre el conjunto train+val se ejecuta 5-fold cross-validation estratificada por paciente. Por cada fold se entrena un modelo independiente y se selecciona el checkpoint con mejor F1 macro (Modelo 1) o mejor AUC (Modelo 2). La inferencia final promedia las predicciones softmax de los 5 checkpoints (ensemble), reduciendo varianza y mejorando calibración.
Modelo 2 — Propagación de label y umbral operativo
Las etiquetas de normalidad se propagan a nivel paciente: toda C4C de un paciente con cardiopatía hereda el label anormal, aunque el defecto anatómico no sea visible en ese frame específico. Este enfoque sigue a Arnaout et al. (Nature Medicine, 2021) y obliga al modelo a aprender características generales asociadas con CHD en lugar de firmas anatómicas muy específicas que podrían no estar presentes en imágenes nuevas.
El re-balanceo combina WeightedRandomSampler en cada batch con Focal Loss (γ = 2, α = [1, 1]) — pesos uniformes en la loss: el sampler ya regula la proporción. El doble re-pesaje (sampler + α desbalanceado) causó colapso en una ablación previa. El umbral operativo se calibra ex-post sobre validación para sensibilidad = 1.0, alineado con el criterio clínico del CERPO de no perder casos anormales.
Agregación a nivel paciente — prob_max
Para cada paciente con múltiples C4C, las probabilidades de anormalidad se agregan tomando el máximo:
Esta estrategia se alinea con el criterio operativo: una sola imagen sospechosa amerita derivación. Se comparó contra prob_mean (AUC 0.844) y prob_top2 (AUC 0.911); prob_max ganó con AUC 0.933 en TEST.
Métricas y curva ROC
La validación reporta AUC, sensibilidad, especificidad y matriz de confusión. Para Modelo 2 se calcula adicionalmente un intervalo de confianza por bootstrap (2.000 remuestreos sobre pacientes de TEST) para cuantificar la incertidumbre dada por el tamaño del set:
Decisiones de diseño — ablaciones descartadas
Durante el desarrollo se probaron sistemáticamente las siguientes alternativas, todas descartadas con evidencia cuantitativa. Esta tabla forma parte del marco metodológico: ninguna intervención algorítmica estándar rescata un dataset insuficiente para una tarea sutil. El techo de performance actual está dado por el tamaño y diversidad anatómica del dataset etiquetado, no por la elección del modelo.
| Intervención probada | Resultado | Razón del descarte |
|---|---|---|
| Pre-entrenamiento SSL (SimSiam, 200 epochs, 2.451 imgs) | M1 F1m −0.04 · M2 AUC −0.03 vs ImageNet | Dataset insuficiente para SSL; ImageNet es suficiente a esta escala |
| Focal Loss + α = [1, 3] sobre Modelo 2 | Colapso a clase positiva (spec ≈ 0.21) | Doble re-pesaje (sampler + α desbalanceado) sobreajusta a anormales |
| Backbone EfficientNet-B0 sobre Modelo 2 | AUC val −0.06 vs B3 | B3 captura mejor la geometría sutil de las cámaras cardíacas |
| Labels image-level (sin propagación) sobre Modelo 2 | AUC TEST = 0.38 (colapso en generalización) | Dataset insuficiente para aprender label image-level confiable |
| Label desde criterios anatómicos secundarios (CVAT auxiliar) | AUC val −0.16 vs label clínico explícito | Atajos heurísticos no replican la observación clínica primaria |
Resultados Preliminares
El pipeline opera en cascada de dos modelos: el Modelo 1 identifica cuál de los 5 planos de Yagel está presente en la imagen. Si se trata del corte 4 cámaras (C4C), el Modelo 2 estima la probabilidad de cardiopatía y se agrega a nivel paciente.
Modelo 1 — Clasificación de planos cardíacos
Tarea de 5 clases (SA, C4C, TSVI, TSVD, 3VT). Backbone EfficientNet-B3 pre-entrenado en ImageNet, ensemble de 5 folds. TEST: 104 imágenes en 30 pacientes.
| Plano | Prec. | Recall | F1 | n |
|---|---|---|---|---|
| 01_SA — Situs Abdominal | 0.882 | 1.000 | 0.938 | 15 |
| 02_C4C — 4 Cámaras | 0.980 | 0.889 | 0.932 | 54 |
| 03_TSVI — Tracto Sal. VI | 0.900 | 0.818 | 0.857 | 11 |
| 04_TSVD — Tracto Sal. VD | 0.909 | 1.000 | 0.952 | 10 |
| 05_3VT — 3 Vasos + Tráquea | 0.706 | 0.857 | 0.774 | 14 |

La generalización en TEST es superior a la validación cruzada (+0.18 F1 macro), señal de que el modelo aprendió representaciones robustas y no está sobreajustado. El plano más difícil sigue siendo 3VT, consistente con su mayor variabilidad anatómica.
Modelo 2 — Detección de cardiopatía sobre C4C
Clasificador binario (normal / anormal) entrenado únicamente sobre cortes 4 cámaras. Agregación a nivel paciente con estrategia prob_max — alineada con el criterio clínico: una sola imagen sospechosa amerita derivación.
| Métrica (paciente-level) | Valor TEST |
|---|---|
| Sensibilidad | 1.000 |
| Especificidad | 0.889 |
Comparación de estrategias de agregación a paciente
| Estrategia | AUC | T óptimo | Sens | Spec |
|---|---|---|---|---|
| prob_maxOPERATIVA | 0.933 | 0.811 | 1.00 | 0.889 |
| prob_top2 | 0.911 | 0.773 | 1.00 | 0.778 |
| prob_mean | 0.844 | 0.475 | 1.00 | 0.667 |

Matriz de confusión (14 pacientes test, prob_max)
Predicciones por paciente en TEST
| Paciente | n C4C | Verdad | prob_max | Decisión |
|---|---|---|---|---|
| ID-83 | 3 | ANORMAL | 0.999 | SOSPECHOSO |
| ID-87 | 6 | ANORMAL | 0.993 | SOSPECHOSO |
| ID-11 | 5 | ANORMAL | 0.982 | SOSPECHOSO |
| ID-52 | 4 | ANORMAL | 0.817 | SOSPECHOSO |
| ID-29 | 1 | ANORMAL | 0.811 | SOSPECHOSO |
| ID-183 | 14 | NORMAL | 0.990 | SOSPECHOSO ⚠ |
| ID-15 | 1 | NORMAL | 0.808 | NORMAL |
| ID-90 | 2 | NORMAL | 0.793 | NORMAL |
| ID-14 | 3 | NORMAL | 0.746 | NORMAL |
| ID-82 | 6 | NORMAL | 0.556 | NORMAL |
| ID-72 | 1 | NORMAL | 0.482 | NORMAL |
| ID-98 | 1 | NORMAL | 0.418 | NORMAL |
| ID-10 | 4 | NORMAL | 0.416 | NORMAL |
| ID-55 | 3 | NORMAL | 0.405 | NORMAL |
El modelo detectó los 5 pacientes anormales (sensibilidad = 100%) y clasificó correctamente 8 de 9 normales. El único falso positivo es ID-183, un paciente normal con 14 imágenes C4C: al tomar prob_max bastó una sola imagen sospechosa para marcar el caso. En la práctica clínica esto se resuelve con revisión humana rápida.
- El TEST de Modelo 2 contiene sólo 14 pacientes con C4C; el intervalo bootstrap [0.73, 1.00] refleja esta limitación de tamaño. Validación prospectiva con ≥50 pacientes angostaría el intervalo.
- Validación monocéntrica (sólo CERPO). La generalización a otros centros, equipos y operadores requiere validación externa.
- Modelo 2 sólo opera sobre C4C; anormalidades visibles únicamente en TSVI, TSVD o 3VT no son capturadas por esta versión.
- Modelos congelados al estado de entrenamiento — sin retroalimentación clínica continua aún.
Demo: Predicción de Cardiopatía Congénita
El demo expone exactamente el mismo pipeline reportado en los resultados: ensemble de 5 folds de EfficientNet-B3 para el Modelo 1 (clasificación de plano de Yagel) y para el Modelo 2 (detección de cardiopatía sobre C4C). La inferencia corre en CPU; ~5 segundos por paciente con 10–15 imágenes.
¿Cargás muchas imágenes y la página se siente apretada? Abrir el demo en pantalla completa.
Equipo Investigador
Equipo Médico — CERPO
Programa de Especialidad en Medicina Materno Fetal, Facultad de Medicina, Universidad de Chile.
Médica en formación en el Programa de Especialidad en Medicina Materno Fetal, Facultad de Medicina, Universidad de Chile.
Especialista en Medicina Materno Fetal, Facultad de Medicina, Universidad de Chile. Experiencia en ecocardiografía fetal avanzada.
Equipo Técnico —
Desarrollo del pipeline de IA, sistema de etiquetado, infraestructura de inferencia y plataforma web.
Lidera el desarrollo técnico del proyecto: arquitectura de IA, pipeline de entrenamiento y validación de los modelos CNN, e integración con el flujo clínico de CERPO.
Supervisa las decisiones técnicas clave del pipeline de IA, infraestructura de inferencia y estándares de calidad del desarrollo.
Diseño del sistema de clasificación de hallazgos ecográficos de CERPO, estructurando las categorías diagnósticas que utiliza el modelo.
Soporte en la verificación y análisis de los datos del sistema de clasificación de hallazgos.
Cronograma
El proyecto se desarrolla entre junio de 2025 y julio de 2026, abarcando las fases de reclutamiento, etiquetado, entrenamiento, validación y publicación.
Referencias y Publicaciones
Referencias
- [1]van der Linde D, Konings EE, Slager MA, et al. Birth prevalence of congenital heart disease worldwide: a systematic review and meta-analysis. J Am Coll Cardiol. 2011;58(21):2241-2247.
- [2]Van Nisselrooij AEL, Haak MC, et al. Why are congenital heart defects being missed? Ultrasound Obstet Gynecol. 2020;55(6):747-757.
- [3]Tegnander E, Eik-Nes SH. The examiner's ultrasound experience has a significant impact on the detection rate of congenital heart defects at the second-trimester fetal examination. Ultrasound in Obstet & Gynecol. 2006;28(1):8-14.
- [4]Yagel S, Cohen SM, Achiron R. Examination of the fetal heart by five short-axis views: A proposed screening method for comprehensive cardiac evaluation. Ultrasound in Obstet & Gynecol. 2001;17(5):367-369.
- [5]Carvalho JS, Allan LD, Chaoui R, et al. ISUOG Practice Guidelines (updated): fetal cardiac screening. Ultrasound Obstet Gynecol. 2023;61(5):788-803.
Publicaciones del Proyecto
Pendiente — Las publicaciones derivadas de esta investigación serán listadas aquí una vez disponibles.
Información de Contacto
Investigadores
krumante@uchile.cl
mmonckeberg@uchile.cl
Institucion
Centro de Referencia Perinatal Oriente (CERPO)
Programa de Especialidad en Medicina Materno Fetal
Facultad de Medicina
Universidad de Chile
Santiago, Chile
Colaboración Técnica
EMERCOM SpA
Desarrollo de infraestructura de IA, pipeline de entrenamiento y plataforma web.