Real World Data - Introducción

08 de Abril de 2025

 ¿Por qué en CROMODATA nos interesan los datos del mundo real?

Porque nos interesan las personas del mundo real.

En apenas 10 minutos te brindamos una introducción al universo de los Datos del Mundo Real, para que en futuras entregas puedas profundizar con una base sólida y una mirada informada.
Hacé click en los botones de acá abajo si querés un poco de contexto antes de arrancar:
RWD: Real World Data: Datos del  Mundo Real: Se generan en la práctica clínica del día a día y todo lo relacionado con la salud fuera de los entornos de investigación controlados. Cuando hablamos de Datos del Mundo Real nos referimos a un volumen importante de datos. Son datos sin nombre y apellido, son anónimos. Porque la clave de esos datos está en la información global implícita y las conclusiones que podemos obtener de su análisis.
RWE: Real World Evidence: Evidencia del Mundo Real: Surge del análisis de los Datos del Mundo Real. Este análisis implica el diseño y aplicación de algoritmos sólidos y métodos estadísticos que permitan responder a una pregunta particular o resolver un problema.  Un ejemplo rápido para entenderlo son los datos que se recolectaron durante la pandemia de COVID-19. Día a día se recolectaba información en tiempo real sobre la cantidad de personas infectadas, el rango de edad de estas personas e incluso datos sobre enfermedades previas o datos clínicos claves sobre estos pacientes. Los datos luego se anonimizaban y se estructuraban. Y así se llegaba a un resumen muy útil de toda esa información un poco caótica y dinámica. Por ejemplo para el 15 de octubre de 2020 se sabía que el número de casos de COVID-19 había superado los 38 millones y el número de muertos había superado el millón en todo el mundo. Del total de casos se sabía también que un gran porcentaje de las personas que sufrían más complicaciones tenían condiciones previas como enfermedades cardíacas graves, obesidad grave y diabetes, entre otras. Y aquí es cuando un investigador podría intentar descubrir si existe verdaderamente una relación entre la edad, las enfermedades previas y el riesgo asociado a la enfermedad, y para ello diseñar algoritmos que intenten responder estas preguntas, es decir generar evidencia. O incluso elaborar predictores de riesgo para apoyar decisiones de prevención y tratamiento.
Ómics: Ómicas: Genómica, transcriptómica, proteómica, metabolómica, etc. Las Ómicas son un conjunto de disciplinas científicas que estudian las moléculas biológicas que componen un organismo. Estas son:  genómica, transcriptómica, proteómica,  metabolómica, epigenómica, microbiómica, lipidómica, glicómica, interactómica, fenómica, metagenómica, exposómica, farmacogenómica. La genómica y la transcriptómica son hoy en día las más utilizadas. La genómica representa el estudio del genoma completo de un organismo, y la transcriptómica, el análisis del conjunto completo de ARN mensajeros (ARNm) transcriptos- expresión génica. En todos los casos se analizan grandes cantidades de datos biológicos, ya sean  genes, proteínas, metabolitos, etc.
 IA: Inteligencia Artificial / ML: Machine Learning: Aprendizaje Automático / DL: Deep Learning: Aprendizaje Profundo. La inteligencia artificial es un campo de la informática que aplica herramientas específicas que permiten realizar tareas complejas como razonar, aprender, tomar decisiones o entender el lenguaje natural. Machine Learning (aprendizaje automático) y Deep Learning (aprendizaje profundo) son ramas de la IA donde el desarrollo de algoritmos y modelos estadísticos permiten a las computadoras aprender automáticamente a partir de datos y mejorar su desempeño sin ser programadas explícitamente para cada tarea.
Target learning: Aprendizaje dirigido: Es un enfoque metodológico muy utilizado que combina tanto inferencia estadística como aprendizaje automático. Se busca entrenar un modelo a partir de un conjunto de datos clasificados, donde para cada entrada existe una salida asociada. Es una de las principales ramas del aprendizaje automático (ML).
La utilización de Datos del Mundo Real (RWD, Real World Data) está transformando la forma en que se investiga y se toman decisiones en el ámbito de la medicina y la salud en general.


En los últimos años, una serie de avances interconectados ha impulsado esta transformación, especialmente en el ámbito médico. Algunos de los más destacados son:

🔹 La expansión de Internet y las redes sociales.
🔹 Progresos extraordinarios en Inteligencia Artificial (IA) y computación cuántica.
🔹 Avances en biotecnología, genómica y otras ciencias "ómicas".
🔹 Crecimiento de la telemedicina y los dispositivos portátiles (wearables).
🔹 Desarrollo acelerado de la medicina personalizada.
🔹 Incremento significativo en la capacidad de almacenamiento y procesamiento de datos (una de nuestras áreas de expertise en Cromodata) que posibilitan el acceso y el uso de grandes volúmenes de datos.

Y si a esto le agregamos además el aumento de los costos y las reconocidas limitaciones de los ensayos clínicos tradicionales, los datos del mundo real se presentan como una herramienta invaluable que nos permitirá acercar la investigación clínica a la práctica, al mundo real.

Algunos usos valiosos de los datos RWD en la salud ya son bien conocidos. El reclutamiento de pacientes para ensayos clínicos, la comparación de la eficacia de medicamentos y tratamientos, y el monitoreo de su seguridad, por ejemplo, son tres de los más comunes en el ámbito farmacéutico. En adelante, les presentaremos algunos más novedosos y prometedores.

Aproximadamente el 30% del volumen de datos mundial es generado por la industria de la salud

Los datos del mundo real (RWD) provienen de diversas fuentes, pero las más comunes son: Historiales Clínicos Electrónicos (HCE), registros de pacientes, bases de datos administrativas (entre ellas los registros clínicos, de aseguradoras y datos de facturación), bases de datos de registro de enfermedades, registro de productos farmacéuticos y dispositivos de salud.

Los datos RWD pueden estar más o menos accesibles, estructurados y pulidos para su uso, y esto determina la rapidez y facilidad con la que pueden aplicarse análisis estadísticos y modelos predictivos sobre ellos. El objetivo final es generar evidencia (RWE, Real world evidence) que pueda utilizarse para realizar inferencias, validar hipótesis, diseñar estudios, apoyar decisiones regulatorias, desarrollar políticas de salud pública o incluso guiar la práctica médica.

Uno de los grandes problemas que enfrenta hoy Latinoamérica y muchos países del mundo es el alto nivel de fragmentación de estos datos, lo cual dificulta su uso. Y así es como emerge un nicho muy prometedor en el que se asegure el acceso a conjuntos de datos médicos interoperables y seguros. Esto será fundamental de aquí al futuro para la mayoría de los avances en medicina, para el entrenamiento de IA, para el desarrollo de fármacos, descubrimientos científicos, investigación médica y medicina de precisión. Y también para, por ejemplo, atender necesidades médicas no satisfechas, estudiar subpoblaciones difíciles y evaluar la seguridad y eficacia de los medicamentos a largo plazo.


En la figura de acá abajo podrás ver  los generadores de datos RWD más comunes y más aprovechados al momento.

Y acá abajo te dejamos un poco de información. En realidad algunos generadores de datos son mucho más abarcativos y hay otros que recién ahora están empezando a incorporarse.
La data clínica abarca tanto los datos del Historial Clínico Electrónico (HCE)-es decir data relacionada con internaciones, intervenciones, tratamientos, consultas médicas, diagnósticos, síntomas, análisis de laboratorio e imágenes, y hasta notas de las historias clínicas - como también datos demográficos, resultados de pruebas de laboratorio, procedimientos, datos de patología/histología, imágenes de radiología, datos de microbiología, notas de los proveedores, informes de admisión/alta y progreso, estado funcional, etc.
Datos de pruebas genómicas y genéticas (SNP/paneles); datos multiómicos (proteómica, transcriptómica, metabolómica, lipidómica); y estado de otros biomarcadores.
Son rastreadores de actividad física, dispositivos portátiles y otras aplicaciones de salud para la medición de la actividad y la función corporal. Incluyen a los dispositivos móviles como los teléfonos inteligentes, tablets, dispositivos de monitorización y  asistentes digitales personales. Y también incluyen los dispositivos portátiles, que vendrían a ser los  relojes inteligentes o las pulseras de actividad (Fitbit, Apple Watch, etc.), que monitorean parámetros de salud como ritmo cardíaco, actividad física, niveles de oxígeno en sangre, calidad del sueño y otros.  Incluso otros dispositivos médicos como los monitores de presión arterial, termómetros digitales, oxímetros de pulso, monitores de glucosa en sangre, y cualquier dispositivo  que permita a los pacientes controlar su salud en tiempo real son generadores de datos.
Reclamaciones médicas y otros datos sobre el uso de medicamentos y tratamientos. También incluyen los registros informados por pacientes: encuestas, dietas, hábitos, registros de salud personales, informes de eventos adversos, medidas de calidad de vida, entre otros. Y aquí también se incluyen otros registros de aseguradoras y facturación.
Registros administrativos, terapias concomitantes, datos de punto de venta y reclamaciones médicas.
Factores climáticos, contaminantes, infecciones, hábitos de vida (dietas, hábitos), registros de salud personales, informes de eventos adversos, medidas de calidad de vida, entre otros.
Carga de enfermedad (o disease burden), características clínicas, prevalencia/incidencia, tasas de tratamiento, uso de recursos y costos, control de enfermedades,  medidas de calidad de vida, etc.
Datos históricos sobre condiciones de salud y alergias relacionadas con el paciente y su familia extendida, estado de tabaquismo, consumo de alcohol, hábitos generales y datos demográficos.

En los últimos años, varios datos RWD se volvieron particularmente relevantes, entre ellos los datos de laboratorio y genómicos (la genómica espacial particularmente), los datos de farmacéuticas, los datos oncológicos y de otras enfermedades prevalentes y/o raras, los datos sobre determinantes sociales de la salud (SDOH), y los datos de farmacias especializadas.

Los datos de salud ofrecen una oportunidad única para profundizar el conocimiento en enfermedades raras. Y en este sentido, las empresas biofarmacéuticas afrontan dificultades para reclutar grandes poblaciones de estudio.

En particular, los datos “omicos” (genómicos, epigenómicos, microbiomicos,  farmacogenómicos, transcriptómicos, proteómicos, metabolómicos, entre otros) poseen un potencial transformador, tanto para la investigación sanitaria como para la práctica clínica. De hecho, los datos genómicos están ganando mucha popularidad debido al aumento de las terapias dirigidas a biomarcadores, muy relacionado con lo que hoy conocemos como medicina de precisión y medicina personalizada. La genómica espacial, la combinación de secuenciación genómica o transcriptómica con técnicas de localización espacial, es una disciplina emergente dentro de las ciencias ómicas con una gran proyección de mercado y múltiples aplicaciones clínicas muy valiosas. Las más importantes son cáncer, neurociencias, inflamación y enfermedades autoinmunes, y desarrollo embrionario.

Los datos de farmacia también resultan extremadamente útiles para los medicamentos especializados, que ahora representan aproximadamente el 75% de los medicamentos en desarrollo.

Los datos de imágenes médicas, que representan aproximadamente el 90 % de todos los datos de atención médica, están siendo fuertemente utilizados para el desarrollo y validación de nuevas herramientas de IA.

El aumento de la disponibilidad de imágenes médicas en RWD en los últimos años, fue el gran impulso para el desarrollo de algoritmos de aprendizaje automático (ML) para aumentar la precisión de los diagnósticos. Las imágenes médicas son datos complejos, pero con muchísimo potencial para la detección, el diagnóstico y el seguimiento de enfermedades.

Si se utilizan y analizan adecuadamente, los RWD tienen el potencial tanto de generar RWE válida e imparcial, con ahorros en costos y en tiempo (en comparación con los ensayos controlados), como de mejorar la eficiencia de la investigación médica (y relacionada con la salud) y toma de decisiones.

Actualmente existen tres obstáculos fundamentales para el desarrollo de la IA: algoritmos, potencia computacional y datos. Si bien los dos primeros tienen mercados sólidos a su alrededor, el proceso de obtención de datos para entrenar a la IA es actualmente un desafío, y uno aún más grande en Latinoamérica.

Y es por esto que en CROMODATA hacemos lo que hacemos.