Resumen
Fondo
La enfermedad pulmonar obstructiva crónica (EPOC) varía significativamente en la presentación sintomática y fisiológica. La identificación de subtipos de enfermedades a partir de datos moleculares, recopilados a partir de muestras de sangre de fácil acceso, puede ayudar a estratificar a los pacientes y orientar el tratamiento y la gestión de enfermedades.
Métodos
La expresión génica en sangre medida por secuenciación de ARN en el estudio COPDGene se analizó mediante un método de análisis de perturbaciones en red. Cada muestra de EPOC se comparó con una red de genes de referencia aprendida para determinar la parte que está desregulada. Los valores de desregulación de genes se utilizaron para agrupar las muestras de enfermedades.
Resultados
El conjunto de descubrimiento incluyó a 617 ex fumadores de COPDGene. Se identifican cuatro subtipos distintos de redes de genes con diferencias significativas en los síntomas, la capacidad de ejercicio y la mortalidad. Estos grupos no se corresponden necesariamente con los niveles de deterioro de la función pulmonar y están validados de forma independiente en dos cohortes externas: 769 exfumadores de COPDGene y 431 exfumadores en el Estudio multiétnico de aterosclerosis (MESA). Además, identificamos varios genes que están significativamente desregulados en estos subtipos, incluidos DSP y GSTM1que se han asociado previamente con la EPOC a través del estudio de asociación del genoma completo (GWAS).
Conclusiones
Los subtipos identificados difieren en la mortalidad y en sus características clínicas y funcionales, lo que subraya la necesidad de una evaluación multidimensional potencialmente complementada con marcadores seleccionados de expresión génica. Los subtipos fueron consistentes entre las cohortes y podrían usarse para la estratificación de nuevos pacientes y el pronóstico de la enfermedad.
Introducción
La enfermedad pulmonar obstructiva crónica (EPOC) es una enfermedad heterogénea, que incluye enfisema y enfermedad de las vías respiratorias pequeñas y grandes. [1, 2]. diagnóstico de EPOC [3] se basa en medidas espirométricas que reflejan una obstrucción reducida del flujo de aire, específicamente una relación reducida de volumen espiratorio forzado en 1-s (FEV1) a la capacidad vital forzada (FVC) menos de 0,70 [4]. Pero esta definición no da cuenta de la gran heterogeneidad observada en los casos de EPOC en cuanto a la tasa de progresión de la enfermedad. [5]respuesta al tratamiento [6,7,8]carga de síntomas [9]respuesta inflamatoria [10]y fisiología pulmonar [11]. Por lo tanto, ha habido un gran interés en identificar subtipos de EPOC que reflejen diferencias en estos aspectos de la enfermedad. [12, 13]. Los subtipos bien caracterizados con biomarcadores fácilmente evaluables permitirían la selección de poblaciones de EPOC de alto riesgo para la intervención terapéutica y la estratificación de los pacientes, lo que conduciría a ensayos clínicos de mayor potencia. La subtipificación molecular también podría ayudar a identificar variantes genéticas raras e individuos con un riesgo elevado de desarrollar la enfermedad. [14].
La subtipificación de la enfermedad ha tenido un éxito relativo en el asma [15], pero los esfuerzos en la EPOC han resultado más difíciles. Los intentos anteriores de subtipificar la EPOC se han visto limitados debido a la falta de reproducibilidad y las limitaciones en el diseño del estudio. Otra limitación de los esfuerzos de subtipificación de la EPOC es la barrera para validar e interpretar los subtipos que se basan en características clínicas (p. ej., espirometría, índice de masa corporal). Algunos estudios han tratado de eludir este problema reteniendo un subconjunto predefinido de características clínicas en el paso de agrupamiento y luego usándolos para evaluar los grupos resultantes. [16]; sin embargo, esto plantea la cuestión de si el conjunto reservado es representativo de la población. Si bien es posible encontrar distintos grupos de sujetos con respecto a estas variables clínicas, es poco probable que estas clasificaciones identifiquen nuevos mecanismos de enfermedad.
La incorporación de información genómica puede mejorar en gran medida la relevancia de los subtipos de EPOC. La expresión génica de sangre periférica es un candidato atractivo para biomarcadores potenciales porque es fácilmente accesible. Un estudio anterior identificó cuatro grupos de EPOC basados en la expresión de genes sanguíneos con un enfoque de factorización de matriz no negativa [17]. Estos grupos de sujetos variaron de manera prometedora en la gravedad de su enfermedad, pero, debido a que el estudio se basó en datos de expresión génica de micromatrices, el descubrimiento se limitó a los genes incluidos en esas plataformas.
Recientemente desarrollamos un nuevo método para evaluar las perturbaciones de la red de genes en muestras individuales (Evaluación de la perturbación de la red de muestra únicassNPA) [18]. ssNPA utiliza gráficos probabilísticos [19,20,21,22] para estimar la red de genes a partir de un conjunto de muestras de referencia (control) y evalúa las perturbaciones en cada muestra de enfermedad individual. ssNPA superó los algoritmos existentes en la identificación de subgrupos de muestras en función de estas características de perturbación de la expresión génica y tuvo un rendimiento de agrupación superior en comparación con la propia expresión génica. [18] y otros métodos [23, 24]. En este artículo, aplicamos ssNPA a los datos del Estudio de epidemiología genética de la EPOC (COPDGene) y el Estudio multiétnico de aterosclerosis (MESA) para identificar y validar nuevos fenotipos de la EPOC únicamente a partir de la expresión génica medida en muestras de sangre periférica.
Métodos
Subtipificación de la EPOC: cohortes de descubrimiento y validación
El estudio COPDGene es un estudio longitudinal que tiene como objetivo investigar la base genética de la susceptibilidad y progresión de la EPOC. Nuestro conjunto de datos de descubrimiento de subtipos consistió en 1211 sujetos con COPDGene para quienes se recopilaron datos de RNA-seq de sangre completa en la visita de seguimiento de 5 años. [25]. El primer conjunto de datos de validación incluyó 1444 participantes de COPDGene que fueron secuenciados más tarde. Estas muestras no se incluyeron en el conjunto de datos de entrenamiento y se procesaron de forma independiente. El segundo conjunto de datos de validación consistió en 821 participantes de MESA no relacionados. MESA es un estudio de cohorte prospectivo en curso que reclutó a más de 6000 participantes en seis comunidades de los Estados Unidos entre 2000 y 2002 [26]. La expresión génica de células mononucleares de sangre periférica (PBMC) se midió mediante RNA-seq en el Examen 5 entre 2010 y 2012. En este examen también se recopilaron datos fenotípicos detallados (incluidas la espirometría y la tomografía computarizada).
Selección de tema de referencia
Las muestras de COPDGene RNA-seq se preprocesaron como en el archivo adicional 1: Métodos. La red de genes de referencia se construyó sobre un grupo de exfumadores, seleccionados de forma conservadora en función de los siguientes criterios (Fig. 1A): el participante tuvo (a) visitas de Fase 1 (línea de base) y Fase 2 (5 años); (b) espirometría normal en ambas visitas; (c) menos del 5% por ciento de enfisema en ambas visitas (LAA-950); (d) menos del 5% de disminución en el porcentaje de FEV previsto1 entre las dos visitas. Este filtrado dio como resultado 128 muestras de referencia (conjunto de datos de entrenamiento). Para aumentar el poder, todas las muestras restantes de participantes que anteriormente fumaban cigarrillos y que no cumplían con los criterios para el grupo de referencia se incluyeron en el grupo de enfermedad, dejando 489 muestras para el descubrimiento de subtipos.
Descripción general del procedimiento de subtipificación. A Selección de muestras de referencia (control) de la cohorte de descubrimiento de COPDGene (617 exfumadores). B Procedimiento de liberalización de redes para la identificación de subtipos de EPOC. C Gráfico t-SNE de los cuatro grupos de muestras de EPOC identificados por ssNPA. Los grupos 0 y 1 tienen características clínicas similares, al igual que los grupos 2 y 3
Para el conjunto de datos de validación de COPDGene, los mismos criterios de filtrado identificaron 149 muestras de control y 614 de exfumadores con EPOC. El grupo de referencia MESA se seleccionó con criterios similares, excepto el umbral para FEV1 disminución entre el examen 3/4 y el examen 5 (< 3 % previsto). Los participantes sin datos de espirometría se incluyeron en el grupo de no referencia. Esto dio como resultado 104 muestras de referencia y 327 casos de MESA. Mesa 1 resume las características de estos tres grupos de estudio.
Subtipificación de EPOC a partir de datos de RNA-seq en sangre
Utilizamos ssNPA, un método de subtipificación de enfermedades basado en redes, para aprender los subtipos de EPOC en la cohorte de descubrimiento (Fig. 1B). Los detalles del proceso se presentan en Archivo adicional 1: Métodos. Para investigar los efectos clínicamente relevantes…
0 Comments