Secuencia del genoma casi completa de una cepa de coronavirus (SARS-CoV-2) que causa un caso de COVID-19 en Perú
RESUMEN
Se obtuvo una secuencia genómica casi completa para una nueva cepa de coronavirus (SARS-CoV-2) obtenida de un hisopo orofaríngeo de un paciente peruano con síndrome de coronavirus (COVID-19) que tuvo contacto con un individuo que había regresado a Perú de viaje a Italia.
ANUNCIO
El síndrome respiratorio agudo severo (SARS) causado por un nuevo coronavirus (CoV), SARS-CoV-2 (género Betacoronavirus , familia Coronaviridae ), inicialmente produjo un brote de enfermedad en la provincia china de Wuhan en diciembre de 2019; Desde entonces, la enfermedad (COVID-19) se ha extendido a diferentes países en todos los continentes, incluidos los países sudamericanos. Esta situación ha llevado a la Organización Mundial de la Salud a declarar una emergencia sanitaria mundial.
En Perú, se han reportado más de 28,000 casos, la mayoría de los cuales provienen de Lima, la capital del país ( 1 ). Para controlar la enfermedad causada por este nuevo CoV, es necesario comprender el componente genético del virus para implementar métodos de diagnóstico, nuevos tratamientos y vacunas. Aquí, informamos la secuencia completa del genoma de una cepa SARS-CoV-2 de un paciente peruano; La infección probablemente fue adquirida por otra persona que había viajado a Italia.
Para este estudio, el ARN se purificó a partir de hisopos nasales y faríngeos de un paciente con enfermedad COVID-19 y se amplificó utilizando cebadores aleatorios etiquetados, de acuerdo con un protocolo previamente informado (amplificación de cebador único independiente de secuencia [SISPA]) ( 2 ) . Brevemente, el ADNc de la primera cadena se sintetizó usando el cebador K-8N y la transcriptasa inversa SuperScript III (Thermo Fisher Scientific), y luego el ADNc de la primera cadena se convirtió en ADNc de doble cadena usando la polimerasa Klenow (Promega). Finalmente, la amplificación por PCR independiente de la secuencia se realizó usando el cebador K y Platinum TaqADN polimerasa, alta fidelidad (Thermo Fisher Scientific). El ADN obtenido se sometió a secuenciación de próxima generación (NGS) utilizando el kit Nextera XT y un secuenciador Illumina MiSeq. NGS fue realizado por el Laboratorio Nacional de Referencia de Biotecnología y Biología Molecular del Instituto Nacional de Salud, Perú.
Los archivos fastq (2,359,909 lecturas) se limpiaron usando los algoritmos Groomer v 1.1.5 y Trimmomatic v 0.38.0 en la plataforma Galaxy ( 3 ). Las lecturas (2.249.787 lecturas de extremo emparejado) se mapearon contra el genoma de referencia SARS-CoV-2 (número de acceso GenBank NC_045512 ) usando el algoritmo BWA-MEM v 0.7.17.1 en la plataforma Galaxy. Las lecturas se ensamblaron usando SPAdes v 3.12.0 en la plataforma Galaxy y se compararon con el genoma de referencia usando CONTIGuator v 2.7.4 ( 4 ). Se detectaron variaciones de nucleótidos y aminoácidos usando el programa SnpEff v 4.3T ( http://snpeff.sourceforge.net/) Las secuencias del genoma informadas para las cepas de SARS-CoV-2 que pertenecen al clado G, S o V se obtuvieron de la base de datos Global Initiative on Sharing All Influenza Data (GISAID) ( https://www.gisaid.org ) y se alinearon usando CLUSTAL W v 2.1 ( 5 ). El análisis filogenético se realizó utilizando MEGA X v 10.0.5 ( 6 ), utilizando el algoritmo de unión de vecinos con 1,000 réplicas de arranque. Todas las herramientas se usaron con parámetros predeterminados.
El genoma casi completo del SARS-CoV-2 peruano tiene 29,856 pb, con una cobertura promedio de 84.9 ×; No se detectaron indeles. El genoma secuenciado presenta el contenido de la siguiente manera: 8,915 adenosinas (28%), 5,490 citosinas (19%), 5,859 guaninas (19%) y 9,592 timinas (34%). El análisis filogenético de este genoma del virus mostró que estaba agrupado en el clado G del SARS-CoV-2, lo que es consistente con el de los otros casos reportados en América del Sur.
El análisis de variaciones indica pocos cambios en relación con la secuencia de referencia para la cepa de Wuhan (número de acceso de GenBank NC_045512 ) a partir de diciembre de 2019. Detectamos una mutación de C a T en la posición no codificante 25 y otras mutaciones en regiones codificantes que generaron cambios de aminoácidos tales como S1433P, P4720L y D6909G en la poliproteína codificada por el gen orf1ab , D614G en la glucoproteína espiga (S) y R203K y G204R en la proteína de la nucleocápside (N).
Actualmente estamos secuenciando y analizando genomas más completos de diferentes regiones del Perú para comprender la dispersión del virus y asociar esta información con datos epidemiológicos. En este sentido, la contribución de los genomas del SARS-CoV-2 de diferentes países podría facilitar la comprensión de la propagación de este virus en América del Sur y en todo el mundo.
Disponibilidad de datos. Este genoma SARS-CoV-2 de Perú se depositó en la base de datos internacional GISAID (número de acceso EPI_ISL_415787) y en GenBank (número de acceso MT263074 ). Los números de acceso para las lecturas sin procesar de la secuencia Illumina MiSeq en el Archivo de lectura de secuencia de NCBI (SRA) son PRJNA623683 (BioProject), SRS6448834 (SRA) y SAMN14556477 (BioSample).
EXPRESIONES DE GRATITUD
Agradecemos al personal de laboratorio a cargo del diagnóstico en el Instituto Nacional de Salud del Perú, así como a los colegas que colaboraron con los suministros y reactivos para la secuenciación.