Main menu

Muestreo adaptativo (ADS_S1016_v1_revN_05Sep2025)


1. Introducción

Introducción al muestreo adaptativo

En algunas aplicaciones de secuenciación, el objeto de estudio —un único gen o una selección de regiones genómicas— constituye una pequeña fracción del genoma o de la muestra. En esos casos, la secuenciación del genoma completo resulta ineficaz y costosa. La secuenciación dirigida designa estrategias orientadas a reducir el tiempo dedicado a secuenciar regiones que no son de interés, lo que disminuye de forma notable la cantidad de datos necesaria para alcanzar la profundidad deseada en las regiones de interés. De este modo, se reducen los costes de secuenciación y la carga a la hora de analizar los datos, al tiempo que se agiliza el flujo de trabajo. Con la tecnología de nanoporos, la secuenciación dirigida se realiza de varias maneras:

  • secuenciación de amplicones
  • captura por hibridación
  • muestreo adaptativo

La secuenciación de Oxford Nanopore descodifica en tiempo real la región del genoma que se está leyendo. Gracias a esta propiedad, la decisión sobre si una hebra concreta es de interés o no se toma en tiempo real. A esto se le llama muestreo adaptativo y selecciona lecturas en tiempo real cuando el programa de secuenciación (MinKNOW) dispone de un archivo BED con las regiones de interés (ROI) y un archivo de referencia FASTA.

El muestreo adaptativo es un método rápido y flexible que enriquece regiones de interés mediante el rechazo de regiones fuera de objetivo: la selección de regiones objetivo tiene lugar durante la secuenciación, sin necesidad de manipular la muestra de antemano. La biblioteca se prepara y se carga como de costumbre; se selecciona "muestreo adaptativo" en MinKNOW (se deberá cargar un archivo FASTA con la referencia, así como un archivo BED en el que se enumeren las regiones de interés). Una vez iniciada la secuenciación, debido a la naturaleza en tiempo real de la secuenciación por nanoporos, MinKNOW identifica si la hebra que se está secuenciando se encuentra dentro de la región de interés o no. Si la secuencia no se corresponde con la región de interés, MinKNOW invierte la polaridad del potencial aplicado y expulsa la hebra del poro, de modo que este queda disponible para aceptar una nueva hebra. MinKNOW rechaza las hebras fuera de objetivo de manera continua hasta que detecta una hebra de la región de interés y continúa con la secuenciación.

Adaptive sampling Figura 1. Descripción general de un experimento de muestreo adaptativo

El muestreo adaptativo se ejecuta de dos maneras distintas: por enriquecimiento o exclusión. En el modo de enriquecimiento se cargan las regiones de interés en MinKNOW, que rechaza las hebras que quedan fuera de estas regiones. En el modo de exclusión, se cargan en MinKNOW las regiones objetivo que no son de interés (por ejemplo, ADN del hospedador en un análisis metagenómico del microbioma) y el programa rechaza las hebras que se encuentren dentro de dichas regiones. Cuando utilizamos el muestreo adaptativo, observamos un enriquecimiento de las regiones de interés de entre 5 y 10 veces; a continuación detallamos cómo conseguirlo. Cuando las regiones objetivo dentro del genoma humano representan menos del 10 % del genoma completo, observamos un enriquecimiento robusto, lo que permite obtener una profundidad media superior a 20–40× en las regiones de interés con una celda de flujo MinION.

En este vídeo se muestra un resumen de esta técnica: Muestreo adaptativo en tecnología nanopore.

2. Preparación y análisis de muestras

Aunque en el muestreo adaptativo no es necesario preparar las muestras de ninguna forma en concreto, hay ciertos aspectos de la preparación de la biblioteca que favorecen este tipo de experimentos.

Los dos factores principales que deben tenerse en cuenta al intentar aumentar al máximo el rendimiento son: la ocupación de los poros y la fragmentación de la biblioteca.

Ocupación de poros

El método de muestreo adaptativo consiste en rechazar las hebras de ADN no deseadas y así liberar el poro, que queda listo para capturar una nueva hebra. Este proceso disminuye de manera significativa la ocupación de poros, ya que el rechazo constante de hebras reduce el tiempo durante el cual los poros permanecen ocupados con una hebra. Por lo tanto, mantener una elevada ocupación de poros es uno de los aspectos más importantes. De ahí que recomendemos cargar una cantidad de muestra superior a la que se utilizaría en un experimento de secuenciación estándar. La cantidad adecuada de ADN que debe cargarse se calcula en función de la molaridad y no de la masa (como se explica a continuación).

Fragmentación de la biblioteca

Es importante por dos motivos: en primer lugar, la longitud de los fragmentos influye en la molaridad, que es el principal parámetro de medida del ADN que se carga en experimentos de este tipo. En segundo lugar, es probable que este procedimiento obstruya los poros debido al elevado número de hebras que se rechazan. El uso de una biblioteca formada por fragmentos más cortos aumenta la vida útil de la celda de flujo y, por tanto, la cantidad de datos generados, ya que la biblioteca provoca menos obstrucciones y proporciona una molaridad mayor con una cantidad menor de ADN. La fragmentación no sólo reduce el bloqueo de poros, sino que también aumenta el enriquecimiento, según el tamaño de las regiones de interés individuales. Si la mayoría de las regiones de interés tienen unos pocos kilobases de longitud (por ejemplo, entre 2 y 5 kb), utilizar una biblioteca con un valor N50 en el rango de 30 kb será un desperdicio; cada vez que se acepta una hebra, el poro permanece ocupado mientras se secuencian 30 kb de datos de los que se extraen entre 2 y 5 kb de secuencia dentro de la región objetivo, lo que supone un posible desperdicio de entre 25 y 28 kb, ya que durante ese tiempo, el poro podría muestrear más lecturas en lugar de secuenciar regiones fuera de objetivo.

Otra manera de aumentar el rendimiento consiste en lavar la celda de flujo varias veces durante el experimento y volver a cargar la biblioteca. Ahora bien, si se reduce el tamaño de los fragmentos, la necesidad de lavados suele disminuir y aumenta la producción de datos por experimento.

La figura 2 muestra la evolución del bloqueo de poros en el modo de muestreo adaptativo con dos bibliotecas de fragmentos de distinto tamaño: 5 kb y 25 kb. Cada barra representa el número de poros disponibles durante el experimento, en intervalos de 1,5 horas. El desgaste de los canales debido a la obstrucción de los poros se produce a un ritmo más rápido en las bibliotecas con fragmentos más largos. Aunque el lavado de la celda de flujo recupera parte de los poros perdidos, es un proceso manual que añade tiempo de trabajo al experimento. Por eso, al diseñar experimentos de muestreo adaptativo conviene tener en cuenta la longitud de los fragmentos de la biblioteca, a fin de minimizar el bloqueo de poros y reducir la necesidad de manipular la celda de flujo.

2 QS SamplePrep 6kb vs 20kb Figura 2. Actividad de los poros en bibliotecas de 6 kb (izquierda) y 20 kb (derecha) en experimentos de muestreo adaptativo sin lavados.

El tamaño de los fragmentos también influye en la molaridad de la muestra, sobre todo cuando se emplea un Qubit u otra medición basada en masa para calcular la cantidad de ADN que se carga en la celda de flujo. Aunque el Qubit es el método recomendado para cuantificar la biblioteca, el valor obtenido debe expresarse en molaridad, lo cual se determina a partir de la longitud media de los fragmentos. La distribución de longitudes se determina con el Femto Pulse de Agilent (fragmentos superiores a 10 kb) o con el Bioanalizador de Agilent (fragmentos inferiores a 10 kb).

A partir del peso molecular medio de un par de bases (660 g/mol), es sencillo calcular la molaridad de la muestra, de modo que la cantidad de ADN necesaria en bibliotecas cortas y largas resulta muy distinta al ajustarlas a la misma molaridad. La molaridad es un factor decisivo, ya que el número de extremos de ADN disponibles que el poro captura es el principal factor que determina su nivel de ocupación. Con la química más reciente, V14, el valor óptimo por carga se sitúa entre 50 y 65 fmol.

En una biblioteca con una distribución de longitudes de lectura centrada en 6,5 kb (figura 3), 50 fmol corresponden aproximadamente a 200 ng, según los cálculos siguientes:

  • Masa total de un mol de fragmento de 6,5 kb: 6 500 pares de bases x 660 (g/mol) = 4 290 000 g por mol
  • Multiplicar por la cantidad necesaria de femtomoles: 4 290 000 × 50 × 10⁻¹⁵ = 2,145 × 10⁻⁷
  • Conversión de gramos a ng: 2,145 × 10⁻⁷ × 1 000 000 000 = 214,5 ng

Los cálculos resultan más sencillos con una calculadora biomatemática como la siguiente: Biomath Calculators | DNA Calculator | Vector Insert Ratio

2 QS SamplePrep RLdist Figura 3. Distribución de longitudes de secuencia de una biblioteca con un N50 de 6,5 kb.

Es una estimación orientativa calculada a partir del valor N50 de la biblioteca. El cálculo de la molaridad efectiva es más complejo, ya que hay que tener en cuenta la amplitud de la distribución. No obstante, se trata de una buena aproximación, que ayuda a comprender la cantidad de ADN necesario en un experimento de muestreo adaptativo. También cabe señalar que estos cálculos y valores presuponen una eficiencia óptima en la ligación. Si por alguna razón una biblioteca no se liga con la eficacia esperada, recomendamos añadir más muestra al experimento. No se ha observado ningún efecto negativo en la secuenciación al utilizar una mayor cantidad de ADN con la química V14, hasta un máximo de 600 ng.

Encontrará información detallada sobre los parámetros de muestra ideales en experimentos de muestreo adaptativo en la Guía avanzada de muestreo adaptativo que figura a continuación.

3. Definición de regiones objetivo y adición de márgenes en el archivo .bed

Definición de regiones objetivo y adición de márgenes en el archivo .bed

Aviso: esta sección recoge una versión abreviada con los puntos más útiles y de consulta rápida. Los casos descritos representan usos ideales del muestreo adaptativo. Encontrará información detallada sobre la definición de regiones objetivo (funcionamiento) y la adición de márgenes en la página «Definición de regiones objetivo y adición de márgenes» de la Guía avanzada. Encontrará información sobre el modo de exclusión en la sección correspondiente de la guía avanzada.

En condiciones óptimas, el muestreo adaptativo utiliza una referencia (.fasta) y un archivo BED (.bed) que indican qué hebras seleccionar durante la secuenciación. El archivo de referencia contiene una representación completa de la muestra, mientras que el archivo BED actúa como una máscara que delimita una subregión de la referencia e indica a MinKNOW qué regiones son de interés.

A fin de maximizar el enriquecimiento, lo ideal es que los archivos BED abarquen menos del 5 % de la muestra, aunque, es posible incluir hasta un 10 % y obtener un rendimiento de enriquecimiento razonable (por ejemplo, el panel RRMS disponible en el Catálogo de muestreo adaptativo). Si las regiones objetivo superan el 10 % de la muestra, los valores de enriquecimiento disminuyen.

Como ejemplo representativo, utilizaremos el panel de cáncer hereditario, también disponible en el Catálogo de muestreo adaptativo, que abarca aproximadamente un 0,54 % del genoma humano, por lo que, en una muestra compuesta exclusivamente por ADN humano, el panel indicaría a MinKNOW que aceptase y secuenciase el ~0,54 % de todas las lecturas capturadas por los poros en la celda de flujo.

La decisión de aceptar o rechazar una hebra se toma a partir del primer segmento de la misma; esa es la única información de que dispone MinKNOW antes de decidir. Como consecuencia, MinKNOW rechaza las hebras que comienzan (en el segmento inicial) en las regiones flanqueantes de una región objetivo, aunque no lleguen a alcanzarlo dentro de ese primer segmento. Teniendo en cuenta este comportamiento, añadimos un «margen» a ambos lados de las regiones de interés, que permitirá que MinKNOW acepte una hebra que comienza en una región adyacente y que probablemente se extienda hasta la región de interés.

El margen se define en función de la distribución de longitudes de lectura de la biblioteca que se está secuenciando. Lo ideal es que el tamaño de margen sea igual a aproximadamente al valor N10 de la distribución de longitudes de lectura de la biblioteca. Dado que estas longitudes siguen una distribución normal, no es necesario que el margen sea especialmente preciso. Por ello, siempre que el método de preparación de la biblioteca se mantenga constante, no es necesario caracterizar la distribución de longitudes de lectura de cada biblioteca.

Como regla general, en una biblioteca con una distribución normal y un valor N50 de aproximadamente 8 kb, recomendamos añadir un margen de 20 kb.

Existen varias salvedades y excepciones al respecto, principalmente relacionadas con cómo el margen modifica la cantidad total incluida como región objetivo. Por ejemplo, en el panel de cáncer hereditario mencionado anteriormente (que abarca el 0,54 % del genoma humano), añadir un margen de 20 kb eleva el total a ~0,67 % si se aplica a cada región. Encontrará información detallada sobre el tema en la página «Definición de regiones objetivo y adición de márgenes» de la Guía avanzada.

Por último, Oxford Nanopore proporciona una página en la que comprobar el archivo BED y conviene utilizarla tanto antes como después de añadir el margen:

Bed file checker - Bed Bugs

Esta herramienta detectará errores en los archivos BED y evitará que los experimentos se interrumpan. Se necesitará el mismo archivo de referencia que se utilizó para adquirir las coordenadas del archivo .bed y se debe utilizar esa misma referencia durante la configuración del experimento. Si Bed Bugs detecta problemas en el archivo BED (además de los solapamientos), es necesario corregirlos antes de utilizar el script bufferer.py. Asímismo, Bed Bugs dispone de una función que añade un margen a los archivos BED de manera automática, con un margen direccional de 10 kb. Si el archivo BED no muestra errores aparte de la advertencia de "autosolapamiento", aparecerá la opción de descargar una versión del archivo con margen (figura 4). En la actualidad, el tamaño del margen está establecido en 10 kb y no puede modificarse. Esta configuración no se adapta a todos los archivos BED ni aplicaciones, pero es un buen punto de partida. Encontrará más información sobre el tema en la página "Definición de regiones objetivo y adición de márgenes" de la Guía avanzada,

Bed Bugs

Figura 4. Captura de pantalla de Bed Bugs tras la validación de un archivo BED que no contiene errores que afecten a la ejecución.

Nota: en ocasiones, Bed Bugs detectará problemas de "autosolapamiento", ya que, tras utilizar el script de creación de márgenes, el nuevo archivo BED contiene regiones solapadas. Sin embargo, dichos solapamientos son necesarios, puesto que varían según la hebra (codificante o no codificante). Si Bed Bugs notifica este error, no afectará al rendimiento de MinKNOW y no es necesario hacer nada.

4. Interfaz de usuario y cuadros de diálogo en MinKNOW

Durante los experimentos, MinKNOW lleva a cabo el alineamiento del muestreo adaptativo en paralelo al proceso de identificación de bases en tiempo real. La interfaz de usuario de MinKNOW muestra cuadros de diálogo con información sobre ambos procesos. A continuación indicamos la ubicación de cada elemento o archivo.

En primer lugar, MinKNOW distingue entre los archivos utilizados en la secuenciación en tiempo real y los empleados en el muestreo adaptativo; cada uno cuenta con su propia sección para cargar la referencia de alineamiento y el archivo .bed. Tanto el archivo FASTA de referencia como el archivo BED pueden ser los mismos en ambas secciones (de ahí que la sección Alineamiento se rellene automáticamente con los archivos cargados en la sección Muestreo adaptativo). No obstante, es importante entender la función de cada archivo, ya que cargar un archivo BED diferente en la sección de alineamiento en tiempo real, permite obtener un seguimiento más claro y continuo de la cobertura durante el experimento.

Los archivos de muestreo adaptativo se cargan en la sección 3. Opciones de ejecución dentro del apartado denominado "Muestreo adaptativo", figura 5, sección superior. Los márgenes se emplearán para definir las regiones objetivo de la muestra y afectarán a las lecturas que MinKNOW seleccione para su secuenciación. El archivo BED cargado en esta sección también debe incluir una región de margen, cuando corresponda. Encontrará más información al respecto en las secciones anteriores de la guía.

Los archivos de alineamiento se cargan en la sección 4. Análisis de la configuración del experimento en MinKNOW. La referencia FASTA tiene como finalidad alinear las lecturas tras la identificación de bases en tiempo real y, por tanto, debe ser el mismo archivo que el utilizado en el muestreo adaptativo. De este modo, es posible generar archivos BAM con secuencias identificadas y alineadas en tiempo real.

El archivo BED de la sección 4. Análisis se utiliza en dos procesos diferentes: En primer lugar, proporciona un identificador en el resumen de secuenciación, que indica si la lectura completa coincide con las regiones descritas en el archivo BED cargado en la sección 4. Análisis, que se muestra en el archivo sequencing_summary.txt, en la columna bed_alignment, y se rellena con un 0 o un 1, según la lectura coincida o no con el archivo BED. En segundo lugar, el archivo BED se utiliza para comprobar la cobertura obtenida en cada una de las regiones descritas en el mismo archivo. El progreso se visualiza durante el experimento en la pestaña Aciertos de alineamiento de MinKNOW.

A fin de aprovechar al máximo las funciones de alineamiento en tiempo real y seguimiento de la cobertura, cargar el archivo BED con la región de margen (archivo BED con la región de interés y el margen) en la sección 3. Opciones de ejecución sección Muestreo adaptativo, y el archivo BED que contiene sólo la región de interés (sin el margen) en la sección 4. Análisis, lo que garantiza que el seguimiento de la cobertura se limite a las regiones de interés y proporcione una descripción más precisa de la cobertura en dichas regiones. El archivo BED proporcionado en la sección de alineamiento no modifica el resultado del experimento y no es estrictamente necesario. No obstante, en función del margen añadido a cada región en el archivo BED, incluir en la sección de alineamiento un archivo BED que contenga solo las regiones objetivo (sin el margen) proporciona un informe de cobertura más preciso. Es importante tener en cuenta que el seguimiento de la cobertura (y, por tanto, los archivos proporcionados en la sección 4. Análisis) no modifica en modo alguno el experimento de secuenciación. Es una herramienta que permite realizar alineamiento en tiempo real y comprobar, durante un experimento, la cobertura obtenida en cada región del archivo BED. Por último, cabe señalar que la cobertura indicada se refiere al porcentaje de secuencias que han sido identificadas, lo que significa que si la identificación de bases en tiempo real no sigue el ritmo, la cobertura indicada sólo es relativa al porcentaje ya identificado.

El alineamiento en tiempo real es un proceso exigente desde el punto de vista computacional que suele influir en el tiempo de decisión del muestreo adaptativo. De ahí la necesidad de consultar las tablas de métricas recomendadas, donde se indica cuántas celdas de flujo es posible ejecutar con esta función por dispositivo, a fin de evitar que se vean afectadas las tasas de enriquecimiento. Con el fin de impedir que se utilice el alineamiento en tiempo real, elimine la secuencia de referencia indicada con un "1" en la figura 5.

4 QS UIinfo Minknow AS dialogs

Figura 5. Cuadros de diálogo de MinKNOW utilizados al cargar el archivo de referencia FASTA junto con el archivo BED en el panel de muestreo adaptativo (arriba, secciones 3 y 4), así como en el panel de identificación de bases en tiempo real (abajo, secciones 1 y 2).

En la primera página del resumen del experimento, una vez iniciado, es posible ver qué archivos se están utilizando en cada sección. En la figura 6 se muestra un ejemplo de este panel.

4 QS Minknow experimento info

Figura 6. Panel frontal de MinKNOW con el resumen del experimento. Por lo tanto, la información de alineamiento se ha marcado adecuadamente.

5. Consideraciones finales

Consideraciones finales

La información proporcionada en esta guía de inicio rápido es un punto de partida para aprender a utilizar el muestreo adaptativo. La mayoría de las secciones de esta guía contienen advertencias y excepciones. Además, nuestros dispositivos de secuenciación tienen un límite en la cantidad de análisis en tiempo real que son capaces de realizar y el muestreo adaptativo es una herramienta de análisis en tiempo real con una latencia mínima. Por consiguiente, el muestreo adaptativo exige una cantidad considerable de recursos del equipo. Encontrará recomendaciones sobre los límites del muestreo adaptativo en las páginas de la "Guía avanzada".

También proporcionamos una guía de resolución de problemas, junto con una explicación más detallada de cómo funciona el muestreo adaptativo. Agradecemos cualquier comentario sobre la nueva guía y sobre qué puntos le gustaría que se explicaran con más detalle. Iremos añadiendo más información, en especial sobre las funciones relacionadas con las capacidades del muestreo adaptativo: seguimiento de cobertura, multiplexación, equilibrio de códigos de barras, entre otras.

6. Introducción

Introducción al muestreo adaptativo

En algunas aplicaciones de secuenciación, el objeto de estudio —un único gen o una selección de regiones genómicas— constituye una pequeña fracción del genoma o de la muestra. En esos casos, la secuenciación del genoma completo resulta ineficaz y costosa. La secuenciación dirigida es un término que describe estrategias que reducen el tiempo dedicado a secuenciar regiones que no son de interés, lo que disminuye de forma significativa la cantidad de datos necesaria para alcanzar la profundidad deseada en las regiones de interés. Esto reduce los costes de secuenciación y la carga asociada al análisis de datos, lo que agiliza el flujo de trabajo. La secuenciación dirigida con tecnología nanopore se logra de varias maneras:

  • secuenciación de amplicones
  • captura por hibridación
  • muestreo adaptativo

La tecnología de secuenciación de Oxford Nanopore determina en tiempo real la región del genoma que se está secuenciando. Gracias a esta propiedad la decisión sobre si una hebra concreta es de interés o no se toma en tiempo real. A esto se le llama muestreo adaptativo y selecciona lecturas en tiempo real cuando el programa de secuenciación (MinKNOW) dispone de un archivo BED con las regiones de interés (ROI) y un archivo de referencia FASTA.

El muestreo adaptativo es un método rápido y flexible que enriquece las regiones de interés al rechazar las regiones fuera de objetivo: la definición de esas regiones tiene lugar durante la secuenciación, sin necesidad de manipular la muestra de antemano. La biblioteca se prepara y se carga como de costumbre; se selecciona "muestreo adaptativo" en MinKNOW (se deberá cargar un archivo FASTA con la referencia, así como un archivo BED en el que se enumeren las regiones de interés). Una vez iniciada la secuenciación, debido a la naturaleza en tiempo real de la secuenciación por nanoporos, MinKNOW identifica si la hebra que se está secuenciando se encuentra dentro de la región de interés o no. Si la lectura no se corresponde con la región de interés, MinKNOW invierte la polaridad del potencial aplicado y expulsa la hebra del poro, de modo que este queda disponible para aceptar una nueva hebra. MinKNOW rechaza las hebras fuera de objetivo de manera continua hasta que detecta una hebra de la región de interés y continúa con la secuenciación.

Adaptive sampling Figura 1. Descripción general de un experimento de muestreo adaptativo

El muestreo adaptativo se ejecuta de dos maneras distintas: por enriquecimiento o exclusión. En el modo de enriquecimiento se cargan las regiones de interés en MinKNOW, que rechaza las hebras que quedan fuera de estas regiones. En el modo de exclusión, se cargan en MinKNOW las regiones objetivo que no son de interés (por ejemplo, ADN del hospedador en un análisis metagenómico del microbioma) y el programa rechaza las hebras que se encuentran dentro de dichas regiones. Cuando utilizamos el muestreo adaptativo, observamos un enriquecimiento de las regiones de interés de entre 5 y 10 veces; a continuación detallamos cómo conseguirlo. Cuando las regiones objetivo dentro del genoma humano representan menos del 10 % del genoma completo, observamos que el enriquecimiento se mantiene estable, lo que permite obtener una profundidad media superior a 20–40× en las regiones de interés con una celda de flujo MinION.

En este vídeo se muestra un resumen del muestreo adaptativo: Adaptive sampling on nanopore technology.

Cómo funciona el muestreo adaptativo

El muestreo adaptativo dirige la secuenciación a regiones de interés del genoma y expulsa del poro las hebras que no se alinean a dichas regiones. A medida que el poro captura las hebras, se identifican las bases iniciales y se alinean con una referencia. Si la hebra se asigna a la región de interés proporcionada, el programa deja que continúe a través del poro y se secuencie. Si la hebra no pertenece a la región objetivo, se expulsa del poro invirtiendo el potencial aplicado en el electrodo y se libera de nuevo hacia el lado superior de la membrana. La expulsión de hebras reduce el tiempo en el que los poros están ocupados y los deja libres de capturar otras hebras que podrían ser de interés.

El muestreo adaptativo se ejecuta de dos maneras:

Enriquecimiento: las secuencias presentes en el archivo de regiones objetivo se aceptan y se secuencian. En este modo, las decisiones siguen la lógica:

  • Si la secuencia se alinea con una región del archivo BED: Aceptar
  • Si la secuencia se alinea fuera de las regiones del archivo BED: Rechazar
  • Si la secuencia no se alinea: Rechazar

Exclusión: las secuencias presentes en el archivo de regiones objetivo se rechazan hacia el lado cis de la membrana.

  • Si la secuencia se alinea con una región del archivo BED: Rechazar
  • Si la secuencia se alinea fuera de las regiones del archivo BED: Aceptar
  • Si la secuencia no se alinea: Aceptar

Notas:

  • Según la descripción anterior, las lecturas que no se alinean se tratan de manera distinta en los modos de enriquecimiento y exclusión.
  • Si sólo se carga un archivo FASTA, las reglas anteriores se aplicarán igualmente a este archivo en lugar de al archivo BED.

Las secuencias objetivo se definen en el archivo BED, en el que se especifican las coordenadas iniciales y finales de las secuencias objetivo, a partir de un archivo de referencia (FASTA), que contiene la secuencia real de la muestra. Si no se proporciona un archivo BED, la referencia (FASTA) no se subdivide y las secuencias presentes en ella se utilizarán como regiones objetivo, lo que significa que si no se proporciona un archivo BED, en el modo de enriquecimiento se aceptará todo lo que esté presente en la referencia y en el modo de exclusión se rechazará todo.

La mejor opción, tanto en el modo de enriquecimiento como en el de exclusión, es proporcionar una referencia FASTA con la mayor cantidad de información posible sobre la muestra y, a continuación, usar un archivo BED que subdivida las regiones de interés. Esto se debe a que, cuando una secuencia concreta de la muestra no está presente en la referencia, es más probable que se alinee a la fuerza con una referencia incorrecta. Por ejemplo, si se incluye como región objetivo la secuencia completa del cromosoma 7 de una muestra humana y se proporciona una referencia FASTA que solo contenga dicho cromosoma, las secuencias de otros cromosomas se alinearán a la fuerza con la referencia del cromosoma 7, lo que provocará la aceptación de un gran número de secuencias fuera de objetivo y afectará a la capacidad de enriquecimiento del muestreo adaptativo.

Definición de conceptos y terminología

ROI (Región de Interés)

La ROI es la región de interés, y en esta guía, se utiliza entendida como región objetivo propiamente dicha, sin las regiones de margen. En un experimento de muestreo adaptativo, se debe proporcionar un archivo BED que contenga las coordenadas de las regiones de interés y de las regiones de margen. Este archivo se carga en el campo destinado al archivo de referencia de la sección "Muestreo adaptativo", dentro de la pestaña Opciones de ejecución de la configuración del experimento.

En la pestaña Análisis de la interfaz de MinKNOW, dentro de las opciones de alineamiento, es posible cargar otro archivo BED. MinKNOW utiliza este archivo para comprobar si una hebra se encuentra dentro de las regiones objetivo definidas en el archivo BED cargado en la pestaña Análisis. Este proceso es independiente del alineamiento y se utiliza para calcular en tiempo real la cobertura de las regiones objetivo, cuando el alineamiento en tiempo real está activado. La presencia de este segundo archivo BED también rellena la columna alignment_bed_hits en el archivo final sequencing_summary.txt, aunque se trata de un archivo opcional que no es necesario para el funcionamiento normal del muestreo adaptativo. Dado que el archivo BED de alineamiento se utiliza para calcular la cobertura en tiempo real, es posible obtener un resultado más preciso si se proporciona un archivo BED que contenga solo las regiones de interés, en lugar del archivo BED cargado en la sección Muestreo adaptativo, que incluya las regiones de interés y los márgenes. En la sección «Información y cuadros de diálogos de la interfaz» de esta guía se muestra información adicional sobre cómo y dónde cargar cada uno de estos archivos.

Región de margen

Las regiones de margen son regiones flanqueantes que se añaden a ambos lados de cada región de interés. Dado que el muestreo adaptativo solo alinea el principio de cada hebra capturada, estas regiones permiten al programa aceptar lecturas que comienzan con una secuencia que tal vez no corresponda a la región de interés, pero se extiende hacia ella a medida que la hebra continúa secuenciándose. Al aceptar lecturas que se alinean con estas regiones flanqueantes, aumenta el número de lecturas aceptadas que alcanzan la región objetivo.

Objetivo

"Objetivo" se refiere a la secuencia seleccionada en el proceso de muestreo adaptativo, que incluye la región de interés, la región de margen y representa la secuencia total que el sistema utiliza a fin de aceptar o rechazar una hebra.

El cálculo del porcentaje de muestra afectado debe tener en cuenta la prevalencia de las regiones objetivo en la muestra. Es importante tener en cuenta la abundancia relativa de las secuencias objetivo en la muestra al calcular la cantidad total de secuencia genómica objetivo dentro de esa misma muestra. Por ejemplo, si el muestreo adaptativo se aplica al 50 % del genoma de E. coli añadido a una muestra humana, pero dicho genoma representa solo el 10 % del total de ADN de la muestra, en la práctica se estará actuando sobre el 5 % de las secuencias genómicas de la muestra. Este aspecto es importante, ya que el porcentaje de secuencia objetivo respecto al total de la muestra influye en el rendimiento del enriquecimiento mediante muestreo adaptativo.

Nota: no existe un intervalo de selección incorrecto; el muestreo adaptativo funciona con cualquier intervalo objetivo y distribución de regiones de interés. Sin embargo, cuanto mayor sea la proporción incluida como objetivo, menor será el enriquecimiento que se logre. Encontrará más información al respecto en la sección "Definición de regiones y adición de márgenes".

Referencia

La referencia es un archivo FASTA que contiene las secuencias presentes en una muestra correspondiente a un experimento de secuenciación concreto. En la medida de lo posible, esto debería representar la muestra completa. Por tanto, si su muestra contiene tres genomas, la referencia debe incluir la secuencia de esos mismos genomas, con el fin de evitar falsos positivos en la decisión durante el muestreo adaptativo. Siempre que se proporcione una referencia incompleta (que no represente la totalidad de la muestra), el programa intentará forzar el alineamiento de las lecturas no representadas en ella. La presencia de secuencias similares en ocasiones provoca errores en la alineación debido a la falta de una referencia completa. Un ejemplo habitual es proporcionar la referencia de un solo cromosoma, lo que provoca que las secuencias similares o repetitivas de otros cromosomas se alineen a la fuerza con la referencia de ese único cromosoma.

En el caso de las muestras ambientales, es posible que no se conozcan todos los genomas presentes en la muestra. En este caso, el muestreo adaptativo emplea un enfoque de exclusión que rechaza los genomas conocidos con el fin de enriquecer los genomas desconocidos. En tales situaciones, no es apropiado emplear una referencia que abarque todas las secuencias de la muestra.

Los archivos FASTA se obtienen íntegros del NCBI y corresponden a un genoma concreto o se generan versiones reducidas que incluyen sólo partes específicas del mismo (este ejemplo de aplicación se tratará con más detalle en el caso del MinION Mk1C en el apartado "Características técnicas del dispositivo" de esta guía).

La elección del archivo de referencia FASTA adecuado depende de las regiones de interés que se prevea incluir como objetivo. Si estas se obtuvieron a partir de un archivo con anotaciones, deberá utilizar el archivo de referencia FASTA asociado. A fin de evitar errores de alineamiento, cuando emplee un archivo BED que defina las regiones objetivo, deberá usar el genoma de referencia completo.

El UCSC Table browser es una buena opción para buscar archivos de referencia FASTA y archivos con anotaciones asociadas. La base de datos NCBI RefSeq database es otra buena opción para acceder a archivos de referencia FASTA con anotaciones genómicas estables de una amplia gama de organismos. Sin embargo, estas son sólo dos de las bases de datos que pueden resultar útiles; hay otras opciones disponibles. Lo más importante es utilizar la misma referencia en la ejecución de secuenciación con muestreo adaptativo que para generar la anotación.

Archivos BED

Los archivos BED son archivos de texto que contienen entre un mínimo de tres y un máximo de doce columnas (https://samtools.github.io/hts-specs/BEDv1.pdf, aunque en la actualidad sólo las tres primeras son obligatorias durante el muestreo adaptativo). Los archivos BED se utilizan en la subdivisión de la referencia. La primera columna corresponde al identificador del nombre de secuencia de la referencia FASTA proporcionada. La segunda columna corresponde a la coordenada de inicio de la región de interés y la tercera a la coordenada final de dicha región. Los archivos BED actúan como una máscara del archivo FASTA, que idealmente debe contener las secuencias de toda la muestra y permitir así definir las regiones objetivo que se desean enriquecer.

Opciones avanzadas: Cuando está presente, es posible utilizar la 6ª columna, que indica la dirección de la secuencia. Su uso no es obligatorio y la selección funcionará igual sin ellos. Sin embargo, si se incluye la 6ª columna con la orientación, MinKNOW interpreta que solo interesa esa secuencia en una de las hebras. Al duplicar una región y asignar signos opuestos en la 6ª columna, es posible definir la secuencia como objetivo en ambas hebras. Además, también es posible utilizar el "." (punto) en la 6ª columna que indica que interesa secuenciar en ambas hebras. Encontrará más información al respecto en la sección "Dirección de las hebras".

5 AG HowASworks FastaBed

Figura 2. Correspondencia entre el identificador de secuencia de un archivo BED y el identificador FASTA (marcado en rojo).

Enriquecimiento

El enriquecimiento es el indicador utilizado en la evaluación del rendimiento del muestreo adaptativo. Este parámetro compara la cantidad de secuencia correspondiente a las regiones objetivo obtenida en un experimento de muestreo adaptativo frente a la obtenida en un experimento de secuenciación normal, Dado que el rendimiento de una celda de flujo depende principalmente del número de poros disponibles, los datos se normalizan según la cantidad de poros utilizados durante la secuenciación y se comparan con el valor normalizado equivalente de un experimento sin muestreo adaptativo. El cálculo se realiza del siguiente modo:

5 AG Enriquecimiento de HowASworks

7. Preparación y análisis de muestras

Aunque en el muestreo adaptativo no es necesario preparar las muestras de forma específica, hay ciertos aspectos de la preparación de la biblioteca que favorecen los experimentos de este tipo.

Hay dos aspectos principales que deben tenerse en cuenta al intentar maximizar el rendimiento: la ocupación de los poros y la fragmentación de la biblioteca.

Ocupación de poros

El método de muestreo adaptativo consiste en rechazar las hebras de ADN no deseadas y así liberar el poro, que queda listo para capturar una nueva hebra. Este proceso disminuye de manera significativa la ocupación de poros, ya que el rechazo constante de hebras reduce el tiempo durante el cual los poros permanecen ocupados con una hebra. Por lo tanto, mantener una elevada ocupación de poros es uno de los aspectos más importantes del muestreo adaptativo. Con este fin, recomendamos cargar una cantidad de muestra superior a la que se utilizaría en un experimento de secuenciación estándar. La cantidad adecuada de ADN que se carga en la celda de flujo debe calcularse en función de la molaridad y no de la masa (como se explica con detalle a continuación).

Fragmentación de la biblioteca

La fragmentación es importante por dos motivos: en primer lugar, la longitud de los fragmentos influye en la molaridad, que es el principal parámetro de medida del ADN que se carga en un experimento de este tipo. En segundo lugar, es probable que este tipo de experimentos obstruyan los poros debido al elevado número de hebras que se rechazan. El uso de una biblioteca formada por fragmentos más cortos aumenta la vida útil de la celda de flujo y, por tanto, la cantidad de datos generados, ya que la biblioteca provoca menos obstrucciones y proporciona una mayor molaridad con menor cantidad de ADN total. La fragmentación no sólo reduce el bloqueo de poros, sino que también aumenta el enriquecimiento, según el tamaño de las regiones de interés individuales. Si la mayoría de las regiones de interés tienen unos pocos kilobases de longitud (por ejemplo, entre 2 y 5 kb), utilizar una biblioteca con un valor N50 en el rango de 30 kb será un desperdicio, ya que, cada vez que se acepta una hebra, el poro permanece ocupado mientras se secuencian 30 kb de datos de los que se extraen entre 2 y 5 kb de secuencia objetivo, lo que supone un desperdicio de entre 23 y 25 kb, ya que durante ese tiempo, el poro podría analizar más lecturas en lugar de secuenciar regiones fuera de objetivo. Por último, el uso de fragmentos más largos provoca que la celda de flujo esté bloqueada durante más tiempo, lo que obliga a realizar lavados de celda de flujo con más frecuencia para obtener el máximo rendimiento.

Otro procedimiento que aumenta el rendimiento de un experimento de muestreo adaptativo es realizar varios lavados de la celda de flujo durante el experimento y volver a cargar la biblioteca. Sin embargo, al reducir el tamaño de los fragmentos es posible disminuir el número de lavados necesarios y maximizar así la producción de datos por experimento.

La figura 3 muestra, en el modo de muestreo adaptativo, la evolución del bloqueo de poros en dos bibliotecas con fragmentos de distinta longitud: 5 kb y 25 kb. Cada barra representa el número de poros disponibles en intervalos de 1,5 horas durante el experimento. El desgaste de los canales debido a la obstrucción de los poros se produce a un ritmo más rápido en las bibliotecas con fragmentos más largos. Aunque el lavado de la celda de flujo recupera parte de los poros perdidos, es un proceso manual que añade tiempo de trabajo al experimento. Por eso, al diseñar experimentos de muestreo adaptativo conviene tener en cuenta la longitud de los fragmentos de la biblioteca, a fin de minimizar el bloqueo de poros y reducir la necesidad de manipular la celda de flujo.

2 QS SamplePrep 6kb vs 20kb

Figura 3. Escaneo de poros en bibliotecas de 6 kb (izquierda) y 20 kb (derecha) en experimentos de muestreo adaptativo sin lavados.

El tamaño de los fragmentos también influye en la molaridad de la muestra, sobre todo cuando se emplea un Qubit u otra medición basada en masa para calcular la cantidad de ADN que se carga en la celda de flujo. El método recomendado para evaluar la concentración de la biblioteca de ADN es Qubit; no obstante, ese valor debe expresarse en términos de molaridad, lo cual se obtiene a partir de la longitud media de los fragmentos. La estimación de dicha longitud se realiza con un Femto Pulse de Agilent (fragmentos superiores a 10 kb) o con un Bioanalizador de Agilent (fragmentos inferiores a 10 kb).

Con el peso molecular medio de un par de bases (660 g/mol), es posible calcular fácilmente la molaridad de la muestra. Esto hará que la masa de ADN necesaria difiera notablemente entre bibliotecas cortas y largas al ajustarlas a la misma molaridad. La molaridad es un factor decisivo, ya que el número de extremos de ADN disponibles que el poro captura es el principal factor que determina su nivel de ocupación. Con la química más reciente, V14, el valor óptimo por carga se sitúa entre 50 y 65 fmol.

En una biblioteca con una distribución de longitudes de lectura centrada en 6,5 kb (figura 4), 50 fmol corresponden aproximadamente a 200 ng, según los cálculos siguientes:

  • Masa total de un mol de fragmentos de 6,5 kb: 6 500 pares de bases x 660 (g/mol) = 4 290 000 g en 1 mol
  • Multiplicar por el número de femtomoles necesarios: 4 290 000 × 50 × 10⁻¹⁵ = 2 145 × 10⁻⁷
  • Convertir gramos a ng: 2,145 × 10⁻⁷ × 1 000 000 000 = 214,5 ng

Los cálculos resultarán más sencillos con una calculadora biomatemática como la siguiente: Biomath Calculators | DNA Calculator | Vector Insert Ratio

2 QS SamplePrep RLdist

Figura 4. Distribución de longitudes de lectura de una biblioteca con un valor N50 de 6,5 kb.

Se trata de una aproximación, basada únicamente en el valor N50 de la biblioteca. El cálculo de la molaridad efectiva es más complejo, ya que hay que tener en cuenta la amplitud de la distribución. No obstante, se trata de una buena aproximación, que ayuda a comprender la cantidad de ADN necesario en un experimento de muestreo adaptativo. También cabe señalar que estos cálculos y valores presuponen una eficiencia óptima en la ligación. Si se sospecha o demuestra que una biblioteca no realiza la ligación de manera eficiente, se recomienda añadir una cantidad adicional de muestra. Cabe señalar que no se ha observado ningún efecto negativo en la secuenciación al utilizar el Kit 14 con una cantidad de ADN superior, hasta un máximo de 600 ng.

8. Definición de regiones y adición de márgenes

Toma de decisiones en muestreo adaptativo

Aviso: los ejemplos y esquemas mostrados en la mayor parte de esta sección corresponden a un experimento de muestreo adaptativo en modo de enriquecimiento. Lea esta sección aunque tenga previsto utilizar el modo de exclusión. Al final de esta sección se ampliará la información presentada sobre el modo de enriquecimiento, con orientaciones específicas aplicables al modo de exclusión.

Al crear archivos BED durante experimentos de muestreo adaptativo, es importante tener una idea general de los mecanismos subyacentes en el proceso de toma de decisiones. El muestreo adaptativo utiliza la identificación de bases y el alineamiento de lecturas en tiempo real que se encuentran en el poro en cada momento, lo que significa que, tan pronto como una hebra entra en un poro, el programa empieza a determinar si dicha hebra es de interés o no. Para ello, se suceden los siguientes pasos:

  1. El programa adquiere un segundo de datos (deja que la hebra atraviese el poro durante ese tiempo y obtiene las primeras 400 bases, lo que se denomina "segmento de muestreo adaptativo").
  2. El segmento de muestreo adaptativo se envía al identificador de bases*.
  3. La secuencia identificada se alinea con la referencia que se haya proporcionado a MinKNOW.
  4. El punto de alineamiento frente a la referencia se compara con el archivo BED cargado en MinKNOW (o con la propia referencia, si no se proporcionó ningún archivo BED).
  5. La decisión se toma en función de si la hebra se alinea dentro o fuera de las secuencias definidas en el archivo BED.
  6. MinKNOW permite que la hebra siga secuenciándose o la expulsa del poro y no la secuencia.

*El proceso de identificación de bases y alineamiento en el muestreo adaptativo es independiente de los que se ejecutan en tiempo real y se muestran en las opciones de ejecución de MinKNOW. El muestreo adaptativo tiene su propio identificador de bases y su propio alineador; ambos se configuran en segundo plano y no pueden modificarse ni desactivarse.

También hay casos en los que las hebras no se alinean en absoluto con la referencia. Existen múltiples razones, aunque las dos más habituales son la baja calidad de la hebra o una referencia incompleta. Por eso, la referencia debe representar siempre la totalidad de la muestra. Si en la muestra hay genomas o secuencias que no están presentes en la referencia o si esta sólo contiene genomas parciales, algunas hebras no se alinearán y aumentará la probabilidad de que se produzcan alineamientos falsos positivos. Si se utiliza una referencia completa y aún así no aparecen alineamientos, la causa suele estar en el bloqueo prolongado de los poros o en puntuaciones Q (Q-scores) bajas en la biblioteca analizada.

El muestreo adaptativo utiliza el modelo de identificación de bases Rápido (independiente de la identificación de bases en tiempo real de MinKNOW) e identifica el primer segmento de datos recibidos lo más rápido posible; a continuación, aplica un conjunto específico de parámetros de alineamiento —distintos de los empleados en el alineamiento en tiempo real— para alinear rápidamente estas secuencias cortas con la referencia FASTA proporcionada. El alineamiento emplea la preconfiguración del modo de lecturas cortas de minimap2 (-sr) con algunas modificaciones en los parámetros predefinidos. Tras el alineamiento, se coteja la región a la que se asignó el segmento con el archivo BED, que contiene las regiones objetivo del muestreo adaptativo. Esto se muestra en la figura 5.

6 AG TargetingBuffering Targeting schematics

Figura 5. Esquema de los elementos clave implicados en el alineamiento y la toma de decisiones en el muestreo adaptativo. La hebra superior es la secuencia de referencia (azul, rojo y naranja) y en verde está la longitud real de las hebras de ADN, donde el marrón marca el comienzo de cada hebra que se lee a fin de tomar una decisión. En el primer ejemplo (A), el primer segmento de la hebra (marrón) se encuentra dentro de la región objetivo que el archivo BED define; la hebra se aceptará y se secuenciará. En el segundo ejemplo (B), el segmento se encuentra dentro la región de margen (en rojo) y, por tanto, la hebra se acepta y se secuenciará. En el tercer ejemplo (C), el segmento inicial queda fuera de la región objetivo y de la región de margen, lo que provoca el rechazo de la hebra y significa que no se secuenciará.

Definición de las regiones de margen

Definir las regiones de margen de manera correcta es una de las tareas más importantes antes de iniciar un experimento de muestreo adaptativo. Las regiones de margen permiten capturar hebras que pueden alinearse con regiones adyacentes a la región de interés, pero al continuar la secuenciación, acabarán alcanzándola, lo que permite compensar posibles caídas de cobertura en los extremos de las regiones objetivo.

La figura 6 muestra un diagrama similar al de la figura 5, pero utiliza regiones de margen.

6 AG TargetingBuffering Buffering schematics

Figura 6. Ejemplos de A: una región de margen bien definida y B: una región de margen mal definida.

En el ejemplo A, dada la región objetivo (en rosa), el programa acepta cualquier hebra que contenga una secuencia que incluya cualquiera de esas zonas (región de interés y margen). En cambio, en el ejemplo B, el margen no se definió correctamente en función de la longitud de la hebra, lo que dio lugar al rechazo de hebras que contenían parte de la región objetivo, ya que las primeras ~400 bases empleadas en la decisión de muestreo adaptativo se situaron fuera de la región de margen. Este ejemplo demuestra la importancia de escoger la longitud adecuada del margen que se añadirá a las regiones adyacentes de las regiones de interés. No es posible saber a ciencia cierta la longitud de una hebra hasta que se haya secuenciado por completo. No obstante, es posible estimar su longitud a partir de la distribución de longitudes de lectura de la biblioteca, tal como se muestra en la figura 4. De este modo, es posible delimitar las regiones de margen de cada una de las regiones de interés. La tabla 1 resume los posibles resultados al delimitar las regiones de margen.

6 AG TargetingBuffering Resume table

Tabla 1. Resumen de cómo los diferentes tamaños de margen y la longitud de fragmentos influencian el resultado.

Cómo definir el tamaño adecuado del margen

La longitud del margen debe delimitarse en función de la distribución de longitudes de lectura de la biblioteca. La figura 7 muestra la distribución de longitudes de lectura de una biblioteca fragmentada con un Covaris g-TUBE. En esta biblioteca se han fijado diferentes valores de Nxx.

6 AG TargetingBuffering BufferingRLdist

Figura 7. Distribución de longitudes de lectura en una biblioteca fragmentada en 5 kb, con un tubo g-TUBE (Covaris). Las líneas verticales representan, de izquierda a derecha, los valores N50, N25, N10 y N01 de la distribución de longitudes de lectura.

Como regla general, añadir un margen comprendido entre los valores N25 y N10 de la distribución de longitudes de lectura en ambos lados de cada región objetivo constituye una buena referencia. La figura 8 muestra los resultados de un experimento de enriquecimiento realizado con dos bibliotecas de tamaños distintos, cada una enriquecida con márgenes de distinto tamaño.

6 AG TargetingBuffering DifferentBufferingSizes

Figura 8. Enriquecimiento obtenido de bibliotecas con márgenes de distinto tamaño, preparadas con Short Fragment Eliminator Expansion (EXP-SFE001) y el tubo g-TUBE de Covaris.

Sin embargo, el tamaño del margen depende también de los datos de la región de interés. Dado que el margen se aplica de forma individual a cada región, el número de regiones independientes se convierte en un factor importante al decidir el tamaño del márgen. Como se indicó al principio de esta guía, la cantidad total de las regiones objetivo que el muestreo adaptativo utiliza para tomar decisiones (región de interés y margen) determinará el grado de enriquecimiento. Por ello, es importante tener en cuenta el tamaño del margen que se añade al archivo BED de regiones objetivo.

Notas:

  • El solapamiento de márgenes correspondientes a objetivos individuales cercanos no supondrá ningún problema. Sin embargo, en caso de solapamiento, el muestreo adaptativo tratará las regiones solapadas como una sola región en lugar de considerarlas como independientes.
  • Conviene considerar la cobertura mínima por cada región de interés. La finalidad del margen es ayudar con las reducciones de cobertura en los bordes de las regiones de interés. Por lo tanto, conviene optar por una cobertura media ligeramente inferior a cambio de una cobertura más homogénea dentro de la región de interés (lo que se traduce en una cobertura mínima mayor). Una simulación realizada sobre 60 condiciones distintas muestra el efecto del tamaño del margen sobre la cobertura mínima obtenida por la región de interés. Como se muestra en la figura 9, cuanto mayor es el margen menor será la diferencia entre la cobertura mínima y la cobertura media de una región determinada. Es comprensible, ya que al aumentar el margen es posible capturar lecturas más largas que solo se solapan con las regiones de interés en su extremo final, lo que incrementa la cobertura en sus bordes.

6 AG TargetingBuffering Avg minimum

Figura 9. Datos simulados que muestran la diferencia entre las coberturas media y mínima, expresada como porcentaje de la cobertura media (%).

Cálculos del margen

Los siguientes ejemplos ilustran cómo añadir un margen influye en la ejecución del muestreo adaptativo. La tabla 2 muestra ejemplos de dos regiones de interés distintas en relación con el genoma humano (3,2 Gb). La siguiente ecuación se utiliza para calcular la extensión total de la región objetivo empleada en la toma de decisiones:

Total de bases definidas como objetivo (bases) = Número de regiones objetivo × (Nxx × 2) + % total del genoma incluido como objetivo × tamaño del genoma

6 AG TargetingBuffering ROI example

Tabla 2. Ejemplos de regiones de interés utilizadas para calcular el tamaño total de la región objetivo.

Tal como se muestra en la tabla 2, hay una gran diferencia en el número de regiones objetivo entre los ejemplos 1 y 2. Según la ecuación anterior, esto dará lugar a una diferencia considerable en el total definido como objetivo, atribuible únicamente al margen añadido. La tabla 3 muestra dos columnas por cada uno de los ejemplos anteriores. La primera columna muestra la cantidad total de bases objetivo (región de interés y margen) y la segunda columna representa ese valor como porcentaje del genoma humano. Los valores que aparecen por cada Nxx se basan en la distribución de longitudes de lectura que se muestra en la figura 7 (arriba). La segunda columna indica, en la práctica, el porcentaje de la muestra definido como objetivo mediante muestreo adaptativo, suponiendo que la muestra sea homogénea.

6 AG TargetingBuffering Roi results

Tabla 3. Cifra total de bases definidas como objetivo en cada condición de la Tabla 2, con márgenes de distintos tamaños. La cantidad definida como objetivo también se expresa como porcentaje del genoma humano en la segunda columna de cada ejemplo (%).

Como se observa en el Ejemplo 2 con N01, añadir un margen aumenta el objetivo del muestreo adaptativo, desde un 4,5 % de la muestra inicial (solo la región de interés) hasta un 20,5 %. En cambio, en el Ejemplo 1, añadir un margen de mayor tamaño da lugar a un objetivo de muestreo adaptativo de solo el 0,68 % del total de la secuencia presente en la muestra. Se trata de dos casos opuestos. En el ejemplo 1, añadir un margen de longitud N01 —calculado a partir de la distribución de longitudes de lectura— aumenta al máximo las probabilidades de secuenciar una hebra que alcance la región objetivo, sin aumentar de forma significativa el total de secuencias objetivo. Ahora bien, en el Ejemplo 2, el uso del margen de mayor longitud multiplica por cuatro la región objetivo, lo que implica dirigir el análisis a más del 20 % de la muestra. Una cantidad tan elevada de regiones objetivo reduce la capacidad de enriquecimiento, ya que mantiene los poros ocupados durante demasiado tiempo mientras secuencia lecturas fuera de objetivo.

Una manera de evitarlo es reducir el Nxx empleado al añadir el margen. En el ejemplo 2, un N50 sería la longitud de margen más razonable que añadir a la región de interés. Otra manera de reducir el margen es reducir la longitud media de los fragmentos de la biblioteca. Si la biblioteca presenta una distribución de longitudes de lectura superior a 15 kb, fragmentar las moléculas para acortarlas reducirá los valores de Nxx obtenidos a partir de esa distribución.

9. Consideraciones sobre la longitud de la biblioteca

Consideraciones sobre la longitud de la biblioteca

Como se mostró en la sección anterior, el tamaño ideal del margen que debe añadirse dependerá de varios factores, de los que, el más importante es la distribución de longitudes de lectura de la biblioteca. La longitud media de la biblioteca es un factor importante al considerar el volumen de datos que se quiere obtener de la secuenciación. Secuenciar una biblioteca con longitudes de lectura muy cortas (~1000 bases), produce un bloqueo mínimo y proporciona un beneficio menor por inversión de voltaje. Suponiendo que los márgenes estén correctamente definidos, el "beneficio por inversión de voltaje" es la cantidad de muestra que se secuencia al descartar una lectura. Por ejemplo, si la biblioteca tiene hebras con una media de 1000 bases, cada vez que se rechace una lectura, el programa "muestrea" 1000 bases de la muestra. Por otro lado, si la biblioteca tiene una longitud media de lectura de 30 kb, cada vez que se rechaza una lectura, el programa muestrea 30 kb. Dado que el tiempo necesario para tomar cada decisión y rechazar es el mismo en bibliotecas cortas y largas, el genoma completo se recorre más rápido si se utilizan fragmentos más largos.

Sin embargo, la secuenciación de bibliotecas largas presenta algunos inconvenientes. Aunque ofrecen un muestreo más rápido y facilitan el descarte progresivo de las regiones definidas como objetivo, aumentan la tasa de bloqueo de los poros y necesitan una mayor cantidad de muestra para alcanzar la molaridad necesaria que mantenga una elevada ocupación de poros. Asimismo, las bibliotecas largas requieren lavados más frecuentes de la celda de flujo y, a menudo, generan una cantidad total de datos menor debido a una probabilidad mayor de bloqueo terminal de los poros.

Por último, conviene considerar la distribución de las regiones objetivo y su tamaño medio. Si el archivo BED contiene 20 000 regiones objetivo con un tamaño medio de 3 kb cada una, utilizar una biblioteca de 30 kb resultaría contraproducente. Aparte de una tasa de bloqueo de poros mayor, cada vez que el poro acepta una hebra, secuencia una media de 30 kb (lo que a 400 b/s supone 75 segundos) y genera apenas 3 kb de secuencia útil. Con un tiempo de decisión de ~2 segundos, el resultado es de 75/2 = ~38 lecturas que el programa habría examinado. En este ejemplo, el tamaño total de la región objetivo es de 60 Mb (sin margen), lo que equivale aproximadamente al 2 % del genoma humano y se traduce en una probabilidad de encontrar la región objetivo en 1 de cada 50 lecturas secuenciadas. Por lo tanto, la secuenciación de una sola hebra de 30 kb impide el análisis de 38 lecturas de las 50 necesarias, a fin de encontrar la siguiente lectura dentro del objetivo. Este hecho influirá negativamente en el enriquecimiento y en la cobertura total obtenida al utilizar el muestreo adaptativo.

Una aplicación más adecuada del muestreo adaptativo sería definir como objetivo, por ejemplo, 200 regiones individuales, con un tamaño medio de 60 kb por región. Una biblioteca fragmentada con el Covaris g-TUBE (con un N50 de ~6-8 kb) sería ideal para aumentar al máximo el rendimiento y, al mismo tiempo, minimizar el bloqueo de poros y las lecturas desperdiciadas. Añadir un margen de ~20 kb, correspondiente a ~N01 de la biblioteca, reduciría la diferencia entre la cobertura media y la mínima, con lo que se obtendría el rendimiento ideal.

10. Direccionalidad de la hebra

Direccionalidad de la hebra

Otro factor que debe tenerse en cuenta al diseñar los márgenes es la orientación de las regiones objetivo con respecto a la dirección de la hebra. El margen específico por lado permite aceptar correctamente las lecturas en cualquiera de los extremos de la región objetivo, en función de la hebra de origen (véase el gráfico IGV de la figura 10). Nótese que se trata de una función avanzada y que no es imprescindible para que el el muestreo adaptativo funcione correctamente. Utilice su criterio al añadir un margen si incorpora la función de direccionalidad.

7 AG Strand IGV directional

Figura 10. Representación en IGV, coloreada según la dirección de la hebra, que muestra el efecto de su orientación específica mediante la sexta columna del archivo BED. Las líneas rojas representan el corte en cada hebra, a partir del cual la secuencia deja de aceptarse. Coinciden con el extremo de la región de interés (sin margen) en cada dirección.

Configurar el margen de forma diferenciada por extremo evita la adquisición de lecturas que comienzan en la dirección 3’ de la región de interés. Esto se refleja en la figura 11, donde no hay lecturas que empiecen después de las líneas rojas en ninguna dirección. Sin embargo, las lecturas que comienzan dentro de la región de interés a menudo se prolongan más allá de su extremo. La direccionalidad se indica en la 6ª columna del archivo BED (figura 11). Encontrará más información en los siguientes enlaces:

https://samtools.github.io/hts-specs/BEDv1.pdf https://en.wikipedia.org/wiki/BED_(file_format)

Es posible añadir un margen específico por lado en las regiones de interés; por ejemplo, solo hacia 5' de la secuencia objetivo. Para ello, incluya dos líneas en el archivo BED correspondientes a la misma región objetivo, una en cada dirección, y añada el margen estipulado en el tramo anterior a dicha secuencia. Por ejemplo:

Chr1 "start-buffer" "end"        "name"  "score" +

Chr1 "start" "end + buffer"      "name"  "score" -

7 AG Strand BedFile

Figura 11. Ejemplo de un archivo BED con seis columnas. De izquierda a derecha: cromosoma; coordenada inicial; coordenada final; nombre de la región; puntuación; dirección de la hebra.

La inclusión de un margen en un lado concreto reduce el tamaño de la secuencia a la mitad, ya que sólo se añade margen en un lado de la región objetivo en cada hebra. Por el contrario, cuando no se especifica la dirección de la hebra, el margen se añade de forma arbitraria a ambos lados de las regiones objetivo.

11. Modo de exclusión

Modo de exclusión en muestreo adaptativo

A diferencia del modo de enriquecimiento, en el modo de exclusión se eligen las secuencias que se rechazan en lugar de las que se aceptan. Lo que requiere un enfoque diferente del modo de enriquecimiento. En primer lugar, la cantidad total recomendada como objetivo es la inversa de la que se utilizaría en el método de enriquecimiento. La cantidad de muestra que se indique como rechazada debe ser lo bastante amplia, de modo que los poros dispongan del máximo tiempo disponible destinado a secuenciar las regiones de interés. Es posible alcanzar niveles de enriquecimiento similares al del método de enriquecimiento siempre que las secuencias de interés representen una fracción reducida de la muestra (1–5 %), lo que significa que deberá crearse un archivo BED que defina como objetivo entre el 95 % y el 99 % de la muestra.

La segunda consideración es que, cuando se excluyen regiones no deseadas de una sola muestra genómica, el tamaño del margen debe funcionar como un valor negativo. Por lo tanto, en lugar de añadir el margen al archivo de regiones objetivo (que define las secuencias que se van excluir), será necesario restarlo. A continuación hay un resumen de la lógica utilizada para transformar un método de enriquecimiento en uno de exclusión.

8 AG Depletion logic conversion

Figura 12. Diagrama de cómo convertir un archivo BED de enriquecimiento en un archivo BED de exclusión.

El diagrama de la figura 12 recorre todos los pasos, desde el uso de un archivo BED de enriquecimiento con márgenes conocidos hasta generar un archivo BED de exclusión con márgenes. Es posible pasar sin dificultad del primer al último paso cuando el tamaño del margen se mantiene constante. Con este enfoque, debe conocerse el tamaño total del cromosoma y así definir como objetivo de exclusión la región comprendida entre el final de la región de interés y el final del cromosoma. Estos valores suelen variar en función de la referencia utilizada. La figura 13 muestra un ejemplo de cómo se vería esto en un archivo BED que define como objetivo dos regiones del cromosoma 1 humano:

8 AG Depletion bed conversion

Figura 13. Ejemplo de conversión de un archivo BED en modo de enriquecimiento a uno en modo de exclusión.

Si se desea enriquecer regiones específicas del genoma excluyendo el resto de la muestra, lo más sencillo es optar por el modo de enriquecimiento. El modo de exclusión es más adecuado cuando se desea enriquecer secuencias o genomas desconocidos, un planteamiento que es habitual cuando la muestra contiene una mezcla de organismos y se quiere excluir lo ya identificado, de modo que el muestreo adaptativo enriquezca los genomas raros o desconocidos.

12. Características técnicas del dispositivo

Características técnicas del dispositivo en muestreo adaptativo

El muestreo adaptativo exige una capacidad de cálculo elevada, ya que identifica bases, alinea y toma decisiones sobre todas las hebras capturadas en tiempo real. Actualmente recomendamos desactivar la identificación de bases en tiempo real cuando el muestreo adaptativo se ejecuta en más de una celda de flujo. La identificación de bases en tiempo real durante un experimento de muestreo adaptativo, en algunos casos, reduce el enriquecimiento —es decir, disminuye la cobertura obtenida dentro de la región objetivo— debido a la falta de recursos, que impide gestionar los dos procesos de identificación de bases a la vez.

Por eso, recomendamos que no haya ningún otro proceso en ejecución en el dispositivo, como la identificación de bases sin conexión, la identificación de bases en experimentos de secuenciación del genoma completo o cualquier otro proceso que consuma CPU o GPU. Una vez iniciados los experimentos, el rendimiento del muestreo adaptativo se sigue en el panel "Distribución de longitudes de lectura" de la interfaz de usuario de MinKNOW.

Mientras el valor "Inversión de la tensión en muestreo adaptativo" se mantenga por debajo de 1 kb, los experimentos deberían funcionar en condiciones óptimas y favorecer el enriquecimiento de las regiones objetivo seleccionadas. Si el valor es superior a 1 kb, se recomienda comprobar lo siguiente:

  • Que no haya otras celdas de flujo activas que estén secuenciando con identificación de bases ni celdas de flujo ejecutando modelos de identificación de bases de máxima precisión (SUP).
  • Que no haya otros procesos en segundo plano consumiendo recursos (herramientas de análisis, etc.)
  • Reducir el número de celdas de flujo utilizadas en el muestreo adaptativo.

Una vez aplicados los cambios, reiniciar la ejecución. Los datos acumulados durante el periodo inicial de ralentización promedian los datos nuevos (tras desactivar funciones o celdas de flujo) y en ocasiones ocultan el efecto sobre la ejecución durante bastante tiempo. Por esta razón, cuando se identifica un problema, lo mejor es detener el experimento, realizar las comprobaciones o ajustes necesarios y reiniciarlo; así se observa con rapidez el efecto sobre el rendimiento del muestreo adaptativo.

9 AG DeviceSpec AS histogram1

Figura 14. Histograma de longitudes de lectura en MinKNOW, con valores estimados de N50.

Límite de alineamiento y de memoria en el MinION Mk1C

Debido a la memoria RAM insuficiente, el MinION Mk1C no mantiene en ella una referencia humana indexada por completo y al rebasar ese límite, se bloqueará el proceso de muestreo adaptativo. El tiempo de alineamiento es otro parámetro que conviene tener en cuenta al evaluar el tamaño máximo del archivo de referencia del MinION Mk1C. Cuanto mayor sea la referencia proporcionada, más tardará el proceso de muestreo adaptativo en recorrer la referencia indexada hasta encontrar el alineamiento. Por ello, aconsejamos cargar no más de 125 Mb de referencia (FASTA) no indexada. Por encima de ese tamaño, el MinION Mk1C experimenta retrasos importantes en la toma de decisiones de muestreo adaptativo.

Consideraciones finales

En dispositivos con mayor capacidad de memoria, es posible alinear las secuencias frente a archivos de referencia más grandes siempre que no se utilice muestreo adaptativo (por ejemplo, durante una secuenciación habitual con alineamiento en tiempo real). No obstante, es de esperar que la velocidad de la identificación de bases en tiempo real disminuya si el tamaño de las referencias supera los valores sugeridos.

No indexe previamente los archivos de referencia antes de cargarlos en MinKNOW para utilizarlos con el muestreo adaptativo. En la última versión de MinKNOW, el programa genera de forma automática el índice a partir de la referencia; la secuenciación no comienza hasta que el proceso haya finalizado. Esto permite a Oxford Nanopore mantener la posibilidad de ajustar los parámetros de alineamiento y optimizarlos para que sean más rápidos y precisos durante el muestreo adaptativo. Si se genera el índice previamente, es muy probable que no se utilicen los mismos parámetros que emplea MinKNOW, lo que influye en la toma de decisiones de muestreo adaptativo y genera falsos positivos y falsos negativos.

13. Dónde encontrar, crear y modificar archivos FASTA y BED

Dónde encontrar, crear y modificar archivos FASTA y BED

El muestreo adaptativo precisa de los siguientes datos de entrada:

  • Una referencia genómica (archivo FASTA o .mmi) que contenga las secuencias presentes en la muestra. El archivo .mmi también se denomina referencia indexada y se obtiene al indexar el archivo de referencia (FASTA) antes de iniciar el experimento, ya sea a través de MinKNOW (página de inicio) o mediante minimap2. Aún así, no recomendamos indexar las referencias de antemano, porque Oxford Nanopore ajusta los parámetros de indexación a fin de potenciar el rendimiento del muestreo adaptativo.
  • Las coordenadas de las regiones de interés, proporcionadas en un archivo BED. Las coordenadas deben corresponder a la referencia proporcionada, lo que implica que los nombres de los cromosomas deben coincidir con los utilizados en dicha referencia.

Recomendamos que la referencia represente la muestra completa utilizada. Por ejemplo, si la muestra contiene tres organismos diferentes, la referencia debe contener el genoma completo de los tres organismos. Esto reducirá los posibles alineamientos falsos positivos que surgen al utilizar una referencia incompleta.

Es posible descargar archivos de referencia de bases de datos fiables como UCSC Table browser y NCBI RefSeq database. Estos archivos representarán la plantilla con la que se alinearán las lecturas obtenidas durante la secuenciación. Si la muestra contiene más de un organismo, se deben descargar varias referencias —una por organismo—, unir los archivos en un archivo único y comprobar los nombres de los cromosomas individuales para asegurarse de que no haya duplicados (p. ej., evitar "Chr1" en cat.fasta y "Chr1" en human.fasta).

Una vez descargadas las referencias correctas, generar un archivo BED a partir de las anotaciones existentes. En esta guía utilizaremos el navegador USCS Table como ejemplo de cómo obtener un archivo BED destinado a seleccionar regiones de variación estructural del genoma humano, tal como se muestra en la figura 15. Primero, se debe seleccionar el clado, el genoma y el ensamblaje correspondientes a humano y elegir un grupo, que será el que se ajuste al tipo de secuenciación al que se dirige la selección (p. ej., Genes and Gene predictions, Regulation sequences, Variation of repeating regions, etc.), lo que modificará las opciones disponibles en la pista, que reúne las diferentes anotaciones desarrolladas para el grupo elegido. La tabla mostrará la lista de regiones disponibles proporcionada por cada pista a partir de varias combinaciones. En el ejemplo actual, es posible obtener regiones de variación estructural comunes en distintos conjuntos de la población humana (menú desplegable de la figura 16), lo que dará lugar a una lista completa de regiones de todo el genoma.

USCS Table Browser

Figura 15. Ejemplo de configuración correspondiente a la descarga de un archivo BED con regiones de variación estructural frecuente en el cromosoma X humano.

Table browser drop-down

Figura 16. Lista de tablas de la pista dbVar Common SV.

Además, es posible obtener un subconjunto de la lista de genes de cada una de estas tablas si se desea dirigir la selección a las regiones de un cromosoma concreto. Esta operación se realiza en la sección "Define region of interest" de la herramienta Table Browser de UCSC. Se elige el genoma o se indica un intervalo de coordenadas, tal como se muestra en la figura 15. Pulsar en lookup activará la selección. Si se desea incluir como objetivo todo el genoma, se debe seleccionar la opción "genome" y no se generará ningún subconjunto. Hay otras opciones avanzadas en la sección "Optional: Subset, combine, compare with another track", aunque no se explicarán en esta guía.

Por último, en la última sección "Retrieve and display data", establecer el "output format" en BED – browser extensible data y especificar un nombre de archivo en el cuadro de entrada inferior. Establecer "file type returned" en plain text, ya que MinKNOW no acepta archivos comprimidos. Pulsar get output y se le redirigirá a una nueva página.

En esta página (figura 17), verificar que la opción "include custom track header" no esté seleccionada. En su lugar, en "Create one BED record per:", seleccionar Whole Gene con lo que se obtienen las regiones exactas definidas en la pista. También es posible seleccionar otras opciones si solo interesan secuencias hacia 5', hacia 3' o de hebras específicas. Pulsar en get BED descargará un archivo con el nombre especificado previamente pero sin extensión. Cambiar el nombre del archivo a "name_chosen".bed y estará listo para su uso.

Al seguir los ajustes de esta guía, se descargará un archivo con 62 líneas, todas ellas del cromosoma 1 representado por "chr1" en la primera columna de cada línea, lo que se comprueba abriendo el archivo BED con cualquier editor de texto.

USCS Table Browser2

Figura 17. La última página del Table Browser antes de descargar el archivo BED resultante.

Selección de un subconjunto de un archivo FASTA de gran tamaño para utilizarlo con el MinION Mk1C

Dado que el MinION Mk1C no dispone de memoria suficiente para trabajar con referencias de gran tamaño (>125 Mb), cuando se utiliza una referencia extensa, es necesario generar un subconjunto del archivo FASTA. Ahora bien, si dicho subconjunto contiene solo las regiones de interés, no es necesario utilizar un archivo BED, ya que la referencia ya se ha reducido.

A continuación encontrará instrucciones para crear un archivo FASTA reducido. Es necesario instalar samtools y bedtools en el ordenador, lo que requiere conocimientos previos sobre el uso de Conda y samtools/bedtools.

  1. Abrir el Terminal.
  2. Instalar samtools y bedtools mediante los siguientes comandos: wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -f -p source ~/miniconda3/bin/activate conda create -name adasamp -c bioconda samtools bedtools conda activate adasamp
  3. Ir a la carpeta que contiene los archivos FASTA y BED. Si están en carpetas diferentes, crear un enlace a la ubicación del archivo FASTA. Desde la carpeta que contiene el archivo BED: ln -s /long/path/to/my/reference/in/different/folder/myref.fasta myref.fasta REF=myref.fasta Desde la carpeta que contiene el archivo FASTA: ln -s /long/path/to/my/bed/in/different/folder/mybed.bed mybed.bed BED=mybed.bed
  4. Editar la configuración de la referencia y del archivo BED con las regiones objetivo: BASES_TO_EXPAND_PER_SIDE= tamaño del margen calculado en cada uno de los lados. REF=your_reference.fasta BED=your_bed_with_target_regions.bed (El archivo FASTA reducido se denominará your_reference-your_bed_with_target_regions.fasta)
  5. Estos son los archivos intermedios que se crean: CHROM_SIZES=${REF}.chrom.sizes SLOPPED_BED=${BED%.*}_slop-${BASES_TO_EXPAND_PER_SIDE}.bed, que se guardan en la misma ubicación donde se ejecutan los comandos y permanecen allí hasta que se eliminen. El archivo definitivo que se carga en MinKNOW SUBSETTED_FASTA=${REF%.}-${SLOPPED_BED%.}.fasta, también se guarda en esa misma ubicación.
  6. Indexar la referencia y obtener el tamaño de los cromosomas: samtools faidx ${REF} cut -f1,2 ${REF}.fai > ${CHROM_SIZES}
  7. Expandir el archivo BED y extraer el FASTA: bedtools slop -l ${BASES_TO_EXPAND_PER_SIDE} -r ${BASES_TO_EXPAND_PER_SIDE} -i ${BED} -g ${CHROM_SIZES} > ${SLOPPED_BED} bedtools getfasta -fi ${REF} -bed ${BED} -fo ${SUBSETTED_FASTA} -name Con estos comandos se amplía el archivo BED que contiene las regiones de interés, añaden un número de bases a cada extremo y se genera así la región de margen empleada en la selección de muestreo adaptativo.
  8. Copiar el archivo FASTA reducido en el dispositivo de secuenciación.

14. Catálogo de muestreo adaptativo

Catálogo de muestreo adaptativo

La comunidad Nanopore tiene una página donde compartir archivos BED. También es posible encontrar archivos BED de otros usuarios que sean relevantes para su trabajo. Consulte los archivos BED de muestreo adaptativo enviados por otros miembros de la comunidad o envíe los suyos propios, al Catálogo de muestreo adaptativo. En esa página hay instrucciones sobre cómo añadir un archivo BED al catálogo.

10 AG Catalogue page

Figura 18. Página del catálogo de muestreo adaptativo en la página web de la comunidad Nanopore.

15. Resolución de problemas

Cómo diagnosticar problemas de rendimiento

Gran variabilidad entre muestras y series

Antes de comparar el rendimiento de dos ejecuciones, tenga en cuenta si se realizaron en condiciones similares, incluidas la configuración de la ejecución (número de celdas de flujo, modelos de identificación de bases y alineamiento), las referencias y los archivos BED, así como el kit de secuenciación y los protocolos de preparación de muestras.

Si se marca la opción Agrupar por motivo de finalización de lectura, situada debajo del histograma de longitudes de lectura, aparecerá sobre el gráfico el valor medio de los picos de rechazo como "Inversión de voltaje del muestreo adaptativo". Estos valores actúan como indicador indirecto de la velocidad de decisión del muestreo adaptativo. Existe cierta variación entre ejecuciones y muestras. Sin embargo, una variación superior al 30 % indica un problema en la ejecución. La causa más probable del aumento de la longitud de las distribuciones del pico de rechazo es un retraso en la decisión, que se debe a una identificación de bases o a un alineamiento lentos. Compruebe que el dispositivo no esté ejecutando otros procesos en segundo plano que ocupen capacidad de procesamiento. En caso de duda, reinicie el dispositivo. Si el muestreo adaptativo aún presenta un retraso en el tiempo de decisión, compruebe que se cumplen los límites establecidos que garantizan el correcto funcionamiento de cada dispositivo. Este tema aparece de nuevo en la sección "Características técnicas del dispositivo" de esta guía.

Si tras las comprobaciones, el rendimiento del muestreo adaptativo sigue siendo bajo, compruebe los parámetros de calidad de la secuenciación (puntuaciones Q-score, velocidad de secuenciación y temperatura del dispositivo). Los problemas con la velocidad de secuenciación provocan un aumento del tiempo de decisión al tardar más tiempo en adquirir la cantidad necesaria de datos.

Porcentaje elevado de lecturas fallidas

El resultado acumulado, visible en los gráficos de MinKNOW cuando se realiza la identificación de bases en tiempo real, aporta información sobre la cantidad de lecturas fallidas. Por lo general, este valor debe ser inferior al 10 %. Si es >20 %, hay un problema con la muestra, que afecta al rendimiento de la identificación de bases e impide que el programa tome una decisión de muestreo adaptativo a tiempo. Este problema suele coincidir con la presencia de un pico de rechazo bimodal en el histograma de longitudes de lectura.

Pico de rechazo bimodal

El pico de rechazo bimodal es un indicador claro de un rendimiento deficiente del muestreo adaptativo. A veces, aparece un pico pequeño después del pico principal, lo que significa que una pequeña parte de las lecturas tardan más en tomar una decisión. Hay un par de motivos que dan lugar a esta situación:

  • Las hebras de baja calidad retrasan la toma de decisiones, ya que exigen secuenciar una longitud mayor hasta obtener un alineamiento suficientemente fiable.
  • El sistema se ha sobrecargado debido a la ejecución de demasiadas instancias de muestreo adaptativo o a la identificación de bases en tiempo real con modelos pesados.

Que el pico más pequeño aparezca después del pico principal no suele ser motivo de preocupación. Sin embargo, cuando el segundo pico alcanza aproximadamente el 50 % del primero o aparece una cola larga detrás de este (como se muestra en la figura 19), indica que se ha producido una disminución en el rendimiento. La causa más frecuente es que MinKNOW esté ejecutando demasiadas funciones o celdas de flujo a la vez. Si se encuentra en esta situación, reduzca el número de celdas de flujo o desactive la identificación de bases en tiempo real.

12 AG Diagnose delay decision

Figura 19. Ejemplo de un pico de rechazo bimodal en el histograma de longitudes de lectura de MinKNOW, correspondiente a una sola celda de flujo con muestreo adaptativo.

Interpretación de los archivos producidos

Los archivos que MinKNOW genera durante un experimento de secuenciación se describen en el Documento técnico de análisis de datos.

Durante los experimentos de muestreo adaptativo, se generan dos archivos CSV adicionales llamados AS_decisions_x_x_x.csv y AS_timmings_x_x_x.csv, que se guardan en other_reports dentro de la carpeta de ejecución y resultan útiles en la resolución de problemas. Estos archivos se "emparejan" con el resumen de secuenciación mediante read_id y concatenan la información del muestreo adaptativo y la información del resumen de secuenciación, lo que permite ver los parámetros de cada lectura junto con la decisión tomada por el muestreo adaptativo.

  • El archivo AS_decisions_x_x_x.csv contiene tres columnas: read_id, action y action_response.
  • El archivo AS_timings_x_x_x.csv contiene nueve columnas: channel, read_id, batch_time, samples, bases, barcode_arrangement, mean_qscore, time_to_package_and_send y time_in_basecaller.
Campo Descripción
read_id Identificador individual de cada lectura, que coincide con los read_id proporcionados por el resumen de secuenciación
action Indica si una lectura fue aceptada (sequence) o rechazada (unblock)
action_response Indica si MinKNOW ejecutó correctamente la acción (SUCCESS/ FAILED_READ_FINISHED/FAILED_READ_TOO_LONG)
channel Canal en el que se secuenció la lectura
batch_time Hora a la que el script de muestreo adaptativo procesa la lectura
samples Número de muestras recibidas por el script de muestreo adaptativo en cada lectura
bases Número de bases identificadas a partir de cada lectura en la decisión de muestreo adaptativo
barcode_arrangement Disposición de códigos de barras detectada en el primer fragmento (este campo estará vacío si no se utiliza un kit con códigos de barras)
mean_qscore Puntuación Q-score media de la identificación de bases del segmento inicial de muestreo adaptativo
time_to_package_and_send Tiempo transcurrido entre la recepción de la lectura y su envío al identificador de bases
time_in_basecaller Tiempo transcurrido entre el envío de la lectura al identificador de bases y su devolución

Cómo comprobar que las regiones objetivo están bien definidas

Mediante los parámetros disponibles en el archivo adaptive_sampling.csv, en la carpeta "other reports", y en el archivo sequencing_summary.txt, es posible hacerse una idea del rendimiento del muestreo adaptativo y comprobar si el archivo BED incluye como objetivo las regiones previstas.

Si se conoce el tamaño de las regiones de interés, es posible sumarlas y calcular el tamaño total de la región objetivo. Divida este valor por el tamaño de los genomas presentes en la muestra (si hay varios, tenga en cuenta la prevalencia de cada uno) y obtendrá una estimación del porcentaje de lecturas que deberían recibir la decisión stop_receiving. Siempre habrá una variación del 10–20 % en función de la prevalencia de las regiones objetivo, la eficiencia de la ligación en distintas zonas del genoma, la puntuación Q-score de regiones concretas etc. Sin embargo, este cálculo sirve como primera aproximación para evaluar si el sistema está aceptando el número correcto de lecturas.

Conviene hacer esta comprobación si, al observar el histograma de longitudes de lectura, se sospecha que el número de lecturas aceptadas es demasiado alto o demasiado bajo con respecto a la fracción de muestra que se está incluyendo como objetivo.

Si se reciben menos stop_receiving reads de las esperadas, las posibles causas son:

  • Las regiones de margen son demasiado pequeñas.
  • En el archivo BED hay líneas mal colocadas. El muestreo adaptativo ignora las líneas incorrectas.
  • Las secuencias no se incluyen correctamente como objetivo a partir de la referencia.
  • Las secuencias no están presentes en la muestra.
  • Hay regiones difíciles de secuenciar (por ejemplo, regiones repetitivas) en las que el alineador no logra identificar la posición de la lectura. Se trata de un caso muy raro.
  • Puntuaciones Q bajas en las lecturas

Si se reciben más lecturas stop_receiving de las esperadas, las posibles causas son las siguientes:

  • Las regiones de margen son demasiado grandes.
  • Ha utilizado una referencia FASTA incompleta, que no representa la totalidad de la muestra.
  • El archivo BED proporcionado no es válido En este caso, el sistema incluye por defecto toda la referencia FASTA proporcionada.
  • Hay un error en las coordenadas del archivo BED de una región determinada.

16. Interfaz de usuario y cuadros de diálogo en MinKNOW

Durante los experimentos, MinKNOW lleva a cabo el alineamiento del muestreo adaptativo en paralelo al proceso de identificación de bases en tiempo real. La interfaz de usuario de MinKNOW muestra cuadros de diálogo con información sobre ambos procesos. A continuación indicamos la ubicación de cada elemento o archivo.

En primer lugar, MinKNOW distingue entre los archivos utilizados en la secuenciación en tiempo real y los empleados en el muestreo adaptativo; cada uno cuenta con su propia sección para cargar la referencia de alineamiento y el archivo .bed. Tanto el archivo FASTA de referencia como el archivo BED pueden ser los mismos en ambas secciones (de ahí que la sección alineamiento se rellene automáticamente con los archivos cargados en la sección Muestreo adaptativo). No obstante, es importante entender la función de cada archivo, ya que cargar un archivo BED diferente en la sección de alineamiento en tiempo real, permite obtener un seguimiento más claro y continuo de la cobertura durante el experimento.

Los archivos de muestreo adaptativo se cargan en la sección 3. Opciones de ejecución, dentro del apartado denominado "Muestreo adaptativo", figura 20, sección superior. Los márgenes se emplearán para definir las regiones objetivo de la muestra y afectarán a las lecturas que MinKNOW seleccione para su secuenciación, El archivo BED cargado en esta sección también debe incluir una región de margen, cuando corresponda. Encontrará más información al respecto en las secciones anteriores de la guía dedicadas a los márgenes.

Los archivos de alineamiento se cargan en la sección 4. Análisis de la configuración del experimento en MinKNOW. La referencia FASTA tiene como finalidad alinear las lecturas tras la identificación de bases en tiempo real y, por lo tanto, debe ser el mismo archivo que el utilizado en el muestreo adaptativo. De este modo, es posible generar archivos BAM con secuencias identificadas y alineadas en tiempo real.

El archivo BED de la sección 4. Análisis se utiliza en dos procesos diferentes: en primer lugar, proporciona un identificador en el resumen de secuenciación, que indica si la lectura completa coincide con las regiones descritas en el archivo BED cargado en dicha sección; este dato se muestra en el archivo sequencing_summary.txt, en la columna bed_alignment y se rellena con un 0 o un 1 según la lectura coincida o no con el archivo BED. En segundo lugar, el archivo BED se utiliza para comprobar la cobertura obtenida en cada una de las regiones que contiene. El progreso se visualiza durante el experimento en la pestaña Aciertos de alineamiento de MinKNOW.

A fin de aprovechar al máximo las funciones de alineamiento en tiempo real y seguimiento de la cobertura, cargar el archivo BED con la región de margen (archivo BED con la región de interés y el margen) en la sección 3. Opciones de ejecución, apartado Muestreo adaptativo, y el archivo BED que contiene sólo la región de interés (sin el margen) en la sección 4. Análisis. De este modo, el seguimiento de la cobertura se limita a las regiones de interés y proporciona una descripción más precisa de la cobertura en dichas regiones. El archivo BED proporcionado en la sección de alineamiento no modifica el resultado del experimento y no es estrictamente necesario. No obstante, en función del tamaño del margen añadido a cada región en el archivo BED, incluir en la sección de alineamiento un archivo BED que contenga solo las regiones objetivo (sin el margen) proporciona un informe de cobertura más preciso. Es importante tener en cuenta que el seguimiento de la cobertura (y, por tanto, los archivos proporcionados en la sección 4. Análisis) no modifica en modo alguno el experimento de secuenciación. Es una herramienta que permite realizar alineamiento en tiempo real y comprobar, durante un experimento, la cobertura obtenida en cada región del archivo BED. Por último, cabe señalar que la cobertura indicada se refiere al porcentaje de secuencias ya identificadas; por tanto, si la identificación de bases en tiempo real no sigue el ritmo, la cobertura indicada se calcula solo a partir del porcentaje ya procesado.

El alineamiento en tiempo real es un proceso exigente desde el punto de vista computacional que afecta con facilidad al tiempo de decisión del muestreo adaptativo. Por ello, conviene consultar las tablas de métricas recomendadas, donde se indica cuántas celdas de flujo es posible ejecutar con esta función por dispositivo sin perjudicar las tasas de enriquecimiento. A fin de evitar el uso del alineamiento en tiempo real, se debe eliminar la secuencia de referencia indicada con un "1" en la figura 20.

4 QS UIinfo Minknow AS dialogs

Figura 20. Cuadros de diálogo de MinKNOW utilizados al cargar el archivo de referencia FASTA junto con el archivo BED en el panel de muestreo adaptativo (arriba, secciones 3 y 4), así como en el panel de identificación de bases en tiempo real (abajo, secciones 1 y 2).

Una vez iniciado un experimento, en la primera página del resumen, se ve qué archivos se están utilizando en cada sección. En la figura 21 se muestra un ejemplo de este panel.

4 QS Minknow experimento info

Figura 21. Panel frontal de MinKNOW con el resumen del experimento. La información de alineamiento se ha etiquetado adecuadamente.

Last updated: 3/18/2026

Opciones de documento

Idioma:

Getting started

Buy a MinION starter pack Nanopore store Sequencing service providers Channel partners

Quick links

Intellectual property Cookie policy Corporate reporting Privacy policy Terms, conditions and policies Accessibility

About Oxford Nanopore

Contact us News Media resources & contacts Investor centre Careers BSI 27001 accreditationBSI 90001 accreditationBSI mark of trust
Spanish flag