Содержание

NGS: За кулисами генома — как мы боремся с ошибками секвенирования
Что такое ошибки секвенирования и почему они возникают?
Типы ошибок секвенирования
Как мы обнаруживаем и исправляем ошибки секвенирования?
Контроль качества (Quality Control, QC)
Выравнивание (Alignment)
Фильтрация вариантов (Variant Filtering)
Использование уникальных молекулярных идентификаторов (Unique Molecular Identifiers, UMIs)
Сравнение с другими технологиями
Примеры из нашей практики
Будущее борьбы с ошибками секвенирования

NGS: За кулисами генома — как мы боремся с ошибками секвенирования

В мире геномики, где каждый нуклеотид имеет значение, Next-Generation Sequencing (NGS) – это наш верный инструмент. Но даже самые мощные инструменты не идеальны. Сегодня мы погрузимся в захватывающий мир ошибок секвенирования NGS и расскажем, как мы, исследователи и аналитики, сражаемся с ними каждый день.

Представьте себе огромную библиотеку, где каждая книга – это фрагмент генома. NGS – это процесс, с помощью которого мы копируем и читаем эти книги с невероятной скоростью. Однако, как и в любой библиотеке, здесь встречаются опечатки, неточности и просто случайные ошибки. Наша задача – выявить и исправить эти ошибки, чтобы получить максимально точную картину генетического ландшафта.

Что такое ошибки секвенирования и почему они возникают?

Ошибки секвенирования – это неверное определение нуклеотида в последовательности ДНК или РНК. Они могут возникать на разных этапах процесса NGS, от подготовки образца до анализа данных. Понимание причин возникновения этих ошибок – первый шаг к их эффективному устранению.

Вот некоторые из наиболее распространенных источников ошибок:

Ошибки при подготовке образца: Неполная конверсия, повреждение ДНК, контаминация образца.
Ошибки на этапе амплификации: Неравномерное усиление разных фрагментов ДНК, ошибки полимераз.
Ошибки на этапе секвенирования: Неточности при определении нуклеотида, фазовые сдвиги.
Ошибки при анализе данных: Неправильная калибровка приборов, неоптимальные алгоритмы выравнивания и фильтрации.

Каждый из этих этапов требует тщательного контроля и оптимизации, чтобы минимизировать вероятность внесения ошибок.

Типы ошибок секвенирования

Ошибки секвенирования бывают разных типов, и понимание их классификации помогает нам выбирать наиболее подходящие стратегии для их коррекции.

Замены (Substitutions): Замена одного нуклеотида на другой (например, A на G). Это самый распространенный тип ошибок.
Вставки (Insertions): Включение одного или нескольких нуклеотидов в последовательность.
Делеции (Deletions): Удаление одного или нескольких нуклеотидов из последовательности.

Кроме того, ошибки могут быть систематическими (возникающими с определенной частотой в определенных контекстах) или случайными (возникающими спорадически). Систематические ошибки, как правило, связаны с конкретными особенностями используемой технологии секвенирования или протокола подготовки образца.

Как мы обнаруживаем и исправляем ошибки секвенирования?

Обнаружение и исправление ошибок секвенирования – это многоступенчатый процесс, требующий использования различных биоинформатических инструментов и статистических методов. Мы используем целый арсенал стратегий, чтобы обеспечить максимальную точность результатов.

Контроль качества (Quality Control, QC)

Первый и самый важный шаг – это контроль качества данных. Мы используем специальные программы, такие как FastQC, чтобы оценить качество ридов (коротких последовательностей ДНК, полученных в результате секвенирования). Эти программы позволяют нам выявлять риды низкого качества, которые могут содержать большое количество ошибок.

Мы обращаем внимание на следующие параметры:

Качество нуклеотидов (Phred score): Оценка вероятности того, что нуклеотид определен правильно. Чем выше значение Phred score, тем выше качество нуклеотида.
Распределение длин ридов: Неоднородное распределение может указывать на проблемы с подготовкой образца или секвенированием.
Содержание GC: Отклонения от ожидаемого содержания GC могут свидетельствовать о контаминации образца или наличии систематических ошибок.
Наличие адаптеров и праймеров: Неудаленные адаптеры и праймеры могут приводить к ложным результатам при анализе данных.

Риды, не прошедшие контроль качества, отбрасываются или обрезаются, чтобы минимизировать влияние ошибок на дальнейший анализ.

Выравнивание (Alignment)

После контроля качества мы выравниваем риды на референсный геном (известную последовательность генома, используемую в качестве шаблона). Это позволяет нам определить положение каждого рида в геноме и выявить различия между ридами и референсным геномом.

Для выравнивания мы используем различные алгоритмы и программы, такие как Bowtie2, BWA и STAR. Выбор конкретного алгоритма зависит от типа данных, размера генома и целей исследования.

Важно отметить, что алгоритмы выравнивания не идеальны и могут допускать ошибки. Поэтому мы используем различные параметры и настройки, чтобы оптимизировать процесс выравнивания и минимизировать вероятность ошибок.

Фильтрация вариантов (Variant Filtering)

После выравнивания мы приступаем к обнаружению генетических вариантов (отличий от референсного генома). Однако не все обнаруженные варианты являются истинными. Многие из них – это ошибки секвенирования или выравнивания.

Чтобы отфильтровать ложные варианты, мы используем различные критерии и методы, такие как:

Глубина покрытия (Coverage): Количество ридов, покрывающих данную позицию в геноме. Чем выше глубина покрытия, тем более вероятно, что обнаруженный вариант является истинным.
Качество варианта (Quality score): Оценка вероятности того, что обнаруженный вариант являеться истинным.
Частота аллеля (Allele frequency): Доля ридов, содержащих данный вариант.
Аннотация вариантов: Информация о функциональном значении обнаруженных вариантов.

Мы также используем базы данных известных генетических вариантов, чтобы отфильтровать варианты, которые уже были обнаружены и признаны истинными.

"Точность – это не просто важная деталь, это основа всей работы."

— Эдвард Деминг

Использование уникальных молекулярных идентификаторов (Unique Molecular Identifiers, UMIs)

UMI – это короткие случайные последовательности ДНК, которые добавляются к каждой молекуле ДНК перед амплификацией. Они позволяют нам отслеживать каждую молекулу ДНК в процессе секвенирования и выявлять ошибки, возникающие на этапе амплификации.

Использование UMI значительно повышает точность NGS и позволяет нам обнаруживать редкие варианты, которые могли бы быть пропущены при использовании традиционных методов.

Сравнение с другими технологиями

Для подтверждения результатов NGS мы часто используем другие технологии секвенирования или генотипирования. Например, секвенирование по Сэнгеру является "золотым стандартом" для подтверждения отдельных вариантов. Microarray анализ также может быть использован для генотипирования известных SNP (Single Nucleotide Polymorphisms).

Примеры из нашей практики

В нашей лаборатории мы постоянно сталкиваемся с проблемами, связанными с ошибками секвенирования. Вот несколько примеров из нашей практики:

Пример 1: В одном из проектов по исследованию рака мы обнаружили большое количество редких вариантов, которые, как оказалось, были ошибками секвенирования. Использование UMI позволило нам отфильтровать эти ошибки и выявить истинные варианты, связанные с развитием рака.
Пример 2: В другом проекте мы столкнулись с проблемой контаминации образцов. Анализ данных показал, что в образцах присутствуют последовательности ДНК, не принадлежащие исследуемому организму. Тщательная проверка протоколов подготовки образцов и использование более строгих критериев контроля качества позволили нам решить эту проблему;

Будущее борьбы с ошибками секвенирования

Технологии NGS постоянно развиваются, и вместе с ними развиваются и методы борьбы с ошибками секвенирования. В будущем мы ожидаем увидеть:

Более точные секвенаторы: Новые секвенаторы с более высокой точностью и меньшей частотой ошибок.
Более совершенные алгоритмы анализа данных: Алгоритмы, способные более эффективно выявлять и корректировать ошибки секвенирования.
Более широкое использование UMI: UMI станут стандартным инструментом для повышения точности NGS.
Развитие методов машинного обучения: Использование машинного обучения для выявления и классификации ошибок секвенирования.

Борьба с ошибками секвенирования – это постоянный процесс совершенствования, требующий от нас постоянного обучения и адаптации к новым технологиям. Но мы уверены, что в будущем мы сможем достичь еще большей точности и надежности в геномных исследованиях.

NGS – это мощный инструмент, но, как и любой инструмент, он требует умелого использования. Понимание источников ошибок секвенирования и использование эффективных стратегий для их обнаружения и коррекции – это ключ к получению точных и надежных результатов. Мы надеемся, что наш опыт поможет вам в ваших геномных исследованиях.

Подробнее

Анализ данных NGS	Ошибки секвенирования ДНК	Контроль качества NGS	Выравнивание ридов	Фильтрация вариантов NGS
Unique Molecular Identifiers	Технологии секвенирования	Биоинформатика в геномике	Причины ошибок секвенирования	NGS pipeline

NGS За кулисами генома — как мы боремся с ошибками секвенирования