На данный момент у нас есть несколько пакетов на основе Hadoop (crossbow, cloudburst etc.) для анализа данных NGS, но я вижу что люди часто предпочитают такие инструменты, как bowtie, tophat, SOAP и т.д. в своей работе. Я хочу получить некоторые идеи о том, можно ли использовать/преобразовывать последовательные инструменты, чтобы пользоваться масштабируемыми распределенными вычислениями с использованием Hadoop для ускорения исследований? Также, какие проблемы в таких алгоритмах отображения и сборки для их использования в системе hadoop?
Мне также любопытно узнать о некоторых других задачах в области биоинформатики, которые могут быть выполнены с использованием проектов на основе hadoop, таких как hive, pig и hbase, которые имеют дело с большими данными, такими как файлы fastq, sam, данные подсчета или другие виды биологических данных.

спросил от (5.4k баллов)

1 Ответ

За исключением сборки de novo, узким местом анализа NGS является часто считывание мапирований и нахождение SNP. Для этих анализов вы можете тривиально разделить файлы чтения для мапирования и анализа областей хромосом и выполнять задания отдельно на разных вычислительных узлах. В этом случае Hadoop добавляет мало пользы, хотя требует специальной настройки, которая может (я не уверен) мешать другим заданиям, не относящимся к Hadoop. Я также вижу меньше исследователей, которые понимают, как Hadoop работает как большое препятствие.
С другой стороны, эти проблемы с hadoop технически относительно незначительны. Если вы сможете перенести наиболее широко используемый конвейер bwa-picard-gatk на hadoop, то найдутся потенциальные пользователи, особенно если они используют amazon. Crossbow и cloudburst не так популярны отчасти потому, что они не реализованы на хорошем пайплайне. Ученые обычно выбирают точность вместо скорости и удобства, если только разница в точности не ничтожна, в то время как разница в скорости превышает пару порядков величины. Посмотрите также вот этот ресурс:
https://hadoopbioinfoapps.quora.com/

ответил от (3.1k баллов)