На данный момент у нас есть несколько пакетов на основе Hadoop (crossbow, cloudburst etc.) для анализа данных NGS, но я вижу что люди часто предпочитают такие инструменты, как bowtie, tophat, SOAP и т.д. в своей работе. Я хочу получить некоторые идеи о том, можно ли использовать/преобразовывать последовательные инструменты, чтобы пользоваться масштабируемыми распределенными вычислениями с использованием Hadoop для ускорения исследований? Также, какие проблемы в таких алгоритмах отображения и сборки для их использования в системе hadoop?
Мне также любопытно узнать о некоторых других задачах в области биоинформатики, которые могут быть выполнены с использованием проектов на основе hadoop, таких как hive, pig и hbase, которые имеют дело с большими данными, такими как файлы fastq, sam, данные подсчета или другие виды биологических данных.