Я только что скачал предварительно отформатированную базу данных нуклеотидов с ncbi и последнюю версию blastn. Когда я пытаюсь BLASTануть одну последовательность (с длиной 1427 нуклеотидов), blastn просто съедает всю мою оперативную память (около 95%), и процесс занимает действительно очень много времени (около 20 минут против 3 минут с -remote blast). На моем ПК у меня есть Windows 7 64x, amd fx-8350 и 8 ГБ оперативной памяти.
Я использую эти параметры, и они выглядят для меня очень похожими на параметры поиска по умолчанию в Blastn в онлайн-версии Blast. (db = "nt", max_target_seqs = 100, task = "blastn", num_threads = 8, outfmt = 5)
Не могли бы вы объяснить, что я делаю не так? Или, может быть мне не хватает оперативной памяти?

спросил от (5.4k баллов)

1 Ответ

С базой данных NT вам нужно 20-30 ГБ свободной оперативной памяти для поиска в памяти, так что нет, это не вы делаете что-то не так, а аппаратные ограничения вашего ПК. Попробуйте получить доступ к вычислительному кластеру, тогда эта проблема легко решится. Можно арендовать облачный сервер.
Если вы интересуетесь только определенным классом организмов, вы можете указать в базе данных nt только эти последовательности. Сокращение пространства поиска может помочь вам обойти свои ограничения:
https://www.ncbi.nlm.nih.gov/books/NBK279693/

ответил от (3.1k баллов)