Нам очень нужны волонтеры молекулярные биологи и биоинформатики для помощи в наполнении и курировании портала. Напишите нам

Как извлечь первые и последние N оснований из прочтения в файле fastq?

Я использовал следующую команду, чтобы извлечь последние 1000 оснований из  прочтения из файла fastq, но я также хотел бы включить в команду и первые 1000 оснований:

$$  grep -A 4 "read_name_identifier" filename.fq | sed -n '2~4p' | grep -o '.{1000}$'

Кроме то, можно ли это сделать на каком-нибудь скриптовом языке, если у меня очень много файлов для обработки?

спросил от (5.4k баллов)

1 Ответ

Если вы хотите использовать perl (или python), я бы посоветовал правильно проанализировать файл с помощью модуля Bio (например Biopython). Извлечение этой информации будет довольно тривиальным и гораздо более надежным:

https://biopython.org/

Вот один из способов:

grep -A 4 "read_name_identifier" filename.fq | sed -n '2~4p' | cut -c 1-1000

или

grep -A 4 "read_name_identifier" filename.fq | sed -n '2~4p' | sed 's/.//1001g'

 

ответил от (3.1k баллов)