Кто-нибудь знает инструмент или пакет (perl / python / R), который будет рассчитывать содержание GC каждой кодирующей последовательности в геноме?
Мне нужно сделать это для каждого экзона, а также для всей расшифровки (за исключением, очевидно, UTR).

спросил от (5.4k баллов)

1 Ответ

Опция nuc в bedtools(https://bedtools.readthedocs.io/en/latest/) может сделать эту задачу. Все, что вам нужно, это файл BED или GTF только с экзонами, а также файл FASTA с эталонным геномом, с которым вы имеете дело.
Вот пример, предполагающий, что вы имеете дело с последней сборкой генома человека.

bedtools nuc -fi hg19.fa -bed exons.bed

Посмотрите на помощь, чтобы понять как выводятся результаты. Вкратце, второй столбец, указанный после вашей исходной записи BED или GTF, будет GC%:

bedtools nuc Output format:  The following information will be reported after each BED entry:
    1) %AT content
    2) %GC content
    3) Number of As observed
    4) Number of Cs observed
    5) Number of Gs observed
    6) Number of Ts observed
    7) Number of Ns observed
    8) Number of other bases observed
    9) The length of the explored sequence/interval.
    10) The seq. extracted from the FASTA file. (opt., if -seq is used)
    11) The number of times a user's pattern was observed.
        (opt., if -pattern is used.)
ответил от (3.1k баллов)