Я работаю над задачами геномики модельного организма, который имеет несколько копий для многих важных генов. Например, существует несколько копий лиганда BMP, аннотированных как один и тот же ген. Как я могу определить, являются ли копии гена подлинными дупликациями или артефактами последовательных аннотаций, например, из-за того, что варианты не сворачиваются во время сборки последовательности?

спросил от (5.4k баллов)

1 Ответ

Чтобы проверить, не являются ли они просто артефактами сборки последовательности, вы должны просто сделать саузерн-блоттинг. Чтобы увидеть, действительно ли они транскрибируются, попробуйте qPCR / RNAseq / Northern blot (при условии, что есть расхождение последовательностей). Если нет разницы в последовательности, то это намного больше работы.
С точки зрения биоинформатики вы можете указать своему выравнивателю не допускать неоднозначных выравниваний. Если в нескольких генах есть идентичные области, они будут проигнорированы и засчитаны как невыровненные чтения. По правде говоря, я, как правило, не слишком беспокоюсь об этом, особенно если у вас есть чтения размером 100+ пар оснований.
Для поиска вариантов вам нужно удалить истинные дупликации из выравнивания, чтобы избежать чрезмерного выделения ошибок последовательности, усиливаемых с помощью ПЦР. Тем не менее, я не удаляю дубликаты из данных RNA-Seq, потому что 1) гены с высокой экспрессией будут иметь настоящие дупликации чтения из-за очень высокого охвата (скажем,> 100x для операций чтения 100 п.н.) и 2) я обычно беспокоюсь только об уровнях экспрессии и в любом случае возможно объединение событий.

ответил от (3.1k баллов)