Чтобы проверить, не являются ли они просто артефактами сборки последовательности, вы должны просто сделать саузерн-блоттинг. Чтобы увидеть, действительно ли они транскрибируются, попробуйте qPCR / RNAseq / Northern blot (при условии, что есть расхождение последовательностей). Если нет разницы в последовательности, то это намного больше работы.
С точки зрения биоинформатики вы можете указать своему выравнивателю не допускать неоднозначных выравниваний. Если в нескольких генах есть идентичные области, они будут проигнорированы и засчитаны как невыровненные чтения. По правде говоря, я, как правило, не слишком беспокоюсь об этом, особенно если у вас есть чтения размером 100+ пар оснований.
Для поиска вариантов вам нужно удалить истинные дупликации из выравнивания, чтобы избежать чрезмерного выделения ошибок последовательности, усиливаемых с помощью ПЦР. Тем не менее, я не удаляю дубликаты из данных RNA-Seq, потому что 1) гены с высокой экспрессией будут иметь настоящие дупликации чтения из-за очень высокого охвата (скажем,> 100x для операций чтения 100 п.н.) и 2) я обычно беспокоюсь только об уровнях экспрессии и в любом случае возможно объединение событий.