Распознавание генов

Основные идеи:

Часть 1. Прокариоты

Вам дан фрагмент генома бактерии Prevotella intermedia в формате FASTA (см. файл <номер>prev.txt или prok<номер>.txt). Ваша задача — при помощи программ ORF Finder, GeneMark и blastp проаннотировать этот фрагмент — определить границы генов и по возможности предсказать их функцию.

С помощью программы ORF Finder идентифицируйте открытые рамки считывания в геномной ДНК. Программа ORF Finder (Open Reading Frame Finder) идентифицирует открытые рамки считывания (ORFs) на обеих цепях ДНК. Доступ к ней можно получить по ссылке http://www.ncbi.nlm.nih.gov/gorf/gorf.html. Cкопируйте последовательность ДНК (о цифрах и пробелах можно не беспокоиться, программа их автоматически пропустит) в текстовое поле формы, в окошке выбора генетического кода выберите 11 Bacterial Code и нажмите кнопку OrfFind. Вы получите список обнаруженных открытых рамок. Шесть белых полосок в выдаче ORF Finder изображают исходную последовательность в шести возможных рамках считывания, в порядке +1, +2, +3 (прямая цепь), –1, –2, –3 (обратная цепь), а бирюзовые полоски — найденные в данной рамке ORFs. Щёлкните мышью найденную ORF, чтобы получить её более подробное описание. Начало, конец и рамку для ORF длиннее 60 кодонов занесите в таблицу:

Prevotella intermedia: ORF Finder
начало конец длина цепь описание
7877 8314 438 + Транскрипционный регулятор, принадлежащий к семейству MarR

Длина ORF должна делиться на 3, а предположительная функция белка описана по-русски. Если одна рамка полностью содержится внутри другой, можно рассматривать только большую из них.

Если нажать кнопку BLAST на страничке с подробным описанием рамки, можно найти программой blastp предположительные гомологи предсказанного гена. На открывшейся странице форматирования результатов в строке Show отметьте Advanced view, в строке Limit results выставите во всех трёх полях 50; (для начала) нажмите кнопку View report. Все белковые хиты будут расположены в порядке возрастания e-value. Чем меньше e-value, тем лучше. Значимыми можно считать хиты с e-value <10–4. Если из двух рамок со значительным перекрытием (>20 нуклеотидов) одна подтверждается blast'ом, а другая нет, последняя, скорее всего, не является геном. Сходство запроса и белка из базы должно быть хорошим, белок должен покрывать запрос по возможности полностью. Быть может, старт последовательности придётся сместить. Для аннотации лучше использовать не hypotetical и не predicted белки, даже если они немного хуже выравниваются с запросом.

Вставьте в отчёт данные о хитах, при помощи которых Вы проаннотировали ген (идентификатор, организм, длина белка, сходство, e-value).

GeneMark — программа статистического предсказания генов. Доступ к ней можно получить по ссылке http://exon.gatech.edu/genemark/gmhmm2_prok.cgi. Скопируйте последовательность ДНК в поле Sequence Text. Включите опции Use RBS model, if avaliable, Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions и Generate PDF graphics (screen). Запустите программу кнопкой Start GeneMark.hmm. Вы получите таблицы генов, предсказанных двумя программами: GeneMark и GeneMark 2.4. В отчете используйте результаты работы GeneMark 2.4.

Посмотрите, как распределен кодирующий потенциал по ДНК, для этого нажмите гиперссылку View PDF Graphical Output на странице с предсказаниями GeneMark. На открывшемся рисунке в формате PDF Вы увидите графики распределения кодирующего потенциала для каждой рамки считывания на обеих цепях ДНК. Вставьте графики в отчёт.

Занесите результаты работы программы GeneMark 2.4 в такую же таблицу, как для ORF Finder. Знак < или > возле границы предсказанного гена означает, что программа предполагает продолжение гена за пределами данной ей последовательности.

В обеих таблицах выделите зелёным гены, одинаково предсказанные ORF Finder и GeneMark, жёлтым — пересекающиеся, но не совпадающие полностью, оранжевым — гены, предсказанные ровно одной программой. ORF, которые Вы не считаете настоящими генами по результатам BLAST'а, оставьте незакрашенными.

Часть 2.1 Эукариоты: GENSCAN, Genome Browser

Вам дан фрагмент ДНК из генома человека (<номер>human.txt или euk1_<номер>.txt). Ваша задача — определить экзон-интронную структуру гена и описать его альтернативный сплайсинг, используя программы GENSCAN, BLAT и Genome Browser.

GENSCAN — программа статистического распознавания генов, она предсказывает границы экзонов и интронов, промоторы, сайты полиаденилирования. Доступ к программе можно получить по ссылке http://genes.mit.edu/GENSCAN.html. Скопируйте последовательность ДНК в текстовое поле формы и нажмите кнопку Run GENSCAN. GENSCAN представляет результаты в виде таблицы экзонов. Вам будут нужны её колонки Type, S (Strand), Begin и End. Обязательно прочтите расшифровку обозначений в разделе Explanation после таблицы. Занесите в свою таблицу начало, конец, цепь и тип всех предсказанных программой экзонов, заведя отдельную таблицу на каждый предполагаемый ген (тип экзона: Init — initial (начальный), Intr — internal (внутренний), Term — terminal (конечный); PlyA — это не экзон, а сайт полиаденилирования). Пример таблицы:

Homo sapiens: GENSCAN
началоконеццепьтип
315490+начальный
10091300+внутренний
20002101+внутренний

База Genome Browser (ранее Human Genome Browser, HGB) (http://genome.ucsc.edu/cgi-bin/hgGateway) содержит гены, белки, мРНК и другие объекты, картированные на различные аннотированные геномы. Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Доступ к программе можно получить по ссылке Blat с основной страницы портала (на синей полосе сверху).

Поместите последовательность ДНК в текстовое поле формы, выберите поиск в геноме человека, сборка (Assembly) Feb. 2009, и нажмите кнопку Submit. Вы получите список найденных фрагментов генома. Если в этом списке больше одной строки, выберите ту строку, которая имеет максимальное сходство с вашей последовательностью по SCORE и максимальную длину выравнивания. Если Ваша последовательность длиннее 25000 нуклеотидов, придётся поделить её на части, найти их по отдельности, записать координаты находок и убедиться, что они нашлись в геноме рядом. После этого выставить в окне просмотра координаты целого фрагмента.

Перейдите к просмотру найденного фрагмента генома человека: нажмите гиперссылку browser. Может быть, чтобы увидеть весь ген, нужно будет расширить область просмотра или уменьшить масштаб. Поэкспериментируйте с кнопками! Под картинкой находятся выпадающие меню для выбора отображаемых объектов. Поставьте на pack переключатель Blat Sequence в группе Mapping and Sequencing Tracks, а также переключатели Human mRNAs и Spliced ESTs в группе mRNA and EST Tracks, остальные переключатели поставьте на hide. Нажмите кнопку refresh, она находится в самом низу страницы. Теперь Вы видите, как выравниваются с геномной ДНК Ваша последовательность, а также сплайсированные EST и мРНК из базы. Быть может, с Вашим запросом выравняется только часть гена человека, тогда нужно будет настроить браузер так, чтобы был виден ген целиком.

Щёлкните по изображению какой-либо из мРНК. Должно появиться её подробное описание. На этой страничке в разделе mRNA/Genomic Alignments перейдите по гиперссылке с выравниванием, а потом найдите раскрашенную последовательность, заголовок которой начинается с Genomic. На ней синим выделены кодирующие участки, красным — некодирующие, чёрным — интроны и участки генома за границей выравнивания. Экзоны могут быть полностью кодирующими, полностью некодирующими, а также смешанными — частично кодирующими и частично некодирующими (это экзоны, содержащие старт- и стоп-кодоны).

Приведите примеры альтернативного сплайсинга в найденном гене человека, указав тип альтернативы (это могут быть, например, кассетные экзоны, чередующиеся экзоны, альтернативные донорные и акцепторные сайты сплайсинга, удержанные интроны) и идентификаторы мРНК или EST, подтверждающих альтернативный сплайсинг (минимум 2 на каждую альтернативу, например, для кассетного экзона нужно указать транскрипт, пропускающий экзон и транскрипт, включающий его). Обязательно вставьте в отчёт картинку из HGB (размер окна по длине гена). Обведите на ней найденные альтернативы. Внимание! Начало первого и конец последнего экзона EST использовать при аннотации нельзя, они обрываются в произвольном месте!

Часть 2.2 Эукариоты: blastx

Вам дан фрагмент ДНК из генома какао (<номер>cacao.txt или euk1_<номер>.txt). Ваша задача — при помощи программы blastх проаннотировать этот фрагмент.

Доступ к web-интерфейсу программы blastx можно получить сервере NCBI ( http://www.ncbi.nlm.nih.gov/blast/, ищите нужную гиперссылку в разделе Basic BLAST).

В меню Database оставьте предложенный по умолчанию банк nr. Можно ограничить поиск только белками резуховидки Таля (это часто полезно): в окно Organism введите Arabidopsis thaliana (можно экспериментировать, также полезно смотреть только на растения, например). Отключите фильтр малой сложности Low complexity, для этого нужно сначала развернуть полный список параметров кнопкой Algorithm parameters. Также исключите (Exclude) поиск по моделям и природным последовательностям (поставьте галочки возле Models (XM/XP) и Uncultured/environmental sample sequences).

Программа blastx предскажет изоформы выданного Вам гена, выравнивая белки с геномной ДНК. Если включить Advanced view результатов, можно будет сортировать предсказанные экзоны по порядку их следования в запросе или последовательности из базы.

Занесите аннотацию экзонов в таблицу (отдельно для каждого гена, если Вы найдёте их несколько), учитывая что blastx определяет границы экзонов не точно и их нужно уточнять вручную:

В отчете для каждого гена приведите выравнивание и отдельную таблицу координат «экзонов» на белке и ДНК:

Идентификатор и название белка из базы, организм, цепь
координаты по белкукоординаты по ДНК
начало экзона 1начало экзона 1
конец экзона 1конец экзона 1
  
начало экзона 2начало экзона 2
конец экзона 2конец экзона 2

При подсчёте координат помните о том, что на каждую аминокислоту должно приходиться по три нуклеотида! Пример таблицы:

>gi|9621790|gb|AAF89534.1| serine protease [Mus musculus], +
координаты по белкукоординаты по ДНК
1603
1691109
  
1691211
2371417

Укажите отличия уточнённых экзонов от предсказания blastx. Для этого добавьте колонку QQ в таблицу уточнённых экзонов. Перекрытие QQ — мера близости двух систем отрезков, вычисляется как отношение длины пересечения к длине объединения отрезков из этих систем. Вам нужно вычислить QQ для уточнённого экзона и исходного blastx-экзона, его породившего. Так же, кстати, можно описывать сходство аннотаций, полученных разными программами.

Выпишите координаты Poly(N) в Вашем фрагменте ДНК (если есть). Как они расположены относительно генов?

Технические требования к отчёту

Отчеты принимаются в формате .doc (Office XP, 2003, не 2007!!!). В названии файла должна присутствовать Ваша фамилия и тема занятия. Отчёт нужно будет отправить Екатерине Олеговне Ермаковой на электронный адрес pseudoobscura@gmail.com до 20 декабря (включительно).

Если Вы заносите результат blast'а в таблицу, нужно привести в тексте соответствующее выравнивание.

Экзоны, полученные blastx, обязательно должны быть отсортированы, а уточнённые экзоны отмечены на выравниваниях цветом (используйте цветной фон текста).