Распознавание генов

Заведите файл отчета в формате .doc (Office XP, 2003, не 2007!!!). В названии файла должна присутствовать Ваша фамилия и тема занятия. Отчёт нужно будет отправить Екатерине Олеговне Ермаковой на электронные адреса ermakova@iitp.ru и ermakova8@yandex.ru до 16 декабря (включительно).

Основные идеи:

использование внутренних статистических свойств последовательности (ORF Finder, GeneMark, GENSCAN)
поиск известных гомологов (BLAST, Genome Browser)

Часть 1. Прокариоты

Вам дан фрагмент генома бактерии Acidobacterium capsulatum в формате FASTA см. файл prok<номер>.txt). Ваша задача — при помощи программ ORF Finder, GeneMark и blastp проаннотировать этот фрагмент — определить границы генов и по возможности предсказать их функцию.

С помощью программы ORF Finder идентифицируйте открытые рамки считывания в геномной ДНК. Программа ORF Finder (Open Reading Frame Finder) идентифицирует открытые рамки считывания (ORFs) на обеих цепях ДНК. Доступ к ней можно получить по ссылке http://www.ncbi.nlm.nih.gov/gorf/gorf.html. Cкопируйте последовательность ДНК (о цифрах и пробелах можно не беспокоиться, программа их автоматически пропустит) в текстовое поле формы, в окошке выбора генетического кода выберите 11 Bacterial Code и нажмите кнопку OrfFind. Вы получите список обнаруженных открытых рамок. Шесть белых полосок в выдаче ORF Finder изображают исходную последовательность в шести возможных рамках считывания, в порядке +1, +2, +3 (прямая цепь), –1, –2, –3 (обратная цепь), а бирюзовые полоски — найденные в данной рамке ORFs. Щёлкните мышью найденную ORF, чтобы получить её более подробное описание. Начало, конец и рамку для ORF длиннее 60 кодонов занесите в таблицу:

Acidobacterium capsulatum: ORF Finder
начало	конец	длина	цепь	описание
7877	8314	438	+	Транскрипционный регулятор, принадлежащий к семейству MarR

Длина ORF должна делиться на 3, а предположительная функция белка описана по-русски.

Если нажать кнопку BLAST на страничке с подробным описанием рамки, можно найти программой blastp предположительные гомологи предсказанного гена. На открывшейся странице форматирования результатов в строке Show отметьте Advanced view, в строке Limit results выставите во всех трёх полях 50; нажмите кнопку View report. Все белковые хиты будут расположены в порядке возрастания e-value. Чем меньше e-value, тем лучше. Значимыми можно считать хиты с e-value <10^–4. Если из двух рамок со значительным перекрытием (>20 нуклеотидов) одна подтверждается blast'ом, а другая нет, последняя, скорее всего, не является геном. Сходство запроса и белка из базы должно быть хорошим, белок должен покрывать запрос по возможности полностью. Быть может, старт последовательности придётся сместить. Для аннотации лучше использовать не hypotetical и не predicted белки, даже если они немного хуже выравниваются с запросом.

Вставьте в отчёт данные о хитах (в том числе выравнивания), при помощи которых Вы проаннотировали ген.

GeneMark — программа статистического предсказания генов. Доступ к ней можно получить по ссылке http://exon.gatech.edu/genemark/gmhmm2_prok.cgi. Скопируйте последовательность ДНК в поле Sequence Text. Включите опции Use RBS model, if avaliable, Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions и Generate PDF graphics (screen). Запустите программу кнопкой Start GeneMark.hmm. Вы получите таблицы генов, предсказанных двумя программами: GeneMark и GeneMark 2.4. В отчете используйте результаты работы GeneMark 2.4.

Посмотрите, как распределен кодирующий потенциал по ДНК, для этого нажмите гиперссылку View PDF Graphical Output на странице с предсказаниями GeneMark. На открывшемся рисунке в формате PDF Вы увидите графики распределения кодирующего потенциала для каждой рамки считывания на обеих цепях ДНК. Вставьте графики в отчёт.

Занесите результаты работы программы GeneMark 2.4 в такую же таблицу, как для ORF Finder. Знак < или > возле границы предсказанного гена означает, что программа предполагает продолжение гена за пределами данной ей последовательности.

В обеих таблицах выделите зелёным гены, одинаково предсказанные ORF Finder и GeneMark, жёлтым — пересекающиеся, но не совпадающие полностью, оранжевым — гены, предсказанные ровно одной программой. ORF, которые Вы не считаете настоящими генами по результатам BLAST'а, оставьте незакрашенными.

Часть 2. Эукариоты

Вам дан фрагмент ДНК из генома кенгурового прыгуна Орда Dipodomys ordii (euk<номер>.txt). Ваша задача — определить экзон-интронную структуру гена кенгурового прыгуна и описать альтернативный сплайсинг его мышиного ортолога, используя программы GENSCAN, BlastX, BLAT и Genome Browser.

GENSCAN — программа статистического распознавания генов, она предсказывает границы экзонов и интронов, промоторы, сайты полиаденилирования. Доступ к программе можно получить по ссылке http://genes.mit.edu/GENSCAN.html. Скопируйте последовательность ДНК в текстовое поле формы и нажмите кнопку Run GENSCAN. GENSCAN представляет результаты в виде таблицы экзонов. Вам будут нужны её колонки Type, S (Strand), Begin и End. Обязательно прочтите расшифровку обозначений в разделе Explanation после таблицы. Занесите в свою таблицу начало, конец, цепь и тип всех предсказанных программой экзонов, заведя отдельную таблицу на каждый предполагаемый ген (тип экзона: Init — initial (начальный), Intr — internal (внутренний), Term — terminal (конечный); PlyA — это не экзон, а сайт полиаденилирования). Пример таблицы:

Callithrix jacchus 123-4567: GENSCAN
начало	конец	цепь	тип
315	490	+	начальный
1009	1300	+	внутренний
2000	2101	+	внутренний

Доступ к web-интерфейсу программы blastx можно получить сервере NCBI ( http://www.ncbi.nlm.nih.gov/blast/, ищите нужную гиперссылку в разделе Basic BLAST).

В меню Database оставьте предложенный по умолчанию банк nr. Ограничьте поиск только белками позвоночных: в окно Organism введите Vertebrata (можно также попробовать ввести Rodentia — грызуны). Отключите фильтр малой сложности Low complexity, для этого нужно сначала развернуть полный список параметров кнопкой Algorithm parameters.

Программа blastx предскажет изоформы выданного Вам гена, выравнивая белки с геномной ДНК. Если включить Advanced view результатов, можно будет сортировать предсказанные экзоны по порядку их следования в запросе или последовательности из базы.

Занесите две изоформы в таблицу, учитывая что blastx определяет границы экзонов не точно и отличия концов «экзонов» на 1–10 нуклеотидов не могут быть сочтены настоящей альтернативой:

«Экзоны», размеченные BLAST'ом, могут перекрываться как по ДНК, так и по белку. Вам нужно посмотреть на выравнивания таких «экзонов» и уточнить их границы на ДНК. Для этого посмотрите, какой «экзон» лучше выравнивается в области перекрытия. Считайте, что перекрытие принадлежит «экзону» с наилучшим выравниванием.
Длинная вставка в последовательности ДНК по сравнению с белком, скорее всего, является интроном. Если вставка ДНК содержит стоп-кодон (отмечается знаком * на выравнивании), это прямое указание на интрон. Такой «экзон» нужно разбить на два «экзона».
Blast выводит «экзоны» в случайном порядке. Нужно расположить «экзоны» в порядке возрастания координат по белку. Белковая координата конца предыдущего экзона должна быть на единицу меньше белковой координаты начала следующего экзона (или перекрываться на одну-три аминокислоты).

В отчете для каждой изоформы приведите выравнивание и отдельную таблицу координат «экзонов» на белке и ДНК:

Идентификатор и название белка, порождающего изоформу, организм, цепь
координаты по белку	координаты по ДНК
начало экзона 1	начало экзона 1
конец экзона 1	конец экзона 1

начало экзона 2	начало экзона 2
конец экзона 2	конец экзона 2

При подсчёте координат помните о том, что на каждую аминокислоту должно приходиться по три нуклеотида! Пример таблицы:

>gi\|9621790\|gb\|AAF89534.1\| serine protease [Mus musculus], +
координаты по белку	координаты по ДНК
1	603
169	1109

169	1211
237	1417

Покрасьте в этих таблицах синим цветом различия изоформ — альтернативные экзоны. Альтернативными называются экзоны, которые либо отсутствуют в другой изоформе, либо покрывают собой интрон, аннотированный в другой изоформе, либо имеют альтернативный 5'- или 3'-конец.

Укажите отличия каждой изоформы от предсказания GENSCAN. Для этого продублируйте таблицы blastx-экзонов. В этих таблицах покрасьте желтым цветом строки, соответствующие «потерянным» blastx-экзонам (не пересекающимся ни с одним GENSCAN-экзоном). В таблицу с предсказанием GENSCAN добавьте колонку QQ. Перекрытие QQ — мера близости двух систем отрезков, вычисляется как отношение длины пересечения к длине объединения отрезков из этих систем. Покрасьте зеленым цветом GENSCAN-экзоны, хорошо совпадающие с каким-либо BlastX-экзоном (QQ>0,9), укажите QQ для этих экзонов. Покрасьте красным цветом строки, соответствующие «лишним» GENSCAN-экзонам (не пересекающиеся ни с одним из BlastX-экзонов в обеих изоформах).

База Genome Browser (ранее Human Genome Browser, HGB) (http://genome.ucsc.edu/cgi-bin/hgGateway) содержит гены, белки, мРНК и другие объекты, картированные на различные аннотированные геномы. Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Доступ к программе можно получить по ссылке Blat с основной страницы портала (на синей полосе сверху).

Поместите последовательность ДНК в текстовое поле формы, выберите поиск в геноме мыши и нажмите кнопку Submit. Вы получите список найденных фрагментов генома. Если в этом списке больше одной строки, выберите ту строку, которая имеет максимальное сходство с вашей последовательностью по SCORE и максимальную длину выравнивания.

Перейдите к просмотру найденного фрагмента генома человека: нажмите гиперссылку browser. Может быть, чтобы увидеть весь ген, нужно будет расширить область просмотра или уменьшить масштаб. Поэкспериментируйте с кнопками! Под картинкой находятся выпадающие меню для выбора отображаемых объектов. Поставьте на pack переключатель Blat Sequence в группе Mapping and Sequencing Tracks, а также переключатели Mouse mRNAs и Spliced ESTs в группе mRNA and EST Tracks, остальные переключатели поставьте на hide. Нажмите кнопку refresh, она находится в самом низу страницы. Теперь Вы видите, как выравниваются с геномной ДНК Ваша последовательность, а также сплайсированные EST и мРНК из базы. Быть может, с Вашим запросом выравняется только часть гена мыши, тогда нужно будет настроить браузер так, чтобы был виден ген целиком.

Щёлкните по изображению какой-либо из мРНК. Должно появиться её подробное описание. На этой страничке в разделе mRNA/Genomic Alignments перейдите по гиперссылке с выравниванием, а потом найдите раскрашенную последовательность, заголовок которой начинается с Genomic. На ней синим выделены кодирующие участки, красным — некодирующие, чёрным — интроны и участки генома за границей выравнивания. Экзоны могут быть полностью кодирующими, полностью некодирующими, а также смешанными — частично кодирующими и частично некодирующими (это экзоны, содержащие старт- и стоп-кодоны).

Приведите пример альтернативного сплайсинга в получившемся мышином гене, указав тип альтернативы (это могут быть, например, кассетные экзоны, чередующиеся экзоны, альтернативные донорные и акцепторные сайты сплайсинга, удержанные интроны) и идентификаторы мРНК или EST, подтверждающих альтернативный сплайсинг. Обязательно вставьте в отчёт картинку из HGB (размер окна по длине гена). Выделите на ней найденные альтернативы. Внимание! Начало первого и конец последнего экзона EST использовать при аннотации нельзя, они обрываются в произвольном месте!