Заведите файл отчета в формате .doc (Office XP, 2003, не 2007!!!). В названии файла должна присутствовать Ваша фамилия и тема занятия. Отчёт нужно будет отправить Екатерине Олеговне Ермаковой на электронные адреса ermakova@iitp.ru и ermakova8@yandex.ru до 16 декабря (включительно).
Основные идеи:
Вам дан фрагмент генома бактерии Acidobacterium capsulatum в формате FASTA см. файл prok<номер>.txt). Ваша задача — при помощи программ ORF Finder, GeneMark и blastp проаннотировать этот фрагмент — определить границы генов и по возможности предсказать их функцию.
С помощью программы ORF Finder идентифицируйте открытые рамки считывания в геномной ДНК. Программа ORF Finder (Open Reading Frame Finder) идентифицирует открытые рамки считывания (ORFs) на обеих цепях ДНК. Доступ к ней можно получить по ссылке http://www.ncbi.nlm.nih.gov/gorf/gorf.html. Cкопируйте последовательность ДНК (о цифрах и пробелах можно не беспокоиться, программа их автоматически пропустит) в текстовое поле формы, в окошке выбора генетического кода выберите 11 Bacterial Code и нажмите кнопку OrfFind. Вы получите список обнаруженных открытых рамок. Шесть белых полосок в выдаче ORF Finder изображают исходную последовательность в шести возможных рамках считывания, в порядке +1, +2, +3 (прямая цепь), –1, –2, –3 (обратная цепь), а бирюзовые полоски — найденные в данной рамке ORFs. Щёлкните мышью найденную ORF, чтобы получить её более подробное описание. Начало, конец и рамку для ORF длиннее 60 кодонов занесите в таблицу:
Acidobacterium capsulatum: ORF Finder | ||||
начало | конец | длина | цепь | описание |
7877 | 8314 | 438 | + | Транскрипционный регулятор, принадлежащий к семейству MarR |
Длина ORF должна делиться на 3, а предположительная функция белка описана по-русски.
Если нажать кнопку BLAST на страничке с подробным описанием рамки, можно найти программой blastp предположительные гомологи предсказанного гена. На открывшейся странице форматирования результатов в строке Show отметьте Advanced view, в строке Limit results выставите во всех трёх полях 50; нажмите кнопку View report. Все белковые хиты будут расположены в порядке возрастания e-value. Чем меньше e-value, тем лучше. Значимыми можно считать хиты с e-value <10–4. Если из двух рамок со значительным перекрытием (>20 нуклеотидов) одна подтверждается blast'ом, а другая нет, последняя, скорее всего, не является геном. Сходство запроса и белка из базы должно быть хорошим, белок должен покрывать запрос по возможности полностью. Быть может, старт последовательности придётся сместить. Для аннотации лучше использовать не hypotetical и не predicted белки, даже если они немного хуже выравниваются с запросом.
Вставьте в отчёт данные о хитах (в том числе выравнивания), при помощи которых Вы проаннотировали ген.
GeneMark — программа статистического предсказания генов. Доступ к ней можно получить по ссылке http://exon.gatech.edu/genemark/gmhmm2_prok.cgi. Скопируйте последовательность ДНК в поле Sequence Text. Включите опции Use RBS model, if avaliable, Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions и Generate PDF graphics (screen). Запустите программу кнопкой Start GeneMark.hmm. Вы получите таблицы генов, предсказанных двумя программами: GeneMark и GeneMark 2.4. В отчете используйте результаты работы GeneMark 2.4.
Посмотрите, как распределен кодирующий потенциал по ДНК, для этого нажмите гиперссылку View PDF Graphical Output на странице с предсказаниями GeneMark. На открывшемся рисунке в формате PDF Вы увидите графики распределения кодирующего потенциала для каждой рамки считывания на обеих цепях ДНК. Вставьте графики в отчёт.
Занесите результаты работы программы GeneMark 2.4 в такую же таблицу, как для ORF Finder. Знак < или > возле границы предсказанного гена означает, что программа предполагает продолжение гена за пределами данной ей последовательности.
В обеих таблицах выделите зелёным гены, одинаково предсказанные ORF Finder и GeneMark, жёлтым — пересекающиеся, но не совпадающие полностью, оранжевым — гены, предсказанные ровно одной программой. ORF, которые Вы не считаете настоящими генами по результатам BLAST'а, оставьте незакрашенными.
Вам дан фрагмент ДНК из генома кенгурового прыгуна Орда Dipodomys ordii (euk<номер>.txt). Ваша задача — определить экзон-интронную структуру гена кенгурового прыгуна и описать альтернативный сплайсинг его мышиного ортолога, используя программы GENSCAN, BlastX, BLAT и Genome Browser.
GENSCAN — программа статистического распознавания генов, она предсказывает границы экзонов и интронов, промоторы, сайты полиаденилирования. Доступ к программе можно получить по ссылке http://genes.mit.edu/GENSCAN.html. Скопируйте последовательность ДНК в текстовое поле формы и нажмите кнопку Run GENSCAN. GENSCAN представляет результаты в виде таблицы экзонов. Вам будут нужны её колонки Type, S (Strand), Begin и End. Обязательно прочтите расшифровку обозначений в разделе Explanation после таблицы. Занесите в свою таблицу начало, конец, цепь и тип всех предсказанных программой экзонов, заведя отдельную таблицу на каждый предполагаемый ген (тип экзона: Init — initial (начальный), Intr — internal (внутренний), Term — terminal (конечный); PlyA — это не экзон, а сайт полиаденилирования). Пример таблицы:
Callithrix jacchus 123-4567: GENSCAN | |||
начало | конец | цепь | тип |
315 | 490 | + | начальный |
1009 | 1300 | + | внутренний |
2000 | 2101 | + | внутренний |
Доступ к web-интерфейсу программы blastx можно получить сервере NCBI ( http://www.ncbi.nlm.nih.gov/blast/, ищите нужную гиперссылку в разделе Basic BLAST).
В меню Database оставьте предложенный по умолчанию банк nr. Ограничьте поиск только белками позвоночных: в окно Organism введите Vertebrata (можно также попробовать ввести Rodentia — грызуны). Отключите фильтр малой сложности Low complexity, для этого нужно сначала развернуть полный список параметров кнопкой Algorithm parameters.
Программа blastx предскажет изоформы выданного Вам гена, выравнивая белки с геномной ДНК. Если включить Advanced view результатов, можно будет сортировать предсказанные экзоны по порядку их следования в запросе или последовательности из базы.
Занесите две изоформы в таблицу, учитывая что blastx определяет границы экзонов не точно и отличия концов «экзонов» на 1–10 нуклеотидов не могут быть сочтены настоящей альтернативой:
Идентификатор и название белка, порождающего изоформу, организм, цепь | |
координаты по белку | координаты по ДНК |
начало экзона 1 | начало экзона 1 |
конец экзона 1 | конец экзона 1 |
начало экзона 2 | начало экзона 2 |
конец экзона 2 | конец экзона 2 |
При подсчёте координат помните о том, что на каждую аминокислоту должно приходиться по три нуклеотида! Пример таблицы:
>gi|9621790|gb|AAF89534.1| serine protease [Mus musculus], + | |
координаты по белку | координаты по ДНК |
1 | 603 |
169 | 1109 |
169 | 1211 |
237 | 1417 |
Покрасьте в этих таблицах синим цветом различия изоформ — альтернативные экзоны. Альтернативными называются экзоны, которые либо отсутствуют в другой изоформе, либо покрывают собой интрон, аннотированный в другой изоформе, либо имеют альтернативный 5'- или 3'-конец.
Укажите отличия каждой изоформы от предсказания GENSCAN. Для этого продублируйте таблицы blastx-экзонов. В этих таблицах покрасьте желтым цветом строки, соответствующие «потерянным» blastx-экзонам (не пересекающимся ни с одним GENSCAN-экзоном). В таблицу с предсказанием GENSCAN добавьте колонку QQ. Перекрытие QQ — мера близости двух систем отрезков, вычисляется как отношение длины пересечения к длине объединения отрезков из этих систем. Покрасьте зеленым цветом GENSCAN-экзоны, хорошо совпадающие с каким-либо BlastX-экзоном (QQ>0,9), укажите QQ для этих экзонов. Покрасьте красным цветом строки, соответствующие «лишним» GENSCAN-экзонам (не пересекающиеся ни с одним из BlastX-экзонов в обеих изоформах).
База Genome Browser (ранее Human Genome Browser, HGB) (http://genome.ucsc.edu/cgi-bin/hgGateway) содержит гены, белки, мРНК и другие объекты, картированные на различные аннотированные геномы. Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Доступ к программе можно получить по ссылке Blat с основной страницы портала (на синей полосе сверху).
Поместите последовательность ДНК в текстовое поле формы, выберите поиск в геноме мыши и нажмите кнопку Submit. Вы получите список найденных фрагментов генома. Если в этом списке больше одной строки, выберите ту строку, которая имеет максимальное сходство с вашей последовательностью по SCORE и максимальную длину выравнивания.
Перейдите к просмотру найденного фрагмента генома человека: нажмите гиперссылку browser. Может быть, чтобы увидеть весь ген, нужно будет расширить область просмотра или уменьшить масштаб. Поэкспериментируйте с кнопками! Под картинкой находятся выпадающие меню для выбора отображаемых объектов. Поставьте на pack переключатель Blat Sequence в группе Mapping and Sequencing Tracks, а также переключатели Mouse mRNAs и Spliced ESTs в группе mRNA and EST Tracks, остальные переключатели поставьте на hide. Нажмите кнопку refresh, она находится в самом низу страницы. Теперь Вы видите, как выравниваются с геномной ДНК Ваша последовательность, а также сплайсированные EST и мРНК из базы. Быть может, с Вашим запросом выравняется только часть гена мыши, тогда нужно будет настроить браузер так, чтобы был виден ген целиком.
Щёлкните по изображению какой-либо из мРНК. Должно появиться её подробное описание. На этой страничке в разделе mRNA/Genomic Alignments перейдите по гиперссылке с выравниванием, а потом найдите раскрашенную последовательность, заголовок которой начинается с Genomic. На ней синим выделены кодирующие участки, красным — некодирующие, чёрным — интроны и участки генома за границей выравнивания. Экзоны могут быть полностью кодирующими, полностью некодирующими, а также смешанными — частично кодирующими и частично некодирующими (это экзоны, содержащие старт- и стоп-кодоны).
Приведите пример альтернативного сплайсинга в получившемся мышином гене, указав тип альтернативы (это могут быть, например, кассетные экзоны, чередующиеся экзоны, альтернативные донорные и акцепторные сайты сплайсинга, удержанные интроны) и идентификаторы мРНК или EST, подтверждающих альтернативный сплайсинг. Обязательно вставьте в отчёт картинку из HGB (размер окна по длине гена). Выделите на ней найденные альтернативы. Внимание! Начало первого и конец последнего экзона EST использовать при аннотации нельзя, они обрываются в произвольном месте!