Moscow seminar on Bioinformatics 2000-02

Московский семинар

по биоинформатике

Новости

Контакты

Схема проезда:

ИМБ

ФБиБи, МГУ

Статья о семинаре

Краткие резюме докладов

2012-14 2009-11 2006-08 2003-05 2000-02 1997-99 1994-96

89.

13.01.2000

A.R.Khokhlov

Moscow State University, Department of Physics

Conformation-dependent sequence design of protein-like co-polymers

A sequence design scheme to generate special primary structures in AB copolymers is proposed. In this scheme the type which is attributed to a given monomeric unit (A or B) depends on the spatial position of this unit in some "parent" homopolymer chain conformation. We consider two possible parent conformations: globular (giving rise to "proteinlike copolymers") and adsorbed (generating "adsorption-tuned copolymers"). By means of Monte-Carlo simulations it is shown that the AB copolymers with specially designed sequences have physical properties different from those for random AB copolymers, i.e., they "inherit" some features of the parent conformation.

92.

17.2.2000

P.Novichkov,M.Gelfand, A.Mironov

GosNIIGenetika

Gene recognition by comparison of genomic sequences

П.Новичков, М.Гельфанд, А.Миронов

ГосНИИГенетика

Распознавание генов сравнением геномных последовательностей

Доступность большого количества геномных последовательностей высших эукариот (в том числе полного генома нематоды) и ожидаемое появление полных геномов дрозофилы и человека, а также больших кусков генома мыши, делают актуальной задачу предсказания генов путем сравнения геномных последовательностей. Актуальность ее диктуется тем, что это – единственная возможность более или менее надежно предсказывать гены с узкой специфичностью экспрессии (по ткани или стадии развития), кДНК которых не обнаруживается в имеющихся клонотеках. С другой стороны, тот факт, что скорость изменения белок-кодирующих областей существенно ниже, чем некодирующих, делает возможным предсказание экзон-интронной структуры таких генов, если соответствующий участок секвенирован в двух геномах. В докладе будет описан вариант алгоритма сплайсированного выравнивания, работающий в этой задаче, представлены результаты тестирования на близких (человек-мышь) и далеких (человек-дрозофила) сравнениях и обсуждены проблемы и возможные направления дальнейших исследований. [Новичков и др., 2000].

94.

16.3.2000

Mireille Regnier

INRIA (Франция)

Unusual Words Counting: a Few Applications to Computational Biology

Evaluation of the frequency of occurrences of a given set of patterns in a DNA sequence has numerous applications and has been extensively studied recently. We will present some explicit formulae derived by several authors, assuming the data follow a Markovian model. Computational complexity for explicit formulae may be very high for practical applications, and we show how one may bound this cost. The case of patterns with some unspecified characters (approximate searching, regular expressions, etc.) is addressed. An application to ORF characterisation will be presented.

95.

20.4.2000

Alexei Kondrashov

National Center for Biotechnology Information (USA)

Comparative genomics and evolutionary biology

Алексей Кондрашов

Сравнительный анализ геномов и эволюционная биология

В эволюционной биологии существует несколько фундаментальных понятий: Неоптимальность, гомологии, иерархия, стабилизирующий и движущий отбор. Эти понятия вполне применимы и к анализу геномов. Хотя они все же нуждаются в некоторых уточнениях…

96.

14.6.2000

Igor Grigoriev

Department of Chemistry and E. O. Lawrence Berkeley National Laboratory,
University of California, Berkeley

Detection of remote homologues on basis of protein sequences: Let's look broader

The ability to predict fold homology from sequence has great practical value because structural relatedness provides powerful clues to protein ancestry and function. The current sequence alignment methods are powerful at recognizing close evolutionary relationships, but falter as sequence similarity dwindles. To extend the sensitivity of sequence-based method for the detection of remote homology we combined different sources of sequence-derived information.

We started with an observation that physical properties of amino acid residues (e.g., hydrophobicity) are highly correlated in short fragments of structural alignments of remote homologues. This led us to a hypothesis that correlation of physical properties of amino acid residues between short segments of protein sequences may reflect structural similarity of the segments. The hypothesis was verified with the proximity correlation matrix method.

Then, the idea of similarity between segments of protein sequence rather than between the individual residues was integrated with structural and evolutionary information in dual-profile method.

The methods were tested on a collection of remote homologues of known structure, demonstrated better sensitivity than the conventional sequence alignment methods and several fold recognition methods, and then were applied to complete genomes of model organisms.

97.

29.6.2000

V.Makeev

Institute of Molecualr Biology

Segmentation of nucleotide sequences into regions with homogeneous composition allows exon prediction in complete genomes

Coding sequences exhibit less statistical fluctuations of local composition as compared with non-coding regions. This simple fact alone can be in many cases used to predict location of the long exons with surprising precision. This is illustrated with the sequences of complete chromosomes of Leshmania major and Plasmodium falciparum, which were segmented into region with homogeneous composition and the results compared with the locations of known and predicted genes. The segmentation algorithm utilizes a score to measure the segment homogeneity and the dynamic programming technique, which allows one to obtain the adequate segmentation in a reasonable time. The comparison demonstrated that locations of 85-90% of long exons in these genomes can be predicted. Approximately a half of the positive predictions that are not marked as exons in genome description contain long open reading frames. [Ramensky et al., 2000].

99.

4.9.2000

A.S.Kondrashov

National Center of Biotechnology Information, NLM,NIH (Bethesda, USA)

Genetic parameters of spontaneous mutations

Spontaneous mutations can be characterized by the rate per locus, per nucleotide, and per genome. Several approaches to measure these rates will be discussed.

Other possible topics are: (1) models of specitation; (2) how natural selection may lead to extinction.

100.

28.9.2000

Vladimir Mikoyan

Construction of an electrobiocatalyst by directed evolution of peptides (a project)

Владимир Микоян

Проект создания электробиокатализатора путем направленной эволюции пептидов

Использование окислительно-восстановительных ферментов в химической технологии сдерживается тем обстоятельством, что они неспособны напрямую электрически взаимодействовать с электродом.

Предлагается стратегия создания электробиокатализатора (электрофермента) для регенерации NADH, являющегося одновременно примером фермента, способного к прямому электрическому взаимодействию с электродом.

Указанный электрофермент должен представлять собой продукт слияния двух пептидов, один из которых является НАД-связывающим доменом природного фермента, а другой - искусственным пептидом, имеющим сродство к поверхности электрода.

Основой стратегии является многостадийная направленная эволюция двух исходных пептидов и продукта их слияния. В процессе направленной эволюции происходит минимизация НАД-связывающего домена, его адаптация к встраиванию пептида, имеющего сродство к электроду, и усиление искомой ферментативной активности. Основные используемые методики - фаговая экспозиция (phage display), перетасовка ДНК (DNA shuffling) и особый метод клонирования, облегчающий рекомбинацию ДНК, кодирующей соответствующие пептиды, и многократное чередование операций in vivo и in vitro.

103.

26.10.2000

Olga Ozoline

Institute of Cell Biophysics (Pushchino)

Mapping of promoters in the genome of Escherichia coli (a project)

Ольга Озолинь

Институт биофизики клетки РАН (Пущино)

Картирование промоторов в геноме E. coli (проект)

Системный анализ клеточного метаболизма, ставший возможным благодаря расшифровке полной нуклеотидной последовательности ряда геномов, потребовал создания баз данных, отражающих различные уровни функциональных взаимоотношений. Наиболее серьезной проблемой стала надежная идентификация регуляторных участков генома (промоторов). Так, в ДНК E. coli, количество мест, имеющих типичную для промоторов степень гомологии с их каноническими элементами на несколько порядков превышает число генов. Абсолютное большинство этих сайтов не используется транскрипционным аппаратом клетки и, следовательно, текстуальное соответствие консенсусу не является достаточным для обозначения регуляторных участков, а алгоритмы поиска промоторов, построенные на его основе не могут быть использованы для их тотального картирования. В рамках данного проекта мы планируем создать новый алгоритм идентификации промоторов, учитывающий дополнительные особенности в их структурной организации. Эти особенности отражают способность промоторной ДНК подвергаться адаптивным конформационным превращениям и допускают возможность альтернативного узнавания промоторных сайтов РНК-полимеразой. Мы надеемся, что формализация параметров, характеризующих функциональные свойства промоторов, создаст основу для предсказания закономерностей в экспрессии генных ансамблей и послужит отправной точкой для сравнительного эволюционного анализа.

104.

9.11.2000

Igor Berezovsky

The Weizmann Institute of Science (Israel)

Loop-n-lock structure of globular proteins

In a globular protein the polypeptide chain returns to itself many times making numerous chain-to-chain contacts. The stability of these contacts is maintained primarily by van der Waals interactions. We singled out and analysed van der Waals locks stabilising spatial structures of folds. A specific way is suggested to identify the tightest contacts of prime importance for the stability of the given crystallized protein. The notion of the van der Waals lock is introduced. The closed loops, standard elements of the protein structure, discovered earlier, and the van der Waals locks together suggest a principally novel view of a protein globule organization: loop-n-lock structure. This opens a new perspective in understanding of protein folding as well: a consecutive looping of the polypeptide chain and locking the loop ends by tight van der Waals interactions.

107.

23.2.2001

A.B.Shipunov

Moscow State University

Contemporary systematics of eukaryotes

А.Б.Шипунов

Московский Университет

Современные взгляды на систематику эукариот

Привычная всем `школьная' система царств и типов (отделов) органического мира безнадежно устарела. Сильнее всего это заметно в систематике низших эукариот (протистов), которая подверглась в последние 20 лет коренной переработке на основе результатов ультраструктурных и молекулярных исследований. Результаты молекулярных исследований, по-видимому, позволяют поставить точку и во многих тянувшихся веками дискуссиях о взаимоотношениях типов многоклеточных животных. Наконец, должны быть пересмотрены сами понятия `растения' и `животные' с целью наполнить их реальным таксономическим содержанием.

108.

5.4.2001

L.L.Kisselev

Institute of Molecular Biology

Who and how decodes stop-codons?

Лев Львович Киселев

ИМБ

Кто и как декодирует стоп-содоны?

Из 64-х кодонов 61 считывается специфическими тРНК, а 3 (UAA, UGA и UAG) не имеют узнающих их тРНК и не кодируют аминокислот, но кодируют прекращение синтезаполипептида (терминация трансляции). До сих пор неизвестно, кто и как декодирует эти три стоп-кодона. Существуют две гипотезы декодирования. Согласно первой из них, стоп-кодоны узнаются белками, относящимися к факторам терминации 1-го класса (RF1 и RF2 у прокариот, eRF1 у эукариот и aRF1 у архей). Вторая гипотеза предполагает существование "терминаторной" или терминаторных тРНК, встроенной (ых) в одну из рибосомных РНК и комплементарно взаимодействующей (их)со всеми стоп-кодонами. В этом случае роль RF 1-го класса - вспомогательная, они, например, могут узнавать дуплекс мРНК-рРНК между стоп-кодоном и "антикодоном" рРНК. Структура eRF1 известна, она похожа на тРНК. Для активности в терминации на рибосомах достаточно двух доменов, расположенных под углом друг к другу. Главная проблема сегодняшнего дня состоит в том, как идентифицировать то место в eRF1/RF1/RF2, которое узнает стоп-кодон или его дуплекс с рРНК-овым антикодоном, высокоспецифичным образом (например, UGG как стоп-кодон не узнается).

Kisselev & Buckingham, 2000, TIBS 25, 561-566

Song et al., 2000, Cell, 100, 311-321

Nakamara et al., 2000, Cell, 101, 349-352

110.

13.4.2001

Andrei Osterman

Integrated Genomics (Chicago) www.integratedgenomics.com

Hypothetical proteins and missing genes in metabolic pathways

Comparative studies of multiple bacterial genomes were used to formulate conjectures relating to the functions of previously uncharacterized genes. The predictions made were verified by expression and enzymatic characterization of purified proteins. The applicability of this approach is illustrated in two examples:

1. Reconstruction of chorismate pathway in archaea. Prediction and verification of a novel shikimate kinase. A candidate gene for a shikimate kinase gene, missing in a recognizable form in all of the archaeal genomes was predicted on the basis of chromosomal clustering analysis. Expression and enzymatic characterization of the predicted protein from Methanococcus jannashi confirmed that a novel type of shikimate kinase occurs in archaea, and that this enzyme belongs to the GHMP kinase superfamily. 3D structure of the first representative of this superfamily was solved in collaboration with Dr. Hong Zang at UT Southwestern.

2. Reconstruction of NAD metabolism from genomic data. Prediction and experimental verification of nicotinate (nicotinamide) mononucleotide adenylyltransferase NMN adenylyltransferase is the only indispensable enzyme in NAD metabolism, and is a predicted target for development of new antibiotics. A conserved hypothetical protein was identified as a candidate for a missing gene encoding bacterial NMN adenylyltransferase. This conjecture was experimentally confirmed in a number of orthologs cloned from various microbial pathogens. Different combinations of pathways related to NAD biosynthesis, recycling and salvage in different microbes are predicted on the basis of genomic data. Predictions related to the role of NMNATse are experimentally assessed in various biological contexts such as in E.coli, H.influenzae and Synechocystis sp. Eukaryotic orthologs of the bacterial enzyme were identified, and NMN adenylyltransferase activity was confirmed for two previously uncharacterized human "hypothetical proteins". Comparative kinetic analysis revealed significant differences in substrate specificity between the human and bacterial enzymes, which increases the probability of discovering discriminative inhibitors.

112.

8.6.2001

E. Kriventseva

European Bioinformatics Institute

New resources for protein sequence analysis

Евгения Кривенцева

Европейский биоинформатический институт; ИМБ

Новые средства для анализа белковых последовательностей

In my talk I am going to focus on some new resources for protein sequence analysis. I will give a short introduction to the InterPro resource (http://www.ebi.ac.uk/interpro/). InterPro is an integrated documentation resource for protein families, domains and functional sites, developed as a means of rationalizing the complementary efforts of the PROSITE, PRINTS, Pfam, ProDom and SMART database projects. InterPro has already been used for proteome analysis of a number of completely sequenced genomes.

Then I am going to present the CluSTr database (http://www.ebi.ac.uk/clustr/). This database offers an automatic classification of SWISS-PROT and TrEMBL proteins into groups of related proteins. The clustering is based on analysis of all pairwise comparisons between protein sequences. Analysis is carried out for different levels of protein similarity, yielding a hierarchical organisation of clusters. Obtained protein clusters can be used for a number of biological applications.

Answers to some interesting biological questions using information from InterPro and Clustr databases can be found in the Proteome Analysis (http://www.ebi.ac.uk/proteome/) database.

113.

11.7.2001

Alexei Kondrashov

National Center for Biotechnology Information (USA)

Алексей Симонович Кондрашов

Теория симпатрического видообразования

Не вызывает сомнений, что независимая эволюция пространственно разделенных популяций может со временем сделать их сколь угодно различными (аллопатрическое видообразование). Напротив, возможность распада на виды одной популяции (симпатрическое видообразование) до самого недавнего времени вызывала сомнения. Лишь недавние данные о скоплениях видов камерунских цихлид положили конец этим спорам. Однако теория симпатрического видообразования до сих пор не закончена. Несколько подходов, в частности, фенотипическая гипергеометрическая модель популяционной динамики, привели к важным продвижениям, но вопрос о природе отбора, который может направлять симпатрическое видообразование, остается пока открытым.

114.

16.7.2001

Alexei Kondrashov and David Houle

National Center for Biotechnology Information (USA)

Алексей Симонович Кондрашов и David Houle

Эволюция гипертрофированных вторичнополовых признаков

Почему у самца павлина длинный хвост? Согласно Дарвину, - потому, что самкам это нравится. Но вот почему у самок такие извращенные предпочтения (хвост сам по себе только мешает) до сих пор неясно. Я приведу обзор гипотез и расскажу о моей работе с David Houle по гибридной модели, объединяющей идеи модели хороших генов (длина хвоста скоррелирована с неким “качеством генотипа” и модели гандикапа (длинный хвост не может вырасти у хилого самца, так как его тут же сожрут).

116.

27.9.2001

E.Panina and M.Gelfand

Moscow State University and IntegratedGenomics-Moscow

The double role of FUR regulator in pathogenic bacteria

Екатерина Панина, М.Гельфанд

Мех-мат МГУ и IntegratedGenomics-Moscow

Двойная роль регулятора FUR у патогенных бактерий

Поскольку железо необходимо для жизнедеятельности бактерий, существуют системы высокоспецифичного транспорта железа в клетку, активирующиеся в условиях недостатка железа в окружающей среде. Эти системы (внешние рецепторы, транспортеры и др.) находятся под транскрипционным контролем белка FUR (Ferrum Uptake Regulator). В данной работе методом сравнительного анализа были показаны возможные сайты связывания FUR в геномах Escherichia coli (K12 и O157:H7), Salmonella typhi, Yersinia pestis, Vibrio cholerae и Pseudomonas aeruginosa. Было найдено несколько новых систем активного транспорта железа, а также подтверждена специфичность железных транспортеров, определенных ранее только по гомологии с аналогичными транспортерами в других видах. Было обнаружено, что помимо систем транспорта железа под регуляцией белка FUR находятся и некоторые системы вирулентности (адгезины, токсины и др.). Поскольку в организме хозяина железо находится в связанном, т.е. недоступном для бактерии состоянии, то, возможно, FUR является одним из первых бактериальных белков, определяющих по недостатку железа момент инвазии и запускающих системы патогенеза.

117.

18.10.2001

A.G.Vitreschak with D.Rodionov and M.Gelfand

Institute for Problems of Information Transmission, RAS; GosNIIGenetika; and IntegratedGenomics-Moscow

Prediction of gene regulation by the RNA secondary structure in complete bacterial genomes

Алексей Витрещак, Д. Родионов, М. Гельфанд

ИППИ РАН, ГосНИИГенетика, IntegratedGenomics-Moscow

Предсказание регуляции экспрессии генов бактерий, осуществляемой вторичной структурой мРНК

Вторичная структура мРНК играет важную роль в регуляции экспрессии генов бактерий. Экспериментально известна регуляция в разных системах (биосинтез пуринов и пиримидинов, регуляция аминокислотных оперонов катаболических оперонов и др.). Регуляция при участии вторичной структуры мРНК наблюдается как на уровне транскрипции, так и на уровне трансляции.

Предсказывается регуляция у ряда секвенированных бактерий, при помощи разработанной программы поиска сигнала по паттерну, составляемому на основании существующих экспериментальных данных. Рассматривались различные системы, в которых вторичная структура мРНК играет регуляторную роль (рибофлавиновый регулон и T-box регулоны, регуляторные структуры мРНК рибосомальных белков, аттенюаторы транскрипции аминокислотных биосинтетических оперонов).

118.

1.11.2001

P.S.Novichkov

IntegratedGenomics-Moscow

Ortholog? To believe or not to believe – that is the question.

Павел Новичков

IntegratedGenomics-Moscow

Ортолог! Верить или не верить – вот в чём вопрос.

Идентификация ортологичных генов является важной задачей сравнительной геномики. Основываясь на этом, например, проводится функциональная аннотация генов в малоизученных геномах.

При сравнении геномов с целью поиска ортологов, бывает необходимо решить, действительно ли наблюдаемая пара “симметрично-лучших гомологов” является ортологами. Стандартными процедурами типа BLAST для пары генов можно получить различные параметры: значение процента сходства (ID), e-value и т.п. Однако, получив некоторое значение ID, все равно остается вопрос: много это или мало для данной пары геномов, верить в ортологичность или нет, есть ли основания подозревать горизонтальный перенос. Для ответа на этот вопрос полезно понимать, каков средний уровень сходства ортологов из рассматриваемых геномов. Далее, распределение уровня сходства ортологичных пар хочется смотреть отдельно для различных функциональных групп, например, рибосомальных белков, ферментов и транспортеров.

В работе делается попытка более детально рассмотреть вопрос о среднем уровне сходства между геномами (точнее, протеомами). Разработан инструмент для построения распределения расстояний между ортологами для наборов геномов (протеомов) целиком или в пределах функциональных групп белков. Получены предварительные результаты.

119.

16.11.2001

Pavel A. Pevzner, Sing-Hoi Sze

Department of Computer Science and Engineering, University of California at San Diego

Combinatorial approaches to finding subtle signals in DNA sequences

Павел Певзнер, Син-Хой Цзе

Университет Калифорнии – Сан Диего

Комбинаторные методы поиска слабых сигналов в последовательностях ДНК

Signal finding (pattern discovery in unaligned DNA sequences) is a fundamental problem in both computer science and molecular biology with important applications in locating regulatory sites. Despite many studies, this problem is far from being resolved: most signals in DNA sequences are so complicated that we don't yet have good models or reliable algorithms for their recognition. We complement existing statistical and machine learning approaches to this problem by a combinatorial approach that proved to be successful in identifying very subtle signals.

120.

29.11.2001

Светлана Боринская

Институт общей генетики

Зачем природе усложняться (стратификация эволюционных процессов)

“Собирать факты, не имея гипотез, всё равно, что собирать камешки в овраге”, - написал однажды Чарльз Дарвин. На семинаре будут представлены некоторые гипотезы о закономерностях и причинах последовательного формирования интегративных уровней в эволюционирующих природных и социальных системах (от возникновения жизни до современных политических образований). Форма представления гипотез – вербальные, графические и (по мере способностей докладчика) математические модели. Активность аудитории в процессе построения моделей приветствуется, при этом особо голодных будут кормить.

Сообщение отражает работу дружественного семинара “Матмоделирование процессов социальной эволюции”.

122.

20.12.2001

A.M.Leontovich, V.K.Nikolaev

Institute of Physical-Chemical Biology, Moscow State University

An Adaptive Algorithm of Automated Annotation (statistical approach)

А.М.Леонтович, В.К.Николаев

Институт физико-химической биологии МГУ

Адаптивный Алгоритм Автоматического Аннотирования
(статистический подход)

Рассматривается новый алгоритм автоматического аннотирования, позволяющий предсказывать функциональные и структурные свойства биологических последовательностей. Алгоритм находит уже проаннотированный последовательности наиболее сходные с пробной. Затем выполняется анализ переноса свойств между найденными сходными последовательностями. Исходя их этого анализа, делается оценка вероятности переноса свойств в зависимости от уровня сходства между последовательностями. На основе этих вероятностей делается прогноз наличия тех или иных свойств у пробной последовательности и степень надежности этого предсказания.

В отличие от большинства алгоритмов, этот алгоритм является адаптивным - многие параметры модели (пороги и т.д.) строятся динамически в зависимости от “окружения” пробной последовательности.

Тестирование, выполненное для белковых последовательностей (с помощью банка SWISS-PROT), показало следующие результаты:

Предсказание полей KW: чувствительность – 89%, специфичность – 90%.

Предсказание полей DE: чувствительность – 88%, специфичность – 84%.

123.

27.12.2001

Shamil Sunyaev

Institute of Molecular Biology (Moscow); EMBL (Heidelberg); Division of Genetics, Department of Medicine, Brigham and Women’s Hospital, Harvard Medical School

Structural and evolutionary analysis of human SNPs

1. Prediction and analysis of functional (mildly deleterious) allelic variants.

2. Why the polymorphism of genes is variable.

3. Positive selection? (on men and mice).

4. Correlated substitutions and adaptability ridges.

Шамиль Сюняев

ИМБ; EMBL; Harvard Medical School

Структурно-эволюционный анализ человеческих SNP-ов

1. Предсказание и анализ функциональных (слабовредных) аллельных вариантов.

2. Почему гены полиморфны в разной степени.

3. Положительный отбор? (о людях и мышах).

4. Коррелированные замены и хребты приспособленности.

125.

24.1.2002

Sveta Gerdes

IntegratedGenomics (Chicago)

Global transposon mutagenesis in Escherichia coli

The availability of complete genome sequences for dozen of microorganisms has triggered the development of high throughput experimental genetic techniques. "Genetic footprinting" is one of them. Genetic footprinting is a three-step process: (i) random transposon mutagenesis of a large number of cells; (ii) competitive outgrowth of the mutagenized population under various selective conditions; and (iii) analysis of individual mutants surviving in the population using direct sequencing, hybridization on Microarrays, or various PCR-based techniques. Mechanics and various applications of this technique in will be discussed.

126.

31.1.2002

Анча Баранова

Институт общей генетики

Tumor-specific genes in a human genome: a new way to find them by computer-based differential display

Comparing patterns of gene expression in different cell lines and tissues has important applications for a variety of biological problems. A number of experimental methods are designed for tumour-specific gene search. Most of them are based on time-consuming and expensive experimental protocols (numerous modifications of the differential display approach, cDNA microarrays, Serial Analysis of Gene Expression). The total number of human ESTs in publicly available databases (>3*10 x 6) exceeds by approximately two orders of magnitude the total number of different transcripts that can be deduced from the number of human genes (2,5 – 4*10 x 4). This provides basis for developing a computer-based procedures for subtraction of different EST pools instead of traditional experimental approaches used to compare expression profiles.

We have developed a program called HSAnalyst to classify data from original dbEST and UNIGENE databases in a table form. This program is working with supplementary database LibraryRegistry filled by entries describing all human cDNA libraries known to authors and classified according to their tissue sources. LibraryRegistry database contains carefully checked description of libraries, cross-referenced from different data sources like dbEST, UNIGENE and CGAP web-sites available at NIH site (http://www.ncbi.nlm.nih.gov), TIGR (http://www.tigr.org/) and Stratagene (http://www.stratagene.com/). HSAnalyst software is able to arrange EST data according to any given parameter, e.g. tissue type or the number of ESTs contained in a cluster.

We have tried to implement CDD approach to the searching of the human tumour-specific genes which can serve as a putative tumor markers. This gene-hunting procedure was inspired by the hypothesis that tumours may provide conditions for the expression of some transcribed units that are not expressed in any normal tissues. We performed a differential displaying of all available tumour libraries against all available normal libraries instead of pairwise comparison of each tumour and corresponding normal tissue. An approximately 4000 entries in the LibraryRegistry database describing cDNA sources has been classified according to the their origin from tumor or normal tissues (cells). Libraries from “premalignant”, “non-cancerous pathology” and “immortalized cells” have not been used for consequent analysis. Some of libraries were rated as undefined due to lack or ambiguity of information and have not been used for consequent analysis also. This work has revealed many discrepancies in original libraries descriptions. Totally, 2681 libraries were classified as “tumor” and 1087 libraries – as “normal”. Resulting database contains 921237 “tumor” ESTs and 810097 “normal” ESTs.

An algorithm executed by the program consists of two major steps: 1) for each cluster the number of its ESTs is retrieved from cluster description and 2) the number of ESTs from the “tumour” cDNA libraries is counted according to the LibraryRegistry database. The whole range of possible EST numbers is dissected into sub ranges. HSAnalyst makes possible to arrange sub ranges exponentially (sub ranges with exponents 1-2, 3-4, 5-8, 9-16, etc) or linearly (subranges with factors 1-10, 11-20, 21-30 etc). Simultaneously the cancer ESTs/all ESTs ratio is calculated for each cluster and those, which exceed the user-defined bottom threshold value, are listed in the output file. To be sure that we have found a “true” tumour-specific clusters not generated by chance among the great total number of the EST clusters (more than 90000 units) we have calculated the theoretical number of “tumour” clusters for every sub range. The underlying model is the unimodal binomial distribution with the mean value of “cancer/all” ratio that can be defined by user (0 to 100%). The expected number of clusters that exceed threshold value is calculated. A comparison between the expected and observed tumor-derived EST contents shows that found tumor-related clusters are not accidental but represent a natural phenomenon.

The most interesting are clusters represented by ESTs found exclusively in the tumour-derived libraries. Totally 21 tumour-specific clusters are found. The striking feature of such clusters is their frequent occurrence in libraries from colon carcinomas (three independent clusters) or lung and ovarian carcinomas (eight independent clusters). Interestingly, all three colon-specific EST clusters obtained by our analysis represent known genes encoding apolipoprotein B mRNA-editing protein APOBEC1, guanylate cyclase 2C and G protein-coupled receptor 35. EST clusters from lung and ovarian carcinoma libraries do not contain easily recognized open reading frames. they may be considered as an evidence in favor of the expression of newly evolved DNA sequences in tumour cells or as a manifestation of the phenomenon of the "background" or "illegitimate" gene expression, which may be enhanced in tumour cells due to deregulation of the house-keeping processes.

Differentially expressed EST clusters (genes) may be useful as tumour markers and prognostic indicators and may be suitable targets for various therapeutic interventions. To meet the goal we have probed a subset of EST clusters found by HSAnalyst software by both confirmatory PCR and Northern experiments on Clontech Multiple Tissue cDNA Panels and MTN Northern blots. The results are reassuring as mRNA corresponding to one of the probed clusters, Hs. 133294, shows an expression in four different tumour cell lines but in none of the 16 normal tissues included in MTN blot.

An independent task performed with cluster-sorting software was differential displaying of genes expressed in hyperosmotic stress condition caused by NaCl, or dehydration in a model plant Arabidopsis thaliana. Despite of relatively small number of ESTs and UNIGENE clusters available for A.thaliana we found 5 stress-relevant clusters. Three of them represent known plant genes involved in stress response namely GST30, Lti30 and cor15-encoding gene. The remaining clusters represent unknown genes that are awaiting an experimental study.

Cluster-sorting software HSAnalyst is a universal tool that can be implemented for study of the any model organism subjected to the massive EST project. This software could be used for discovering of genes with unusual expression patterns if corresponding expression conditions are properly depicted in the library describing entry.

127.

14.2.2002

E. P. Zinkevich

Institute of Problem of Ecology and Evolution

Molecular mechanisms of olfaction: where we are and where are we heading

Эдуард Петрович Зинкевич

Институт проблем экологии и эволюции РАН

Молекулярные механизмы обоняния: где мы находимся и куда нас несет

Летучие вещества, обонятельные стимулы, строение-запах; феромоны, обонятельные рецепторы, вомероназальный орган, молекулярная архитектура детектирования пахучих веществ, трансдукция сигнала, обонятельная луковица, молекулярный код запаха, 1991 г. - начало структурированного хаоса исследований: мультигенное семейство, кодирующее обонятельные белки-рецепторы.

128.

28.2.2002

N.Yu.Oparina, M.-E.Lacroix, T.D.Mashkova

Institute of Molecular Biology

Segmented duplications in the human chromosomes

Н.Ю.Опарина, М.-Э.Лакруа, Т.Д.Машкова

Институт молекулярной биологии РАН

Сегментные дупликации в хромосомах человека

Малоизученные на сегодняшний день прицентромерные и субтеломерные области хромосом человека являются “излюбленной” мишенью для накопления внутри- и межхромосомных дупликаций ДНК. Такие дупликации состоят из повторяющихся элементов, псевдогенов и функционально активных генов, имеют сложную мозаичную структуру и составляют, по предварительным подсчетам, около 5% генома.

На примере 43-т.п.н. полностью отсеквенированного и охарактеризованного фрагмента из прицентромерной области короткого плеча хромосомы 21 человека анализируются трансхромосомное распределение и структура найденных дупликонов. Рассматриваются происхождение и эволюция дупликонов и входящих в их состав генов, псевдогенов и повторяющихся элементов. Для обнаружения дуплицированных последовательностей использованы как поиск гомологичных последовательностей в текущей драфт-версии последовательности ДНК генома человека, так и экспериментальные подходы (методы флуоресцентной in situ гибридизации, ПЦР-анализа однохромосомных клеточных гибридных и геномных ДНК, секвенирование и другие).

130.

21.3.2002

D.Papatsenko

New York University, Department of Biology

Fine structure of regulatory clusters in Drosophila

Д. Папаценко

Нью-Йоркский Университет

Тонкая структура регуляторных кластеров в дрозофиле

We present a flexible algorithm for statistical evaluation of clustered functional signals on the DNA in a variable size window. Based on compiled data for developmental enhancers from D. melanogaster, we have shown that the most significant clusters correlate with experimentally defined regulatory modules. We also demonstrate that clustering may assist in discriminating functional binding sites from non-functional matches and for refinement of binding site models. Implementation of the cluster consideration to dissecting of regulatory networks is discussed.

This is joint work with V.Makeev, A.Lifanov, M. Regnier, A.Nazina, C.Desplan, and S. Small.

131.

28.3.2002

A.L.Drozdov

Institute of Marine Biology, Vladivostok

The principle of conservatism of cellular structures and the Phyleme of organisms

Анатолий Леонидович Дроздов

Институт биологии моря ДВО РАН, Владивосток

Принцип консерватизма клеточных структур и филема органического мира

Предложена многоцарственная система органического мира, включающая 11 царств прокариот и 12 царств евкариот. (Кусакин, Дроздов, 1994, 1998) В ее основу был положен принцип консерватизма клеточных структур, сформулированный Машанским и Дроздовым (Mashansky, Drozdov, 1988). В этих работах мы попытались проанализировать биологический парадокс: при удивительном, ошеломляющем биологическом разнообразии на молекулярном, клеточном, организменном, популяционном и видовом уровнях, субклеточный или органоидный уровень чрезвычайно консервативен. Различается лишь 2 основных варианта ультраструктуры биологических мембран и 7-8 вариантов строения клеточных стенок, 2-3 рибосом и 3-4 варианта организации синтетического аппарата, всего лишь 6 вариантов ультраструктурной организации пластид, только 4-5 вариантов организации митохондрий, 3 варианта организации ядерного аппарата, 7-8 вариантов организации кинетического аппарата. Мы постулировали, что каждому царству живых организмов принадлежат только организмы, имеющие одинаковое строение клеточных органелл. "Царство" является объективной таксономической категорией, равно как и " вид".

Кусакин О.Г., Дроздов А.Л. Филема органического мира. СПб.: Наука. Часть 1. 1994. 272 c. Часть 2. 1998. 381 с.

132.

11.4.2002

V.I.Ivanov

Institute of Molecular Biology

Why termination tRNAs are not around? Because they are hidden. Guess where?

Валерий Иванович Иванов

Институт молекулярной биологии РАН

Почему мы не наталкиваемся на терминаторные тРНК?
Потому что они спрятались. Угадайте где.

Давно показано, что синтез белковой цепи в рибосомах по матричной РНК идет с непременным участием тРНК двух классов: элонгаторных и инциаторных. Первые, узнавая значащие кодоны, участвуют в самом синтезе, поскольку он уже начался. Вторые (формилметиониновая в прокариотах и специальная метиониновая - в эукариотах) инициируют процесс. В клетке им помогают специальные белки: факторы инициации, элонгации и терминации. Последние нужны для узнавания стоп-кодонов (UAG, UGA, UAA) и отщепления готовой белковой цепи от последней перед стоп кодоном элонгаторной тРНК. Никакой терминаторной РНК, которая могла бы узнавать стоп-кодоны своим антикодоном, не известно. Полагают, что это делают факторы терминации. Мы обнаружили в большой рибосомной РНК два участка, которые, подобно тРНК, содержат антикодонную шпильку, но с триплетами, комплементарными стоп-кодонам. По аналогии мы назвали их терминаторными тРНК (Тер-тРНК1 и Тер-тРНК2), хотя, разумеется, никаких аминокислот они не транспортируют, и предположили, что они непосредственно узнают стоп кодоны. При этом факторы терминации лишь создают условия для такого узнавания и делают его весьма специфичным и надежным. (Конечно, у них остается функция гидролиза эфирной связи пептида с тРНК.) Сильный довод в пользу нашей гипотезы дают митохондрии позвоночных. У них, как известно, появляются два новых стоп кодона: AGA и AGG. (В стандартном коде им соответсвуют два из шести аргининовых кодона.) Мы обнаружили, что при этом в Тер-тРНК1 появляются соответствующие антикодоны.

134.

20.6.2002

A.S.Kondrashov, S.R.Sunyaev, F.A.Kondrashov

National Center for Biotechnology Information (USA)

Алексей Симонович Кондрашов

Несовместимости Добжанского-Мюллера в эволюции белков

Большинство патогенных аминокислотных замен происходит в эволюционно консервативных сайтах белов. Поэтому аминокислоты, отличающие белки других организмов от их человеческих ортологов, обычно не вызывали бы патологии в человеческом белке.

Однако из этого правила очень много исключений. Сопоставление данных о патогенных мутациях в 32 локусах человека, ответственных за менделевские болезни болезни, с множественными выравниваниями этих белков и их ортологов из других видов показало, что примерно 10% аминокислот, отличающих белки из других видов от их человеческих ортологов, ыли бы патогенными для человека. При этом доля таких “компенсированных патогенных отклонений” (КПО) в белке практически не зависит от того, насколько он далёк от своего человеческого ортолога. Это, видимо, означает, что компенсаторные замены, ответственные за высокую приспособленность белков с КПО и собственно КПО происходят в эволюции почти одновременно, под действием положительного отбора. Данные о приспособленности межвидовых гибридов указывают, что обычно КПО и соответствующая ему компенсаторная замена находятся в одном и том же белке. В эволюционных терминах, пара КПО – компенсаторная замена образует несовместимость Добжанского-Мюллера, а в генетике мутации, аналогичные компенсаторным заменам, называют вторичными супрессорами. В некоторых случаях удается выказать правдоподобные гипотезы о том, какая именно замена является компенсаторной для данной КПО.

Однако такие гипотезы требуют экспериментальной проверки.

135.

8.8.2002

Kira S. Makarova, Yuri I. Wolf, Eugene V. Koonin

National Center for Biotechnology Information,
National Library of Medicine,National Institutes of Health

Genomic determinants of hyperthermophiles

Recently we predicted a novel DNA repair system (1) that consists of more than 20 genes that are largely specific for thermophilic archaea and bacteria. The gene composition and gene order in this system vary greatly between species and its evolution apparently involved a lot of horizontal transfer events and non-orthologous gene displacements. The observed plasticity of this system is likely to reflect the complexity of evolution of the genomic determinants of this themophilic phenotype. Therefore we used it as a model for finding a set of clusters of orthologous groups (COGs) specific for thermophiles. This approach resulted in identification of about 300 COGs with phyletic patterns resembling those of the thermophile-specific repair system components; 75% of the genes coding for proteins associated with the predicted repair system belonged to the selected set of COGs. Only 11 of these thermophile-specific COGs were represented in all three currently sequenced hyperthermophilic bacteria and 6 of them code for repair system components. A detailed analysis of the protein sequences and genomic contexts of members of the selected COGs from hyperthermophiles resulted in several functional predictions, including a new class of putative molecular chaperones. However, many of the selected 300 COGs remain uncharacterized or poorly characterized and additional sequence analysis and experimental work are required to shed light on their function and potential contributions to the thermophilic phenotype.

Makarova KS, Aravind L, Grishin NV, Rogozin IB, Koonin EV. (2002) Nucleic Acids Res. 30(2), 482-96.

137.

26.9.2002

Svetlana A.Borinskaya

Inst. of General Genetics, Moscow

A quantitative approach approach to study changes of population genetic traits
under different natural and cultural environment

Adaptive value and frequencies of some alleles may depend on differences in human cultural and social environment: type of economy (hunting-gathering, farming or industry), population density, social complexity, etc. To reveal the connections between cultural and genetic traits, including the traits of medical importance, we compared allele frequency data on mtDNA, Y-chromosome and autosomal (APOE, CCR2, CCR5, SDF1, DRD2 and others) genetic markers to the data on social and cultural traits of human societies from a database called Ethnographic Atlas (Murdock, 1999). Different significant gene-culture correlations are found. Two of those concerning APOE gene and HIV-resistance mutations are the following. (i) Population frequency of the APOE*e4 allele (risk factor of Alzheimer disease in modern societies, but not in Sun Bushmen society) correlates positively with the share of hunting-gathering in food supply. Frequency of e2 allele (protective on Alzheimer disease) correlates negatively with input of fishing in food in Eurasian populations. Both e4 and e3 allele has latitudinal distribution in the world. The data may clarify the adaptive values of different APOE alleles in different physical environment depending on cultural traits. (ii) Population frequency of HIV protective alleles of ancient origine correlates positively with human population density (for SDF1 gene) and patricentricity (for CCR2), a "recent" allele CCR5*delta32 shows no correlation to known socio-cultural traits. A possible role of environment, social and cultural factors in manifestation of different alleles as risky or protective will be discussed. Extension of overlaps between genetic and cross-cultural databases seems to be an important task to deeper understanding of gene-environment relationships.

Светлана Боринская

Институт общей генетики РАН

Изменение популяционных частот аллелей у человека в различной природной и культурной среде

Адаптивная ценность и частоты некоторых аллелей могут изменяться в зависимости от условий среды. У человека не только природная среда, но и культурные факторы (тип хозяйства, особенности питания, плотность населения) влияют на генетические характеристики популяций.

Чтобы выявить факторы среды, которые оказывают влияние на генетические характеристики популяций, мы исследовали корреляцию популяционных частот аллелей ряда генов в различных этнических группах с социокультурными особенностями этих групп. Для этого мы использовали "Этнографический атлас" Дж.П.Мердока. "Этнографический атлас" – это электронная таблица, в которой описаны 1267 народов по 100 социокультурным признакам. Описания даны в цифровой форме, что позволяет легко проводить статистический анализ данных.

Для нескольких аллелей мы нашли значимые корреляции с культурными признаками.

Например, для гена APOE (аполипопротеин Е, влияет на уровень холестерина и триглицеридов в крови, имеет три общераспространенных аллеля е2, е3, е4) мы наши негативную корреляцию у евразийских народов популяционной частоты аллеля е2 с вкладом рыбной ловли в питание. Носители этого аллеля имеют самый низкий (по сравнению с другими аллелями) уровень холестерина. Как известно, рыбий жир снижает уровень холестерина, причем наиболее эффективно именно у носителей е2. Так что выявленная закономерность вполне объяснима.

Популяционные частоты ВИЧ-протективной мутации в гене SDF1 позитивно коррелируют с плотностью населения и с уровнем развития технологий хранения продуктов. Частота ВИЧ-протективной мутации в гене CCR2 позитивно коррелирует с патрицентричностью (интегральным показателем, объединяющим патрилинейность, патрилокальность, несороральную полигинию, термины родства, скотоводство и неокторые другие показатели). Плотность насления, скотоводство и технологии хранения продуктов – все эти харатеристики связаны с распространением инфекций.

Для ВИЧ-протективной мутации в гене CCR5 мы не нашли культурных коррелятов. Это мутация самая молодая среди трех исследованых, она распространилась в Европе около 700 лет назад.

Предложенный подход позволяет выявлять факторы среды (как природные так и культурные), связанные с генетическими различиями между этническими группами, а также выявлять гены, предположительно связанные с адаптацией к этим факторам.

В докладе обсуждается роль природных и социокультурных факторов в том, что одни и те же аллели проявляются как протективные, нейтральные или рисковые по отношению к мультифакторным заболеваниям.

Работа стала возможна благодаря тому, что генетик (это я) оказался рядом с этнографом (Андрей Коротаев, РГГУ) за одним компьютером, а Юрий Мильчевский (ИМБ РАН) потом проверил значимость корреляций.

139.

24.10.2002

Alexei R.Khokhlov

Physics Department, Moscow State University

Biomimetic sequence design in functional copolymers

The possibility of the design of sequences in synthetic copolymers in order to achieve desired functional properties is considered. The adopted approach is biomimetic in its nature: we look at the properties of primary structure in biopolymers and try to implement similar ideas in the sequence design of synthetic copolymers. One of the examples are "protein-like copolymers" which collapse to a globule with a well-defined hydrophobic core wrapped in a hydrophilic envelope. These protein-like copolymers can be easily generated in computer simulations. The real synthetic procedures based on polymer-analogous reactions, as well as on the copolymerisation in poor solvent with simultaneous formation of copolymer globule, will be also described. As a result, it becomes possible to synthesize a copolymer macromolecule which undergoes coil-globule transition without simultaneous intermolecular aggregation and precipitation.

The statistical properties of primary sequences of protein-like copolymers designed as described above are considered as well. It is shown, both by computer simulations and by exact analytical calculation, that for large globules and flexible polymers such sequences exhibit long-range correlations which can be described by Levy-flight statistics.

The concept of evolution of sequences of synthetic copolymers is introduced, and some of the examples of computer realization of such evolution are described. The parallels with the evolution of sequences of biopolymers are discussed. It is shown that via evolution of sequences, it is possible to obtain copolymer chains with more perfect statistical characteristics in comparison with the synthetic procedures mentioned above. Thus, such chains are even more designed for implementation of specific functions.

Depending on the interaction parameters between monomer units it became possible to obtain models of ascending branch of the evolution (leading to the increase of the information content of the sequences), as well as of descending branch of the evolution (leading to the decrease of the information content of the sequences). In this connection, the concept of information complexity of the sequences is critically analyzed. It is shown that such characteristics as Shannon's entropy or potential compressibility of the sequence do not represent good characteristics to describe the information complexity. On the contrary, the so-called Jensen-Shannon divergence measure corresponds to our intuitive understanding of complexity, and can be successfully used for the description of information content of the sequences.

141.

5.12.2002

Д.Д.Соколов

Кафедра высших растений биологического факультета МГУ

Значение данных молекулярной систематики для выявления параллелизмов
в морфологической эволюции высших растений

В последние десятилетия для реконструкции филогении широко используют кладистические методы. При этом родственные связи между группами выявляют на основании совместного обладания представителями разных групп апоморфными состояниями признаков (это совместное обладание называют синапоморфией). (Апоморфным называют производное, а плезиоморфным – исходное состояние признака; например, для высших растений мужские гаметы со жгутиками – плезиоморфия, а без жгутиков – апоморфия. То, что хвойные, гнетовые и цветковые растения обладают безжгутиковыми гаметами, говорит в пользу филогенетического родства между этими группами.)
Данные по разным признакам часто не совпадают друг с другом. Анализ разных признаков приводит к разным суждениям о родственных связях. Чтобы выйти из этого затруднения, используют принцип парсимонии, или наибольшей экономии: сестринские отношения между данной парой групп тем более вероятны, чем большим числом синапоморфий характеризуется такая группировка.
Для того чтобы протестировать, насколько адекватным является «экономный» подход при реконструкции филогении по морфологическим данным, желательно иметь какие-то внешние по отношению к морфологии современных форм данные. Это могут быть, например, данные палеонтологии. Палеонтологические данные показывают, что во многих группах растений и животных целые ансамбли признаков формировались параллельно в разных (но часто близких друг к другу) линиях эволюции. Следовательно, мнение об «экономном» характере эволюции не подтверждается.
Для многих групп растений палеонтологические данные явно не достаточны для того, чтобы протестировать гипотезы об их филогении. В этом случае исключительно эффективные результаты дает применение методов молекулярной систематики. Анализ филогенетических деревьев, построенных по молекулярным данным, показывает очень широкое распространение параллелизмов в морфологической эволюции высших растений. Значит ли это, что принцип парсимонии должен быть отброшен при кладистическом анализе, основанном на морфологических признаках? По моему мнению – едва ли. Этот принцип является существенной частью научного познания. Важно, что, делая вывод о «неэкономном» характере морфологической эволюции, мы опираемся на тот же принцип парсимонии, поскольку именно на его основе строятся филогенетические деревья по молекулярным данным. Очень вероятно, что параллелизмы широко распространены и в молекулярной эволюции, хотя сейчас у нас, вероятно, нет надежных внешних «реперов», чтобы эти параллелизмы зафиксировать.