Транскрипция,
ее регуляция,
и как ее изучают
(с помощью секвенирования и биоинформатики)

Ваня Кулаковский, Пущино-Москва

Часть 4: аллель-специфичное связывание

факторов транскрипции





Авторы работы

Коллектив Института системной биологии -
создатели Gene Transcription Regulation Database

Федор Колпаков
Иван Евшин

Лаб. системной биологии и выч. генетики ИОГен РАН

Всеволод Макеев

Авторы работы

Сергей Абрамов, МФТИ
Александр Бойцов, МФТИ
Дарья Быкова, ФББ МГУ
Евгений Баулин, ИМПБ РАН

Среди участков генома человека, находящихся под эволюционным отбором, 85% не кодируют белки.

Ward and Kellis Science 2012

От 80 до 90% геномных вариантов, ассоциированных с болезнями, находится в некодирующих районах.

Hindorff et al. PNAS 2009, Edwards et al. Am J Hum Genet 2013,
Rojano et al. Brief in Bioinf 2018
Cho - Wiley Interdiscip Rev Dev Biol 2012, Lander et al. Nature 2001

Откуда мы знаем про ассоциацию вариантов с фенотипами?

Полногеномные исследования ассоциаций (GWAS)

doi:10.5772/intechopen.76728

Манхэттенский график

Ikram et al, PLoS Genet, 2010, doi:10.1371/journal.pgen.1001184.g001
Farh et al., Nature, 2015

Неравновесие по сцеплению


Wikipedia; Ikram et al, PLoS Genet, 2010

Ассоциированный вариант не обязательно является каузальным.

Нужны методы приоритизации, например, на основе функциональной аннотации.

Как некодирующие однонуклеотидные варианты могли бы влиять на фенотип?

Single nucleotide variant, SNV

Как регуляторные варианты могли бы влиять на транскрипцию генов?

Ассоциирован с риском развития рака молочной железы у мужчин

Доктор Леонард Хофстедтер

  • Физик, кандидат наук
  • Носит худи поверх футболки и куртку.
  • Страдает непереносимостью лактозы.

Полиморфизм rs4988235

  • Интрон гена MCM6 - влияет на экспрессию гена LCL
  • Генотип (С;С) соответствует лактозной непереносимости (европ. популяция)

T > C (A>G) gain-of-function

PERFECTOS-APE, Vorontsov et al., 2015
Ген IL2RA кодирует субъединицу рецептора IL2;
Однонуклеотидный полиморфизм ассоциирован с развитием
ревматоидного артрита, рассеянного склероза, болезни Крона.
Дмитрий Купраш, ИМБ РАН
Afanasyeva et al. 2017

rs7873784 in 3' UTR of the gene encoding Toll-like receptor 4

Minor allele associated with rheumatoid arthritis and type-2 diabetes mellitus.
Korneev et al. 2020

SLAMF1/CD150 promoter region

SLAMF1 (Signaling Lymphocytic Activation Molecule Family Member 1) expression alterations associated with autoimmunity and with B-cell chronic lymphocytic leukemia.

Schwartz et al. 2016

Функциональная аннотация регуляторных вариантов:

Поиск генетических ассоциаций ⇾

Наложение существующей функциональной аннотации генома ⇾

Массовые параллельные эксперименты с репортерами ⇾

Вычислительный анализ последовательностей ⇾

Традиционная экспериментальная верификация


Levo and Segal, 2014, Nat Rev Genet

Замечательное свойство генома

Диплоидный геном - естественный источник информации о вариантах

Аллель-специфичное связывание факторов транскрипции

Allele-specific binding, ASB

Иммунопреципитация хроматина с последующим глубоким секвенированием (ChIP-Seq)

ChIP-Seq позволяет выявить сайты аллель-специфичного связывания

Allele-specific binding, ASB

Аллель-специфичное связывание

Много ли сайтов ASB мы знаем?

  • 842 - Maurano et al. (2015)
  • 5871 - Shi et al. (2016)
  • 7066 - AlleleDB (2016)
  • 9962 - Cavalli et al. (2016)
  • 13454 - Korbolina et al. (2019)
  • 17293 - Cavalli et al. (2019)

В масштабах генома немного. Но почему?

Что делает идентификацию ASB нетривиальной?

  • Специфичность ASB для факторов транскриции и клеточных типов;
  • Технические сложности (например, нестабильное покрытие генома прочтениями);
  • Реальный геном не является диплоидным!

Хромосомные аберрации и анеуплоидия типичны для иммортализованных клеточных линий

Кариотип K562; Zhou et al. Genome Res 2019

Но "нормальные" клетки также могут быть полиплоидными:

кератиноциты, кардиомиоциты, мегакариоциты, гепатоциты...

... и кроме того, существуют локальные вариации копийности.

Copy-number variant, CNV

Orr-Weaver et al. Trends Genet 2015

Вариации плоидности и CNV изменяют аллельные частоты

Вариации плоидности и CNV изменяют аллельные частоты

Сдвиг аллельных частот приводит к овердисперсии

Верзняя панель - SNP в различных типах клеток, нижняя панель - K562

Что такое хорошо

и что такое Background Allelic Dosage

BAD как он(а) есть

BAD можно оценить
напрямую из частот прочтений!

Алгоритм оптимальной сегментации

Оценка BAD
с помощью Байесовской сегментации

Оценка BAD
с помощью Байесовской сегментации

Оценка BAD
с помощью Байесовской сегментации

Are we good in calling BAD?

76 типов клеток сопоставленных с данными COSMIC

Оценка BAD улучшается
с ростом числа SNV

Сегрегация по BAD решает проблему овердисперсии



... people who had nothing to do with the design and execution of the study but use another group’s data for their own ends, possibly stealing from the research productivity planned by the data gatherers, or even use the data to try to disprove what the original investigators had posited. There is concern among some front-line researchers that the system will be taken over by what some researchers have characterized as “research parasites.”

N Engl J Med 2016

Схема анализа данных

Отрицательное биномиальное распределение для скоринга

Больше - значит лучше?

Выше покрытие ⇛ Больше прочтений Выше статистическая значимость для конкретного варианта

Выше покрытие ⇛ Больше вариантов ⇛ Строже поправка на множественное тестирование Ниже значимость для конкретного варианта

Агрегация P-значений независимых экспериментов

Агрегация P-значений независимых экспериментов

Агрегация P-значений независимых экспериментов

Еще раз взглянем на схему

Геномная локализация ASB

Наиболее представленные факторы транскрипции и типы клеток

ASB согласуются с известными паттернами связывания

ASB присутствуют среди ассоциаций с конкретными фенотипами

ASB и особенно переключатели обогащены ассоциациями с фенотипами

Число ассоциаций по данным ClinVar, EBI GWAS, PheWas, Autoimmune-Fine-Mapping.

Farh et al., 2015
Функциональная аннотация SNP, ассоциированного с болезнью Крона
Экспериментальная верификация ASB, ассоциированного с коронарной недостаточностью
Карточка в базе adastra.autosome.ru

COVID HGI, сравнение госпитализаций с популяцией (данные от 2 июля 2020)

453 варианта с GWAS P-значением < 10-5

Среди них: 18 ASB

rs71327024 является eQTL для генов, кодирующих рецепторы хемокинов

По данным GTEx

Конец