Геном організму – це набір інструкцій ДНК, необхідних для його розвитку, функціонування та розмноження. Геном сучасного організму містить інформацію про його еволюційний шлях, який починається з “першого універсального спільного предка” всього живого на Землі і завершується цим організмом.
Зашифрований всередині себе, геном організму містить інформацію, яка може виявити зв’язки з його предками та родичами.
Інші виміри геному
Наше дослідження вивчає гіпотезу про те, що геном організму може містити інші види інформації, окрім генеалогії та таксономії. Ми запитали: Чи може геном організму містити інформацію, яка б дозволила нам визначити тип середовища, в якому живе організм?
Хоча це здається малоймовірним, наша команда дослідників комп’ютерних наук та біології з Університету Ватерлоо та Західного університету виявила, що це стосується екстремофілів – організмів, які живуть і процвітають у надзвичайно суворих умовах. Ці умови варіюються від екстремальної спеки (понад 100°C) до екстремального холоду (нижче -12°C), високої радіації або екстремальної кислотності чи тиску.
ДНК як мова
Ми розглядали геномну ДНК як текст, написаний “мовою ДНК”. Нитка ДНК (або послідовність ДНК) складається з послідовності основних одиниць, які називаються нуклеотидами, з’єднаних між собою цукрово-фосфатною основою. Існує чотири таких різних одиниці ДНК: аденін, цитозин, гуанін і тимін (A,C,G,T).
Абстрактно, послідовність ДНК можна уявити як рядок тексту, написаний “літерами” з “алфавіту ДНК”. Наприклад, “CAT” – це трибуквене “слово ДНК”, що відповідає триланцюговій послідовності ДНК цитозин-аденін-тимін.
У 1990-х роках було виявлено, що, підраховуючи входження таких ДНК-слів у короткій послідовності ДНК, виділеній з геному організму, можна визначити вид організму і ступінь його спорідненості з іншими організмами на еволюційному “дереві життя”.
Механізм такої ідентифікації або класифікації організму на основі кількості слів у ДНК схожий на процес, який дозволяє нам відрізнити англійську книгу від французької: Взявши по одній сторінці з кожної книги, можна помітити, що в англійському тексті багато разів зустрічається слово з трьох літер “the”, тоді як у французькому тексті багато разів зустрічається слово з трьох літер “les”.
Зверніть увагу, що частотний профіль слів у кожній книзі не залежить від того, яку сторінку ми обрали для читання, і чи проглянули ми кілька сторінок, одну сторінку або цілий розділ. Аналогічно, частотний профіль слів ДНК у геномі не залежить від розташування та довжини послідовності ДНК, яка була обрана для представлення цього геному.
Те, що слово-частотні профілі ДНК можуть виступати в якості “геномного підпису” організму, стало значним відкриттям, оскільки до цього часу вважалося, що слово-частотний профіль геному містить лише еволюційну інформацію, що відноситься до виду, роду, родини, порядку, класу, філуму, царства або домену, до якого належить організм.
Наша команда поставила собі за мету з’ясувати, чи може частотний профіль слів ДНК геному розкрити інші види інформації – наприклад, інформацію про тип екстремального середовища, в якому процвітає мікроб-екстремофіл.
Відбитки середовища в ДНК екстремофілів
Ми використали набір даних 700 мікробів-екстремофілів, що живуть в екстремальних температурах (екстремальна спека або холод) або в екстремальних умовах рН (сильно кисле або лужне середовище). Для перевірки нашої гіпотези ми використовували як контрольоване машинне навчання, так і неконтрольоване машинне навчання.
В обох типах екологічних умов ми виявили, що можемо чітко виявити екологічний сигнал, який вказує на тип екстремального середовища, в якому мешкає конкретний організм.
У випадку неконтрольованого машинного навчання “сліпому” алгоритму надавали набір даних послідовностей ДНК екстремофілів (і жодної іншої інформації про їхню таксономію чи середовище проживання). Потім алгоритм попросили згрупувати ці послідовності ДНК у кластери на основі подібності, яку він знайшов серед їхніх профілів частоти слів у ДНК.
Очікувалося, що всі виявлені таким чином кластери будуть таксономічними: бактерії згруповані з бактеріями, а археї – з археями. На наш превеликий подив, це не завжди було так, і деякі археї та бактерії постійно групувалися разом, незалежно від того, які алгоритми ми використовували.
Єдиною очевидною спільною рисою, яка могла б пояснити їхню схожість за допомогою декількох алгоритмів машинного навчання, було те, що вони були теплолюбними екстремофілами.
Шокуюче відкриття
Дерево життя – концептуальна схема, що використовується в біології та відображає генеалогічні зв’язки між видами, – має три основні гілки, які називаються доменами: бактерії, археї та еукарії.
Еукаріоти – це організми, які мають мембранне ядро, і цей домен включає тварин, рослини, гриби та одноклітинні мікроскопічні протисти. На відміну від них, бактерії та археї – це одноклітинні організми, які не мають мембранного ядра, що містить геном. Бактерії відрізняються від архей складом клітинних стінок.
Ці три сфери життя кардинально відрізняються одна від одної, і генетично бактерія відрізняється від археона так само, як білий ведмідь (еукарія) від кишкової палички (бактерії).
Тому ми очікували, що геноми бактерій і археонів будуть максимально віддалені один від одного в будь-якому кластері за будь-якою мірою геномної схожості. Ми виявили, що деякі бактерії та археї згруповані разом, очевидно, лише тому, що вони обидві пристосовані до екстремальної спеки, а це означає, що екстремальне температурне середовище, в якому вони живуть, спричинило системні зміни в мові їхнього геному на рівні всього геному.
Це відкриття схоже на відкриття абсолютно нового виміру геному, екологічного, який існує на додаток до його добре відомого таксономічного виміру.
Вплив інших середовищ на геном
Окрім того, що це відкриття є несподіваним, воно може мати наслідки для нашого розуміння еволюції життя на Землі, а також наштовхнути нас на роздуми про те, що може знадобитися для життя в космічному просторі.
Дійсно, наші поточні дослідження вивчають існування екологічного сигналу в геномній сигнатурі радіаційно-стійких екстремофілів, таких як Deinococcus radiodurans, які можуть витримувати радіаційне опромінення, а також холод, зневоднення, умови вакууму і кислоту, і, як було показано, здатні виживати в умовах відкритого космосу до трьох років.