Учёные представили MetaGraph — уникальную систему поиска по биологическим данным, которую уже называют «Google для ДНК». Как сообщает журнал Nature, новый инструмент способен анализировать колоссальные объёмы информации из открытых баз данных — от ДНК и РНК до белковых последовательностей, насчитывающих квадриллионы генетических символов.
По словам исследователя Райана Чикхи из Института Пастера, MetaGraph задаёт новый стандарт в области биоинформатики. Он сравнил платформу не с обычным Google, а с «поиском YouTube для генома»: система находит скрытые генетические паттерны даже без предварительных аннотаций — как если бы YouTube находил видео по содержимому, а не по названию.
Разработчики из Швейцарского федерального технологического института (ETH Zurich) объединили данные из семи крупнейших мировых биобаз, создав 18,8 миллиона уникальных наборов ДНК и РНК, а также 210 миллиардов белковых последовательностей, охватывающих все формы жизни — от вирусов до человека. Благодаря алгоритмам сжатия и математическим графам MetaGraph позволяет искать нужные фрагменты генома за считанные минуты.
В демонстрации работы учёные проанализировали более 240 тысяч образцов микробиома человека, чтобы выявить гены устойчивости к антибиотикам по всему миру — и сделали это всего за час.
Создатели подчеркивают, что такие инструменты, как MetaGraph и родственная система Logan, открывают новую эру «петабазной геномики» — исследований на уровне масштабов, ранее считавшихся невозможными. Они также напоминают, что подобные открытия возможны только при сохранении открытого доступа к научным данным.
«Это ресурсы, которые двигают науку вперёд во всём мире. MetaGraph открывает путь к совершенно новому пониманию жизни на Земле», — отметил биоинформатик Артём Бабаян из Университета Торонто.

