Создан прототип технологии поиска по геномным хранилищам данных | Наука 21 век

Наука 21 век » Создан прототип технологии поиска по геномным хранилищам данных





Создан прототип технологии поиска по геномным хранилищам данных

Декабрь 26th, 2016

Создан прототип технологии поиска по геномным хранилищам данныхРоссийский R&D Центр Dell EMC создал прототип системы хранения и поиска по вариациям генотипа, важного элемента Интернета ДНК – единого облачного пространства для хранения геномной информации по всему миру. Один из компонентов, лежащих в основе решения, iResearch – выложен в открытый доступ. 

Российский R&D Центр компании Dell EMC в Сколково создал прототип платформы для хранения и поиска среди различных типов данных – геномных вариантов, описаний, сделанных врачом, электронных медицинских карт, медицинских справочников и классификаторов (онтологий), постоянно растущих баз ассоциаций между геномными параметрами, симптомами болезни, результатами лечения.

Программных средств, позволяющих эффективно работать со столь различными типами данных одновременно, быстро определять прямые или непрямые связи между ними, сегодня не существует. Текущий прототип – важный шаг на пути создания такого инструмента. Элемент ядра технологии доступен по адресу: https://github.com/iresearch-toolkit/iresearch

В результате проект предусматривает создание такой инфраструктуры, которая даст возможность врачам и исследователям находить ценную для лечения информацию, анализировать ее и обмениваться ею.

Об этом команда разработчиков центра объявила на конференции «Интернет ДНК», прошедшей 13 декабря 2016 года в Москве.

Работа прототипа была протестирована в рамках совместного проекта с центром Интегральной Диагностики Массачусетской больницы в Бостоне (Massachusetts General Hospital) и объединением Partners Healthcare. Выбор партнеров для тестового периода основывался на определенных факторах, необходимых для качественной работы платформы: наличие реального практического опыта применения генотипирования в онкологии для предсказания выживаемости пациентов и для рекомендации методов лечения; баз данных из нескольких тысяч случаев; возможности интеграции с электронными картами, чтобы отслеживать дальнейшую судьбу пациентов.

Размер тестового набора данных составляет 400 ГБ данных (2,5 тысячи образцов генома, 450 млн вариантов), достигнута скорость поиска, позволяющая отвечать в рамках секунды на запросы по индексируемым полям. Команда Dell EMC R&D продолжает работу над обеспечением надежного хранения данных, интеграцией с публичными источниками данных, а также упрощением системы для врачей, чтобы сделать ее максимально удобной.

«После успешного международного тестирования системы нам важно начать сотрудничать с российскими специалистами, клиниками, лабораториями, чтобы понимать, как мы можем адаптировать наши решения к российским реалиям», – комментирует ведущий разработчик в области биоинформатики R&D Центра Dell EMC Россия в Сколково Андрей Запарий.

Зачем генетикам понадобился собственный интернет

Ученым удалось полностью секвенировать геном человека, однако для следующего прорыва в биомедицине исследователям и клиницистам необходимо получить возможность сравнивать геномные данные пациентов с данными других людей по всему миру.

ДНК людей нашей планеты совпадает примерно на 99,9%. Однако генетическое отличие составляет всего 4-5 млн пар нуклеотидов. Разница в 0,1% при сравнении данных генома нескольких людей позволяет объяснить вероятность развития глаукомы, влияние генетических мутаций при раковых заболеваниях и много другое.

Многие генетические вариации человека относительно редки, поэтому важно рассматривать сотни, тысячи и даже миллионы человек для анализа. Прежде всего это касается онкологических и редких болезней. К примеру, мутации в генах BRCA1 и BRCA2 могут приводить к повышенному риску возникновения рака молочной железы. В среднем один из 800 человек имеет мутацию в одном из этих генов. Чтобы понять, какие из этих мутаций патогенны, необходимо проанализировать выборки пациентов.

Генетические данные хранятся в медицинских и научных организациях по всему миру, имеют разные форматы и структуру. Объединив всю эту информацию, ученые могут найти ключи к лечению многих болезней.

Источник: презентация David Haussler, конференция «Интернет ДНК», 13.12.2016

С 2013 года сотрудники Международного Альянса по геномике и здравоохранению (Global Alliance for Genomics and Health, GA4GH) работают над cозданием большой облачной базы геномов, которую называют «Интернет ДНК». Приглашенный на конференцию Дэвид Хаусслер, эксперт по биоинформатике Калифорнийского университета в Санта-Круз и один из основателей международного Альянса отметил, что Альянс объединяет университеты, медицинские организации, научные центры и крупнейшие IT-компании с целью создать технологическую инфраструктуру для интеграции разрозненных баз по всему миру в единую систему.

****

R&D Центр Dell ЕМС специализируется на создании решений для облачных вычислений и технологий аналитики больших данных для решения задач в медицине, биологии, других отраслях. Центр сотрудничает с российскими университетами, государственными учреждениями, российскими и международными компаниями в сообществе «Сколково». В числе партнёров московского Центра компания Parseq Lab, Санкт-Петербургский Академический университет – научно-образовательный центр нанотехнологий Российской академии наук (СПб АУ НОЦНТ РАН, Академический университет), Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ). Он также является участником Глобального альянса по геномике и здравоохранению.







Повышение квалификации. Основы интеллектуальной собственности