Нажмите "Enter", чтобы перейти к контенту

Текстовые профили, основанные на тексте, поддерживают оценку данных микрочипов ДНК для острой миелоидной лейкемии и стимуляции рецепторов андрогенов

Text-derived concept profiles support assessment of DNA microarray data for acute myeloid leukemia and for androgen receptor stimulation
Источник: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1784107/

Это статья открытого доступа, распространяемая в соответствии с лицензией Creative Commons Attribution License (), которая допускает неограниченное использование, распространение и воспроизведение на любом носителе при условии, что оригинальная работа была правильно указана.

Эксперименты с высокой пропускной способностью, такие как микрочипы ДНК, как правило, приводят к сотням генов, потенциально относящихся к исследуемому процессу, что затрудняет интерпретацию этих экспериментов. Здесь мы предлагаем и оцениваем подход к поиску функциональных ассоциаций между большим числом генов и другими биомедицинскими понятиями из литературы свободного текста. Для каждого гена создается профиль связанных понятий, который суммирует контекст, в котором ген упоминается в литературе. Мы определяем вес каждого понятия в профиле на основе меры отношения правдоподобия. Затем профили генной концепции могут быть сгруппированы для поиска связанных генов и других понятий.

Экспериментальная проверка проводилась в два этапа. Сначала мы применили наш метод на контролируемом тестовом наборе. После того, как это оказалось успешным, наборы данных из двух экспериментов с микрочипом ДНК были проанализированы таким же образом, и результаты были оценены экспертами домена. Первым набором данных был профиль генной экспрессии, который характеризует раковые клетки группы пациентов с острой миелоидной лейкемией. Для этой группы пациентов биологический фон раковых клеток в значительной степени неизвестен. Используя нашу методологию, мы обнаружили связь этих клеток с моноцитами, что согласуется с другими экспериментальными данными. Второй набор данных состоял из дифференцированных экспрессируемых генов после стимуляции андрогенных рецепторов в клеточной линии рака предстательной железы. На основе анализа мы выдвинули гипотезу о биологических процессах, индуцированных в этих изученных клетках: секреторные лизосомы участвуют в производстве предстательной жидкости, а их развитие и / или секреция являются андроген-регулируемыми процессами.

Наш метод может быть использован для анализа наборов данных микрочипов ДНК на основе информации, явно и неявно доступной в литературе. Для этой цели мы предоставляем общедоступный инструмент, получивший название Anni.

Результатом экспериментов с высокой пропускной способностью, таких как эксперименты с микрочипами ДНК, как правило, является список сотен генов, которые могут иметь отношение к изучаемому явлению. Необходим дальнейший анализ, чтобы связать гены с соответствующими биологическими процессами и определить потенциально интересные отношения между генами. В первые дни анализа данных микрочипов ДНК извлечение необходимой информации о генах зависело исключительно от исследователей, получавших информацию из огромного корпуса научной литературы. В настоящее время широко признана потребность в вычислительной поддержке при интерпретации высокопроизводительных экспериментов.

Однако большая часть знаний о генах и белках блокируется в неструктурированном свободном тексте и не может использоваться непосредственно в вычислительных системах. Чтобы сделать эти знания более доступными, появилось несколько баз данных, которые предлагают структурированную информацию о генах и белках. Эти базы данных являются либо общедоступными, например. базы данных, предлагаемые проектом аннотации генной онтологии (GOA) [1] и проектом Киотской энциклопедии генов и геномов (KEGG) [2] или корпоративным, например, как было сделано GeneGO [3] и Ingenuity [4]. В значительной степени эти базы данных заполняются вручную закодированной информацией, созданной экспертами, читающими научную литературу. Ручная кодировка обычно считается надежным методом извлечения информации из литературы, но из-за ее трудоемкого характера она ограничена по охвату и гибкости. В дополнение к ручному кодированию в настоящее время проводятся исследовательские работы по разработке текста: разработка компьютеризированных алгоритмов для извлечения информации из научной литературы [5]. Автоматизированные методы имеют преимущество скорости и приспособляемости, с непростым обязательством достичь как высокой точности, так и отзыва.

В текстовой разработке можно выделить два подхода. Один из подходов сосредоточен на извлечении явных прямых связей между генами и другими биомедицинскими концепциями. Ранние предлагаемые системы для этой задачи были основаны на совпадении терминов в текстах [6,7]. В настоящее время грамматическая структура предложения, как правило, используется для задачи разработки полезных ископаемых, а также разработано множество разнообразных методов. Эти методы варьируются от обнаружения простых паттернов, таких как «белок A — действие X — белок B» [8,9], до полного анализа целых предложений [10,11]. Другой подход ориентирован на идентификацию косвенных ассоциаций между понятиями, такими как гены. Например, можно обнаружить, что два гена имеют ассоциацию, потому что они описаны в отдельных статьях для участия в одном и том же биологическом процессе. Чтобы получить такие непрямые ассоциации, сравниваются явные прямые ассоциации генов. В этом подходе синтаксические структуры обычно игнорируются, и в игру вступают только статистика вхождений и совпадений слов или терминов в тексте.

Здесь мы остановимся на втором подходе. Для анализа данных микрочипов ДНК были разработаны несколько методов, основанных на совместном использовании. GEISHA [12] взяла кластер генов из анализа данных микрочипов ДНК. Система аннотировала этот кластер с наиболее дискриминантными терминами, а также извлекала соответствующие совпадения, предложения и рефераты. Система была основана на словах, но автоматически определяла общие словосочетания и рассматривала их как единые понятия. Shatkay et al. [13] использовал документ ядра для представления гена и использовал этот документ для извлечения набора похожих документов. Был составлен список ключевых слов для суммирования повторяющейся темы в наборах найденных документов генов. Впоследствии гены были связаны друг с другом путем сравнения наборов извлеченных документов генов. Raychaudhuri et al. [14] проанализировал список генов путем определения кластеров генов, которые показывают «функциональную когерентность» в соответствии с их литературной мерой соседства. Мы ввели ассоциативное пространство понятий (ACS) [15] в качестве помощи для поиска ассоциаций между генами для анализа данных микрочипов. Алгоритм позиционировал понятия в итеративном процессе в виртуальном пространстве, основанном на информации о совпадении. Идея ACS заключается в том, что концепции, которые расположены близко друг к другу, будут с большей вероятностью разделять фактические семантические отношения, а визуализированная ACS разрешает просмотр ассоциаций между концепциями, которые являются интуитивно привлекательными. Несколько авторов [16-20] использовали модель векторного пространства, в которой ген представлен с помощью вектора, который характеризует набор текстов, связанных с геном. Методы варьировались в свойствах или размерах вектора. Chaussabel и Sher [17] использовали простой основанный на словах подход для создания списка совпадающих слов для каждого гена. Для анализа списка генов они попытались выявить интересные закономерности совпадения путем кластеризации как генов, так и совпадающих слов. Glennison и др. [16] использовали понятия из тезауруса как функции и идентифицировали термины в текстах, относящихся к понятиям тезауруса. Они использовали пять тезаури для получения разных представлений об ассоциациях гена и использовали кластеризацию для поиска генов с аналогичными профилями из списка генов. Другие использовали методы факторизации для уменьшения высокой размерности, возникающей при использовании слов или понятий в качестве функций: Küffner et al. и Homayouni et al. используемое разложение сингулярных значений [18,19] и Chagoyen et al. используемая неотрицательная матричная факторизация [20]. Утверждение состоит в том, что уменьшение размерности таким образом приводит к более надежным данным. Анализ, который менее чувствителен к разреженным и шумным данным [20].

С точки зрения пользователя, нынешние подходы оставляют несколько невыполненных требований. Например, методы ACS и Raychaudhuri страдают от недостатка прозрачности, то есть пользователь не будет легко понимать, как программы приходят в их ассоциации, что важно знать в реальных условиях исследований. Прозрачность также поставлена ​​на карту при использовании факторизации в подходах к векторному пространству, поскольку неясно, что означают новые определенные измерения или даже имеют ли они семантическую интерпретацию вообще. Методы, описанные Гленнисоном и Шоссабелем и Шер, прозрачны, но используют эмпирические методы для взвешивания понятий, которые имеют проблемные статистические свойства (см. Раздел «Обсуждение» для получения дополнительной информации). Кроме того, было бы желательно, чтобы пользователь имел больше контроля над тем, какие понятия или слова используются для вычисления ассоциации, чем это возможно в упомянутых подходах.

Наша цель в этой статье — создать текстовую систему для интерпретации списков генов, полученных из данных микрочипов ДНК, которые являются прозрачными. Кроме того, в отличие от многих ранее опубликованных систем интеллектуального анализа, мы будем применять систему к актуальным исследовательским проблемам в сотрудничестве с молекулярными биологами. Предлагаемый нами подход находит ассоциации между генами с помощью концептуальной (ко-) статистики возникновения и использует модель векторного пространства, аналогичную Glennison et al. [16]. Для каждого гена мы генерируем вектор весов, который мы называем профилем понятия. Особенностями в концептуальном профиле являются концепции тезауруса, которые характеризуют набор документов, связанных с геном. Концепция тезауруса представляет собой сущность с определением и набор терминов, которые используются в текстах, для обозначения концепции. Каждой концепции также присваивается семантический тип, такой как «болезнь» или «ген». Набор понятий, используемых в профилях концепции, фильтруется семантическим типом с использованием пользовательского семантического фильтра. Важной проблемой является выбор меры для взвешивания ассоциации концепции в профиле. Вес должен различать понятие, которое происходит случайно через концепцию интереса и концепцию с семантически интересной ассоциацией. Имея это в виду, мы приняли основанный на тестах метод, основанный на коэффициентах правдоподобия [21], который был успешно использован для идентификации интересных коллокаций [22]. По сравнению с другими основанными на тестах методами коэффициент правдоподобия не требует, чтобы данные имели нормальное распределение и, как известно, дают хорошие результаты даже на небольших образцах. Мы разработали программу Anni для работы с профилями концепции. С помощью этой программы гены, связанные с подобными темами в литературе, идентифицируются иерархической кластеризацией соответствующих профилей генной концепции. Анни обладает высокой степенью прозрачности. Он предоставляет каждому идентифицированному кластеру Anni мера согласованности, а также p-значение, чтобы проиллюстрировать, насколько исключителен кластер, и полную аннотацию базового перекрытия профилей концепций. Кроме того, ссылка на основные тексты предоставляется для всех ассоциаций в профилях концепции. Программа доступна бесплатно.

Мы оценили этот метод в два этапа. Во-первых, мы представляем оценку на основе контролируемого набора тестов и сравниваем его с нашим ранее опубликованным алгоритмом ACS [15]. Во-вторых, мы даем систематический анализ данных из двух экспериментов с микрочипом ДНК и оцениваем результаты вместе с экспертами в области.

Метод профиля концепции и ACS сравнивались на основе контролируемого набора тестов, как описано ранее [15]. Набор тестов был составлен путем объединения пяти групп генов, которые имеют биологическую взаимосвязь: активность шаперона (7 генов), гликолиз (6), рак молочной железы (9), сперматогенез (15) и лизосома (10). Таблица со всеми 47 генами приведена в дополнительном файле 1. Для каждого гена методы оценивались по их способности различать членов группы и членов негруппы. Кривые рабочих характеристик (ROC) были построены для каждого гена, а площадь под кривой ROC (AUC) предоставила оценочную меру. Как видно из рисунка 1, метод профиля концепции имеет высокие оценки AUC для 4 из 5 групп генов. Он значительно превосходит ACS в 2 из 5 групп и имеет более высокие медианные баллы для других групп. В целом, взяв гены из всех групп вместе, метод профиля концепции значительно превосходит ACS (p <0,05). Как обсуждалось в [15], плохая оценка для группы шаперонов вызвана недостаточной ссылкой в ​​литературе на эту функцию. Мы изучили с Anni концептуальные профили каждой группы генов и искали ранжирование концепции, которая характеризует общую биологическую ассоциацию группы. В аннотации соответствующей группы понятие «грудные новообразования» было ранжировано первым, «лизосома» заняла второе место, второе - «сперматогенез», «молекулярные шапероны» и «гликолиз» - пятый. Все группы, за исключением шапероновой группы, имели значительную оценку сцепления (p <0,05).

Область под оценкой кривой для отдельных генов в группе для метода концептуального профиля (открытые ящики) и ACS (открытые круги). Звездочка над группой указывает, что разница в производительности двух методов статистически значима (на уровне 0,05).

Основываясь на профилях генной экспрессии лейкозных клеток, 285 пациентов с острой миелоидной лейкемией (ОМЛ) были разделены на 16 групп [23]. Некоторые из этих групп совпадали с известными классами больных ОМЛ. Дела AML классифицируются по наличию геномных аберраций в лейкемических клетках. Согласно докладу, группа 5, одна из более крупных групп с 61 пациентом, не ассоциируется с известной кариотипической аномалией, и мало что известно на фоне лейкемических клеток в этом кластере [23]. Набор генов, которые характеризуют эту группу пациентов, анализировали с помощью кластеризации на основе литературы, предоставленной Anni. Мы стремились найти общие процессы и другие ассоциации, которые могли бы быть показательными на фоне лейкемических клеток.

Всего было найдено 42 кластера генов для 992 генов в группе пациентов 5 (полный анализ Анни включен в качестве дополнительного файла 2). Основываясь на этой аннотации, мы выдвинули гипотезу об ассоциации группы пациентов 5 с моноцитами по следующим основаниям: было обнаружено, что в фагоцитоз участвуют два кластера генов: кластер катепсинов и кластер, связанные с респираторным всплеском. Из катепсинов CTSS, CTSB и CTSL участвуют в представлении антигена на поверхности клеток из моноцитарной линии [24,25]. Дыхательный всплеск — это процесс, характерный для подтипа клеток крови, называемых фагоцитами. Из группы фагоцитов мы можем исключить гранулоциты, поскольку мы идентифицировали кластер, связанный с основным комплексом комплексной гистосовместимости класса 2 (MHC II). Наличие MHC II является отличительным фактором между типами миелоидных клеток, которые отсутствуют у нейтрофилов, базофилов и эозинофилов [26]. Это оставляет нас с моноцитами.

Также в нескольких других кластерах были обнаружены, что гены имеют связь с моноцитами в их концептуальном профиле. Некоторые из этих генов действительно имели функциональные связи с моноцитами. Кластер хемокинов и хемокиновых рецепторов связан с хемотаксисом и макрофагами, воспалительными белками. Из этого кластера CCR1 и CCR2 участвуют в хемотаксисе моноцитов [27]. Кластер, связанный с антигенами, содержал гены кластерной дифференциации, а CD14 — специфический маркер линии моноцитов. В кластере иммунологических рецепторов содержалось несколько генов, сильно связанных с моноцитами. Один из них, LILRB4 (ILT3), является молекулой клеточной поверхности, избирательно выраженной миелоидными антигенными представляющими клетками моноцитарной линии [28]. Поскольку мы не обнаружили кластеров, характерных для других типов миелоидных клеток, таких как предшественники эритроцитов, мы постулируем, что группа 5 пациентов с AML связана с клетками-предшественниками из моноцитарной линии.

В оригинальной работе Valk et al. [23] морфологические характеристики лейкемических клеток были представлены с помощью широко используемых 8 подтипов французско-американской-британской (FAB) системы классификации. Используя эту классификацию, мы можем проверить, соответствует ли наш постулат появлению ячеек. В исследовании группа пациентов 5 содержала образцы с подтипами FAB M4 или M5. Образцы с классификацией M4 содержат клетки, которые показывают гранулоцитарное или моноцитарное созревание, а у пациентов с M5 клетки классифицируются как монобластные или моноцитные.

Наконец, мы проверили наличие указанных генов и кластеров в других группах пациентов (табл. 1). Существует значительное совпадение с группой пациентов 9, но не с другими группами. Согласно оригинальной статье, группа 9 действительно также состоит из смеси классификаций FAB M4 и M5.

Возникновение специфических кластеров моноцитов в группах пациентов.

* Катепсины группы 12 включают 1 отрегулированный и 2 регулируемых гена.

Верхняя половина таблицы показывает группам пациентов наличие кластеров генов, которые обсуждались для группы пациентов 5. Несколько групп пациентов не показаны, поскольку анализ SAM дал лишь очень мало отличительных генов. Указывается размер кластеров, а стрелки указывают, регулируются ли гены вверх или вниз. Нижняя половина таблицы показывает наличие генов, которые обсуждались в тексте.

Во втором эксперименте по оценке данных микрочипов мы использовали Анни для анализа списка из 221 дифференциально экспрессируемых генов, измеренных с помощью микрочипа ДНК, после агонистической стимуляции андрогенового рецептора в клеточной линии рака предстательной железы. Андрогенный рецептор является транскрипционным фактором, активированным андрогеном тестостероном и дигидротестостероном, и отвечает за развитие и поддержание функции нормальной простаты и роста рака предстательной железы на ранней стадии [29]. Полная аннотация упомянутого списка генов приведена в дополнительном файле 3.

Самый узкий кластер генов состоит из генов RAB27A, RAB27B, MYRIP и MLPH, см. Рисунок 2 и имеет средний косинус 0,57, что указывает на очень сильную корреляцию внутри кластера. В таблице 2 мы покажем, какие концепции вносят наибольший вклад в этот средний коэффициент косинуса. В основе этого списка лежат четыре концепции генов, из которых следует, что эти гены регулярно публикуются совместно. Другими известными понятиями являются несколько связанных с миозином концепций, понятия меланосомы и меланоциты, а также концепции экзоцитоза и секреторные везикулы. Согласно определениям лексики MeSH: Myosin Type V участвует в транспорте органелл и мембранном таргетинге. Меланосомы — меланинсодержащие везикулы, обнаруженные в меланоцитах, и они участвуют в пигментации кожи. Концепции экзоцитоза и секреторные везикулы связаны с клеточным высвобождением материала с ограниченными мембраной везикулами. При ручной проверке литературы, связанной Анни с четырьмя генами, мы проверили, что гены действительно вовлечены в один и тот же процесс, и их биологическая активность согласуется с вычисленной аннотацией: все гены связаны с транспортом меланосом до поверхности клетки путем взаимодействия с миозиновым типом V [30-32]. Конечно, пигментация в предстательной железе отсутствует, но то, что быстро становится очевидным из литературы, состоит в том, что эти гены более широко используют свою активность в секреторных лизосомах, из которых меланосомы являются лишь одним примером [33]. Секреторными лизосомами являются модифицированные лизосомы, которые могут перейти к регулируемой секреции в ответ на внешние раздражители, особую роль для RAB27A [30,33,34]. Термины, связанные с лизосомальной обработкой, также являются частью аннотации, но не показаны в таблице 2, поскольку их вклад был ниже 0,5%.

Понятия, представленные для кластера RAB27B, MYRIP, MLPH, RAB27A, как указано Anni.

В первом столбце показаны названия концепций, во втором — процентный вклад этого понятия в средний коэффициент косинуса (0,57) этой группы. Мы ограничили количество понятий вкладом 0,5% в средний коэффициент косинуса. Остальные столбцы показывают вес концепций в концептуальных профилях генов, имена которых показаны в заголовках столбцов. Эти веса составляют основу кластеризации 4 генов.

Фрагмент иерархического кластерного дерева и тепловой карты на основе концептуальных профилей для генов, дифференцированных по выражению после агонистической стимуляции андрогенового рецептора. Подчеркивается жесткий кластер, связанный с меланосомами.

Секреторные лизосомы могут играть свою роль в основной функции предстательной железы: производстве и секреции простатической жидкости. Некоторые из веществ, обнаруженных в предстательной жидкости, указывают на роль секреторных лизосом. Некоторые из секретируемых ферментов могут быть лизосомальными; фосфатаза простаты, например, была локализована в лизосоме [35]. Альтернативно, RAB27A и связанные с ним белки могут быть вовлечены в секрецию небольших везикул, называемых простасомами. Последняя гипотеза подтверждается идентификацией белка RAB27A в простамомах методом протеома [36]. По-видимому, потенциальные роли RAB27A и секреторных лизосом в секреторных процессах предстательной железы в настоящее время еще не исследованы или не сообщаются. Семантический анализ литературы, связанный с генами, дифференциально выраженными в эксперименте с микрочипами, приводит нас к новой гипотезе о том, что секреторные лизосомы участвуют в производстве предстательной жидкости и что их развитие и / или секреция являются андроген-регулируемыми процессами.

Мы оценили метод профилирования концепции в два этапа. Во-первых, мы применили его к контролируемому набору тестов и сравнили его эффективность с результатами нашего ранее опубликованного метода ACS [15,37]. Метод профилирования концепции получил высокие медианные баллы для 4 из 5 групп в контрольном наборе тестов и выполнялся значительно лучше, чем метод ACS для 2 групп, а также в целом. Во-вторых, мы применили наш метод к актуальным исследовательским задачам и аннотировали два набора данных ДНК с микрочипом.

Первым данным, который мы проанализировали с помощью ДНК-микрочипов, был профиль экспрессии генов лейкемических клеток группы пациентов с AML, как указано в [23]. Мало что известно о фоне лейкемических клеток в этом кластере. С аннотацией Anni и основной литературой можно было идентифицировать несколько групп генов и отдельных генов в профиле, которые указывают на связь лейкемических клеток с клетками моноцитарной линии. Это было найдено в соответствии с морфологической классификацией клеток. Второй набор данных состоял из списка дифференциально экспрессируемых генов после агонистической стимуляции андрогенового рецептора в клеточной линии рака предстательной железы. Анни-аннотация выявила кластер, связанный, среди прочего, с меланосомами и секреторными везикулами. Основываясь на этом находке и основной литературе, мы сформулировали гипотезу о роли секреторных лизосом в функции простаты. Мы пришли к выводу, что Анни может быть успешно использована молекулярными биологами, изучающими массивы ДНК микрочипов в качестве инструмента для автоматического использования явной и неявной информации в литературе.

Проецируемым использованием нашего метода является анализ списков генов из высокопроизводительных экспериментов. Наш метод является полезным дополнением к текущему набору инструментов, основанному на ручных аннотации или на автоматическом соотношении, путем анализа грамматической структуры предложений. Ручные подходы, такие как проект ГОА, ограничены в фокусе и, как правило, являются неполными из-за интенсивного процесса аннотации. Например, в случае с четырьмя связанными с меланосомой генами, которые мы обсуждали, только RAB27A и RAB27B имели на момент написания руководства ручную аннотацию GOA. Для этих двух генов единственная кураторская аннотация касается их активности GTPase, хотя в Pubmed есть множество статей, описывающих другие функции, для которых существуют соответствующие концепции генной онтологии (GO), такие как «меланосома». Компьютеризированное извлечение отношений страдает от ограничения, которое необходимо обучать системам для получения конкретных отношений и сущностей. Следовательно, если алгоритм извлечения не обучен конкретному отношению, он, вероятно, пропустит его. Например, компания Ariadne Genomics построила базу данных отношений, основанную на обширном анализе естественного языка (см., Например, [38]). Они были сосредоточены на распознавании белков и малых молекул и их взаимосвязей. Для обоих субъектов на момент написания их базы данных содержится около 50 000 записей, но для биологических процессов имеется только 263 записи, которые составляют лишь часть более 10 000, признанных в ГО. Дело в том, что метод, основанный на совпадении, прост и универсален. Ассоциации могут быть получены между любыми двумя понятиями, если они могут быть распознаны в тексте. Также интерпретация ассоциаций отличается от интерпретации отношений. Сильные стороны ассоциации в концептуальном профиле концепции A количественно отражают статистическое избыточное представление понятий в текстах, в которых происходит понятие A. Следовательно, концептуальный профиль конкретной концепции можно рассматривать как взгляд на литературу, в которой упоминается понятие. Эта функция имеет ценность с точки зрения поиска информации. Использование ассоциаций также охватывает широкую сеть: извлекаются не только определенные функциональные отношения, все существенные ассоциации между сущностями извлекаются, потенциально даже те, которые не ясны авторами. Эта функция была использована для целей обнаружения знаний (см., Например, [39]).

По сравнению с другими подходами, основанными на совместном использовании, с аналогичными задачами, наш метод можно рассматривать как улучшение по нескольким пунктам:

1. Анни была разработана, чтобы быть прозрачной, то есть видно, как система приходит к ее объединениям. Прозрачность — известная проблема с ACS. ACS был разработан для целей обнаружения знаний и использует итерационный алгоритм для сопоставления понятий с многомерным пространством с использованием данных о совместном вхождении понятий в качестве входных данных. В этом пространстве расстояние между понятиями отражает силу одно- и многоступенчатых путей совместного возникновения между концепциями. При применении ACS прозрачность была проблемой для пользователей системы, так как трассировка расстояний между концепциями до основной литературы была сложной задачей. По сравнению с ACS система Anni гораздо более прозрачна: Anni обеспечивает связь с базовыми текстами для каждой ассоциации между концепциями. Система обеспечивает меру когерентности для группы генов, а также вероятность случайного появления группы. Кроме того, Анни иллюстрирует вклад конкретных понятий в меру когерентности и показывает совпадение между концептуальными профилями членов группы. Поэтому прослеживается, почему гены группируются вместе. Также можно отследить, почему определенные концепции связаны с генами, поскольку основные статьи могут быть доступны. В этом аспекте Анни также выгодно отличается, например, системами, использующими методы уменьшения размеров [18-20]. Уменьшение размеров оставляет смысл измерений неопределенным и затрудняет проверку, консультируясь с основными текстами, является ли связь между геном и измерением истинным или релевантным.

2. Мы использовали контролируемый словарь «Медицинские тематические рубрики» (MeSH) в дополнение к генному тезаурусу для определения понятий в текстах. Использование тезаурусов позволяет идентифицировать многословные концепции и сопоставление синонимов для одной и той же концепции, что уменьшает шум, вызванный изменением естественного языка. Кроме того, тезаурус отображает слова или фразы в абстрактную концепцию, тем самым связывая ее со всей информацией, доступной из других источников, связанных с этой концепцией. Например, ссылка на ген может быть связана с его последовательностью или, как показано в этой статье, семантические типы могут использоваться для фильтрации, а определения понятия могут использоваться для интерпретации. Мы использовали семантические типы, связанные с биомедицинскими концепциями, чтобы сфокусировать профили концепций в нашей области интересов. Несколько более ранних подходов не использовали тезаурус для идентификации биомедицинских концепций, отличных от генов или белков, например. [17]. Используемая нами семантическая фильтрация более точная и адаптируемая, чем использование разных словарей, как это делалось в [16].

3. Мера логарифма правдоподобия, которую мы используем для взвешивания ассоциаций между понятиями, является важной особенностью нашего подхода и имеет прочную статистическую основу. Некоторые из эмпирических подходов, описанных в литературе, обладают свойствами, которые можно считать проблематичными. Например, Glenisson et al. [16] приняла нормализованную обратную частоту документа как вес для концепции в документе. Чтобы создать вес концепции в концептуальном профиле, основанном на выбранном наборе документов, они усреднили вес концепции над множеством. Однако эта процедура способствует более часто встречающимся концепциям. Предположим, что два понятия в большом наборе документов происходят со скоростями r1 и r2, причем r1 w2 в отдельных документах. При усреднении весов в данном подмножестве документов, в которых, скажем, обе концепции встречаются с одинаковыми скоростями r1 и r2, тогда отношение их первоначальных весов w1w2
 MathType @ СПР @ 5 @ 5 + = feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaadaWcaaqaaiabdEha3naaBaaaleaacqaIXaqmaeqaaaGcbaGaem4DaC3aaSbaaSqaaiabikdaYaqabaaaaaaa @ 31EE @, будет уменьшена (на коэффициент r2r1
 MathType @ СПР @ 5 @ 5 в + = feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaadaWcaaqaaiabdkhaYnaaBaaaleaacqaIYaGmaeqaaaGcbaGaemOCai3aaSbaaSqaaiabigdaXaqabaaaaaaa @ 31DA @) полученный профиль концепции. Это может привести к тому, что вес более общей концепции станет выше, чем у более редкой концепции.

Наш подход имел несколько ограничений. Во-первых, тезаурус должен был быть куратором для излишне двусмысленных концепций. Мы решили сделать это, чтобы добиться большей точности, но, особенно для генов, это уменьшит наш ретколл. Несмотря на наши усилия, мы столкнулись с небольшим количеством ошибок во время нашей оценки, вызванной многозначностью, например. с помощью генных символов, таких как «белок s», в качестве синонима для гена PROS1. Чаще всего мы сталкивались с ошибками в тезаурусе, вызванными ошибками в базовых базах данных, такими как «белок-тирозинкиназа», как синоним гена MUSK. Мы ожидаем, что наш подход будет улучшаться с помощью модуля смысловых смысловых значений, а также с прогрессивным тезаурусом. Второе ограничение в нашем исследовании — охват тезауруса. Новые концепции возникают постоянно и могут быть очень конкретно использованы небольшой группой специалистов. Следовательно, для достижения оптимальных результатов для подхода к тезаурусу необходим актуальный и специфический для домена тезаурус. Желателен более гибкий и динамичный подход к конструкции тезауруса. Третье ограничение присуще использованию совпадений для получения связей между понятиями. Соотношения между концепциями, основанными на совместном происхождении, не должны отражать фактические биологические отношения, даже если их частота совпадений намного выше уровня вероятности.

Анни применялась к контролируемому набору данных и двум наборам данных для микрочипов ДНК. Мы заключаем, что наш метод может быть использован для эффективного анализа набора данных микрочипов ДНК на основе как явной, так и неявной информации в литературе и ожидать, что наша система может быть полезна для интерпретации высокопроизводительных экспериментов.

Мы выбрали 2 585 901 рефератов с запросом Pubmed для белка или гена, упомянутого вместе с млекопитающими. Названия MEDLINE, заголовки MeSH и тезисы, если они были доступны, индексировались с использованием программного обеспечения Collexis [40,41]. В этом контексте индексирование означает идентификацию ссылок на тезаурусные концепции в тексте и отображение этих ссылок на понятия. До индексирования мы удалили стоп-слова. Все слова сопоставляются с необработанной формой, созданной нормализатором генератора лексических вариантов [42]. Тезаурус, который мы использовали для индексации, состоял из двух частей: MeSH и тезауруса человеческого гена, полученных из множества баз данных [43]. Для MeSH мы использовали семантические типы UMLS [44] для выбора понятий, которые передают соответствующую биологическую информацию о генах. Фильтр был разработан молекулярными биологами, а выбранные семантические типы приведены в дополнительном файле 4. Эта фильтрация облегчила интерпретацию профилей, а также немного увеличила производительность на нашем тестовом наборе (данные не показаны). Тезаурус генов был расширен с помощью правил перезаписи, чтобы учесть общие варианты орфографии [45]. Например, числа были заменены римскими цифрами и наоборот, а дефисы перед номерами в конце символов генов были вставлены или удалены (например, «WAF1» был переписан как «WAF-1» и добавлен как синоним). Затем потенциально очень неоднозначные термины (менее пяти символов, ни одна из них не были разряжены) были удалены, чтобы получить высокую точность распознавания генов. Также были отброшены генные символы или полные имена генов, которые ссылаются на более чем один ген в тезаурусе.

Алгоритм ACS подробно описан до [37] и был разработан для применения при обнаружении знаний. Вкратце, это алгоритм обучения типа Hebbian, который в итеративном процессе позиционирует понятия тезауруса в многомерном евклидовом пространстве. В этом пространстве размеры не принимают конкретного значения, а просто позволяют позиционировать понятия относительно друг друга. Положение понятия следует из сопоставления отношений совместного возникновения (путей) между понятиями на расстояния. Расстояние между двумя понятиями будет не только отражать совпадение двух понятий, одноэтапного отношения, но и косвенных, многоступенчатых отношений между этими двумя понятиями. Поскольку расстояние между понятиями отражает силу как одно-, так и многоступенчатых путей совпадения между концепциями, возможно, что понятия расположены близко друг к другу, которые не имеют прямого совпадения. Идея АСУ заключается в том, что мы можем постулировать в таком случае, что между этими понятиями существует фактическая связь, о которой не было сообщено в литературе.

Для построения АСУ мы использовали подборку литературы. Для набора тестов для каждого гена включаются не более 1000 случайно отобранных тезисов, в которых упоминается ген. Для ACS мы использовали векторный формат для представления документов с частотным взвешиванием частоты слов и стандартными настройками алгоритма [15].

Концептуальный профиль гена i является M-мерным вектором wi = (wi1, wi2, …, wiM), где M — количество понятий в тезаурусе. Вес wij для понятия j в этом профиле указывает на силу его связи с концепцией i. Весовые коэффициенты в концепции концепции для концепции i производятся из набора документов, в которых происходит понятие i. Для получения wij мы используем показатель отношения правдоподобия [22]. Используются две гипотезы: 1. Вероятность появления понятия j не зависит от появления понятия i; 2. Вероятность появления понятия j зависит от появления понятия i. Для каждой гипотезы вероятность рассчитывается на основе наблюдаемых данных с использованием биномиального распределения. Соотношение этих правдоподобия говорит нам, насколько более вероятна одна гипотеза по сравнению с другой, или, другими словами, насколько мы уверены в том, что существует зависимость. Особенностью коэффициента вероятности регистрации является то, что он ведет себя относительно хорошо для разреженных данных [21], что является преимуществом в нашем случае.

Следующие уравнения дают отношение правдоподобия λ понятий i и j:

λ
                  (
                  я
                  ,
                  J
                  )
                  знак равно
                  
                    
                      L
                      (
                      
                        N
                        
                          я
                          J
                        
                      
                      ,
                      
                        N
                        я
                      
                      ,
                      п
                      )
                      L
                      (
                      
                        N
                        J
                      
                      —
                      
                        N
                        
                          я
                          J
                        
                      
                      ,
                      N
                      —
                      
                        N
                        я
                      
                      ,
                      п
                      )
                    
                    
                      L
                      (
                      
                        N
                        
                          я
                          J
                        
                      
                      ,
                      
                        N
                        я
                      
                      ,
                      
                        п
                        1
                      
                      )
                      L
                      (
                      
                        N
                        J
                      
                      —
                      
                        N
                        
                          я
                          J
                        
                      
                      ,
                      N
                      —
                      
                        N
                        я
                      
                      ,
                      
                        п
                        2
                      
                      )
                    
                  
                
                
 MathType @ СПР @ 5 @ 5 @ + = feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaaiiGacqWF7oaBcqGGOaakcqWGPbqAcqGGSaalcqWGQbGAcqGGPaqkcqGH9aqpdaWcaaqaaiabdYeamjabcIcaOiabd6gaUnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaOGaeiilaWIaemOBa42aaSbaaSqaaiabdMgaPbqabaGccqGGSaalcqWGWbaCcqGGPaqkcqWGmbatcqGGOaakcqWGUbGBdaWgaaWcbaGaemOAaOgabeaakiabgkHiTiabd6gaUnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaOGaeiilaWIaemOta4KaeyOeI0IaemOBa42aaSbaaSqaaiabdMgaPbqabaGccqGGSaalcqWGWbaCcqGGPaqkaeaacqWGmbatcqGGOaakcqWGUbGBdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabcYcaSiabd6gaUnaaBaaaleaacqWGPbqAaeqaaOGaeiilaWIaemiCaa3aaSbaaSqaaiabigdaXaqabaGccqGGPaqkcqWGmbatcqGGOaakcqWGUbGBdaWgaaWcbaGaemOAaOgabeaakiabgkHiTiabd6gaUnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaOGaeiilaWIaemOta4KaeyOeI0IaemOBa42aaSbaaSqaaiabdMgaPbqabaGccqGGSaalcqWGWbaCdaWgaaWcbaGaeGOmaidabeaakiabcMcaPaaaaaa @ 7817 @

с ni и nj число документов, в которых встречаются понятия i и j, nij число документов, в которых происходят обе концепции, N — количество документов в корпусе, p = niN, p1 = nijni, p2 = nj-nijN -ni
 MathType @ СПР @ 5 @ 5 + = feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWGWbaCcqGH9aqpdaWcaaqaaiabd6gaUnaaBaaaleaacqWGPbqAaeqaaaGcbaGaemOta4eaaiabcYcaSiabdchaWnaaBaaaleaacqaIXaqmaeqaaOGaeyypa0ZaaSaaaeaacqWGUbGBdaWgaaWcbaGaemyAaKMaemOAaOgabeaaaOqaaiabd6gaUnaaBaaaleaacqWGPbqAaeqaaaaakiabcYcaSiabdchaWnaaBaaaleaacqaIYaGmaeqaaOGaeyypa0ZaaSaaaeaacqWGUbGBdaWgaaWcbaGaemOAaOgabeaakiabgkHiTiabd6gaUnaaBaaaleaacqWGPbqAcqWGQbGAaeqaaaGcbaGaemOta4KaeyOeI0IaemOBa42aaSbaaSqaaiabdMgaPbqabaaaaaaa @ 50D1 @, и L (K, L, х) = хк (1 — х) л-к. Особенностью отношений правдоподобия является то, что в 2 раза логарифм отношения правдоподобия асимптотически распределяется по χ2 [22], что может быть использовано для проверки наличия статистически значимой дивергенции от независимости. Вес понятия j в концептуальном профиле понятия i определяется следующим образом:

вес
                    
                      я
                      J
                    
                  
                  знак равно
                  
                    
                      журнал
                      ⁡
                      λ
                      (
                      я
                      ,
                      J
                      )
                    
                    L
                  
                
                
 MathType @ СПР @ 5 @ 5 @ + = feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY = wiFfYdH8Gipec8Eeeu0xXdbba9frFj0 = OqFfea0dXdd9vqai = hGuQ8kuc9pgc9s8qqaq = dirpe0xb9q8qiLsFr0 = vr0 = vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacqWG3bWDdaWgaaWcbaGaemyAaKMaemOAaOgabeaakiabg2da9maalaaabaGagiiBaWMaei4Ba8Maei4zaCgcciGae83UdWMaeiikaGIaemyAaKMaeiilaWIaemOAaOMaeiykaKcabaGaemitaWeaaaaa @ 3E6B @

L — теоретическая максимальная оценка log λ, которая получается, когда понятие всегда и только происходит вместе с понятием i. Этот фактор нормализуется для эффектов скорости появления концепции i, что удобно при сравнении весов между профилями.

Для каждого понятия, совпадающего с понятием i, мы вычислили отношение правдоподобия, но для того, чтобы понятие включалось в профиль концепции, нулевая гипотеза (появление j не зависит от появления i) должна быть отвергнута при уровень значимости 0,005. По соображениям эффективности мы включили только самые значимые понятия в максимально 200 концепций.

Связи между понятиями рассчитываются на основе концептуальных профилей с использованием оценок подобия косинуса [46].

Чтобы проанализировать список генов с помощью их концепций концепции, мы разработали «Анни». Инструмент извлекает и отображает концептуальный профиль гена и может также характеризовать любую комбинацию генов. Компонентами системы Anni являются две базы данных и веб-интерфейс графического интерфейса. Первая база данных содержит концептуальные профили для генов человека. Вторая база данных содержит индексированную литературу, лежащую в основе концептуальных профилей, которая используется в системе для идентификации документов, поддерживающих ассоциации в профиле концепции. Интерфейс предоставляет следующие функции: 1. Пользователь может указать список генов для анализа основанных на Affymetrix, Entrez Gene или Swiss-Prot идентификаторов: 2. Группы генов со схожими профилями можно найти, используя иерархическую кластеризацию. В качестве входных данных для алгоритма кластеризации мы используем для каждого гена во входном списке, косинусные оценки между концептуальными профилями этого гена и другими генами. Мы использовали среднюю иерархическую кластеризацию связей с косинусом как метрику сходства: 3. Определенному кластеру генов дана мера когерентности, среднее значение косинусов всех возможных пар внутри кластера. Чтобы оценить значимость среднего косинусового балла, мы даем вероятность того, что тот же самый балл или выше будет найден в случайно сформированной группе того же размера. Эта вероятность определялась по распределению баллов из 10000-кратной случайной выборки групп профилей генов; 4. Кластер генов характеризуется отображением относительного вклада отдельных понятий в процентах. Кроме того, показаны веса этих понятий в концептуальных профилях, что облегчает легкую оценку сходства профилей; 5. Для каждой ассоциации в профиле концепции предоставляется ссылка на основную литературу.

Для ясности единственное перекрытие между системой Anni и ACS является базой данных индексированных документов и используемого тезауруса. Помимо этого, системы не используют никакой методологии.

Для анализа списков генов стандартным образом мы использовали следующий протокол. Проанализированы все кластеры с коэффициентом косинуса более 0,15 и содержащие по меньшей мере три гена. Вероятность того, что средняя оценка косинуса была найдена случайно, должна быть <0,005. Кластер может быть разбит на более мелкие, более согласованные кластеры, если есть небольшие кластеры с различными общими функциями.

Для сравнения ACS и метода концептуального профиля мы использовали тестовый набор и процедуру оценки, как описано в [15]. Набор тестов был составлен путем объединения пяти групп генов, которые имеют биологическую взаимосвязь. Каждая группа представляла собой другой аспект биологии генов, являющийся функцией, органеллами, биологическим процессом, метаболическим путем или ассоциацией с болезнью. Учитывались только человеческие гены. Выбранными группами являются: сперматогенез, 15 генов: лизосома; 10 генов; шапероновая активность, 7 генов: рак молочной железы, 9 генов: гликолиз, 6 генов. Для оценки использовались как метод ACS, так и метод описания концепции для создания ранжирования набора генов относительно одного так называемого семенного гена. Все гены, в свою очередь, служили семенем, создавая рейтинг для каждого из 46 генов нашего набора. Для метода профиля концепции гены были ранжированы в соответствии с оценками подобия косинуса [46] между вектором профиля концепции генов и семенным геном. Связи были упорядочены случайным образом. Для ACS гены из набора были рангом упорядочены в соответствии с их евклидовыми расстояниями до семенного гена. Для каждого гена затем была построена кривая рабочих характеристик (ROC) приемника [47]. Площадь под кривой (AUC) использовалась как показатель эффективности [48]. Это значение варьирует от 0 до 1. АУК 1 представляет собой идеальное упорядочение, то есть все гены, принадлежащие к группе семенного гена, находятся в верхней части списка, за которыми следуют другие гены. AUC имеет полезное свойство, что значение 0,5 представляет случайное упорядочение [48]. Это свойство предоставляет нам, в некотором смысле, встроенный отрицательный контроль.

Чтобы определить, были ли оценки AUC значительно различались между двумя методами, мы использовали непараметрический тест на ранжированные значения Wilcoxon. Тест требует, чтобы оценки AUC генов были независимыми. Поскольку в этом случае это неверно, мы применили загрузку [49] для оценки распределения статистической статистики Wilcoxon. Мы создали 100 новых наборов генов путем отбора генов из исходного набора с заменой. Отбор проб был стратифицирован по пяти группам генов для получения групп одинакового размера, как в исходном наборе. AUC были рассчитаны для обоих методов, и для оценки разницы между двумя методами на группу генов был применен тест ранговых рангов Уилкоксона. Результаты, полученные для 100 наборов, были использованы для определения того, отличаются ли эти два метода на уровне 0,05.

Первый набор состоял из данных недавнего исследования о прогностически полезных профилях генной экспрессии в AML [23]. Измеряли экспрессию гена в лейкозных бластных клетках у 285 пациентов. Кластеризация данных экспрессии гена привела к 16 группам пациентов с различными профилями. Для каждого кластера был составлен профиль генов с наиболее отличительными образцами экспрессии генов с анализом значимости метода микрочипов (SAM). Для нашего анализа были выбраны гены с оценкой SAM выше 4 или ниже -4. Сбор и обработка данных подробно описаны в оригинальной статье.

Второй набор состоял из дифференциально экспрессируемых генов после агонистической стимуляции андрогенового рецептора в клетках рака предстательной железы. Андрогензависимую клеточную линию рака простаты LNCaP поддерживали в средах RPMI с 5% фетальной телячьей сывороткой и пенициллином / стрептомицином (Invitrogen, Merelbeke, Belgium). Перед обработкой R1881 клетки лишались андрогена в течение 72 часов в среде, содержащей 5% отфильтрованной декстраном, сырой сыворотки телячьей сыпи с углем. После лишения андрогена среду добавляли в течение 2, 4, 6 или 8 часов с использованием 1 нМ синтетического андрогена R1881 или этанольного носителя в качестве контроля. Три мкг общей РНК использовали для протокола амплификации с использованием линейной мРНК на основе Т7 [50]. Для получения Cy3- или Cy5-меченной кДНК использовали две микрограммы амплифицированной РНК. кДНК из обработанных R1881 и контрольных клеток сравнивали непосредственно путем гибридизации с одним и тем же микрочипом. Это было сделано в двух экземплярах с обратной маркировкой Cy-красителя. Микрочипы кДНК были изготовлены на Центральном объекте микрочипов Нидерландского онкологического института (NKI, Амстердам, Нидерланды) и содержали более 18 000 признаков, которые были отобраны в проверенной библиотеке исследований человеческой генетики человека (Invitrogen). Нормализацию интенсивностей пятен проводили с использованием R-подпрограмм (метод Lowess) с использованием инструментов нормировки NKR Microarray. Гены считались повышающими или пониженными по R1881, когда оба обмена красителя давали соотношение больше 1,62 (2 log 0,7) в течение по меньшей мере одного момента времени. Данные были депонированы в NCBIs Gene Expression Omnibus [51] и доступны через номер доступа GEO Series GSE4027 и GSE1159.

Ассоциация ассоциативного концептуального пространства ACS

ОМЛ-миелоидный лейкоз

Площадь AUC под кривой

FAB франко-американско-британская система классификации

Годовая онтология генов

Проект аннотации гена гена GOA

Медицинские тематические рубрики MeSH

MHC-II Основной комплекс гистосовместимости класса 2

Кривая рабочих характеристик ROC-кривой

Унифицированная система медицинского языка UMLS

RJ задумал методологию, провел эксперименты и написал рукопись. GJ и LD контролировали и внесли свой вклад в развитие Anni и вместе с PH проанализировали набор данных 2 и внесли свой вклад в рукопись. BW и RD участвовали в анализе набора данных 1. BM участвовал в составлении и критической переработке рукописи. JK задумал исследование и контролировал эксперименты и писал рукопись. Все авторы прочитали и утвердили окончательную рукопись.

Контролируемый набор тестов.

Нажмите здесь для файла

Аннотации первого набора данных микрочипов ДНК.

Нажмите здесь для файла

Обозначение второго набора данных микрочипов ДНК.

Нажмите здесь для файла

Семантические типы, используемые для фильтрации.

Нажмите здесь для файла

Мы хотели бы поблагодарить Наташу Дитса, Питера Яна Роеса и Роэля Верхаха за техническую помощь. Мы очень признательны Renske Los и Gerard van Herpen за пересмотр стиля письменного английского языка. Это исследование было поддержано Erasmus MC Breedtestrategie и Нидерландским онкологическим обществом, номер гранта DDHK 2001-2455.

Комментариев нет.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *