Нажмите "Enter", чтобы перейти к контенту

DotMapper: инструмент с открытым исходным кодом для создания интерактивных карт точек болезни

DotMapper: an open source tool for creating interactive disease point maps
Источник: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4828871/

Молекулярная деформация штаммов туберкулезных изолятов привела к более глубокому пониманию эпидемиологических характеристик заболевания и улучшению его контроля, диагностики и лечения. Однако исследования молекулярного кластера, направленные на обнаружение ранее неопознанных случаев, остаются сложными. Интерактивное сопоставление точек — это простой подход, который может помочь в исследованиях, выделяя случаи, которые могут распространять эпидемиологические ссылки. Современные инструменты обычно требуют технической экспертизы или отсутствия интерактивности.

Мы разработали гибкое приложение для создания карт точечных заболеваний с использованием Shiny, рамки веб-приложений для статистического программного обеспечения, R. Приложение отображает местоположения случаев на цветной карте интерактивной карты в соответствии с уровнями категориальных переменных, таких как демография и факторы риска. Случаи могут быть отфильтрованы путем выбора комбинаций этих характеристик и даты уведомления. Его можно использовать для быстрого определения географических моделей среди случаев в молекулярных кластерах туберкулеза в пространстве и времени; генерировать гипотезы о передаче болезни; выявлять выбросы и направлять целевые меры контроля.

DotMapper — это удобное приложение, которое позволяет быстро создавать карты, отображающие местоположения случаев и их эпидемиологические характеристики, без необходимости подготовки специалистов в географических информационных системах. Усовершенствованное понимание передачи туберкулеза с использованием этого применения могло бы способствовать более эффективному выявлению случаев с эпидемиологическими связями и, следовательно, уменьшению воздействия заболевания на здоровье населения. Это гибкая система, а также имеет широкое международное потенциальное применение в других исследованиях с использованием геокодированной медицинской информации.

Онлайн-версия этой статьи (doi: 10.1186 / s12879-016-1475-5) содержит дополнительный материал, доступный для авторизованных пользователей.

Картирование является важным шагом в исследованиях эпидемиологических заболеваний. Тщательное рассмотрение пространственных местоположений дел на карте может привести к расследованию вспышек инфекционных заболеваний; выделить важные отношения между случаями, включая кластеры, определенные методами молекулярной типизации; генерировать гипотезы о передаче и управлять мерами контроля [1]. Карты предоставляют легко понятные средства представления данных в контексте, которые не так легко выводятся из таблиц данных или письменных отчетов, могут быть использованы как легко в настройках с высоким и низким уровнем дохода, а также могут быть мощным инструментом для пропаганда.

Например, карты Dot представляют собой простую форму визуализации пространственных данных, которая может использоваться при предварительном исследовании данных и может мотивировать более формальный статистический кластерный анализ. Эти карты отображают местоположение случаев и могут быть закодированы цветом для передачи информации о таких категориальных переменных, как демография и факторы риска. Получение точечных карт для разных периодов времени может описывать прогрессирование заболевания в пространстве и времени; и в том числе данные о контекстных местоположениях, таких как потенциальные места передачи, могут помочь генерировать гипотезу.

Несмотря на эти широкие применения, это относительно простое средство визуализации данных редко используется в режиме реального времени во время исследований вспышек заболеваний [1]. Одним из препятствий, препятствующих регулярному производству точечных карт, является отсутствие гибкости в доступных в настоящее время инструментах, то есть возможность быстрого изменения количества отображаемых случаев и выделенных функций. Специализированное картографическое программное обеспечение также часто является дорогостоящим, и для его работы может потребоваться обученный персонал. Вопросы конфиденциальности также важны при использовании данных о местоположении пациентов, которые могут ограничить применение этого подхода в зависимости от местных процедур управления информацией. Таким образом, новый инструмент, который облегчил бы создание гибких интерактивных карт точек с удобным интерфейсом, был бы полезен в организациях с соответствующим этическим одобрением для опроса географической информации.

Примером потенциального применения точечного картографирования является исследование случаев туберкулеза, которые связаны путем набора текста с использованием молекулярных штаммов. В Соединенном Королевстве в 2010 году было введено стандартное типирование молекулярных штаммов с помощью микобактериальных перекрестных повторных единиц — вариационное число тандемного повторения (MIRU-VNTR). Это привело к более глубокому пониманию эпидемиологических характеристик заболевания и улучшению его контроля и диагностики. Например, сравнение изолятов, взятых у индивидуумов в разные моменты времени, позволило оценить относительную важность реинфекции и реактивации заболевания [2]. Идентификация случаев, инфицированных неразличимыми типами штаммов, также использовалась для демонстрации или опровержения активной передачи между индивидами и для выяснения факторов риска передачи [3]. Тем временем мониторинг типов штаммов, находящихся в обращении на региональном или национальном уровне, позволил оценить эффективность программ контроля и анализ глобальной эпидемиологии заболевания [4]. Последовательность цельного генома будет дополнительно увеличивать степень разрешающей способности штаммов, поскольку его использование становится более распространенным [5].

Однако значение информации о типе штамма для исследования молекулярных кластеров туберкулеза было менее ясным. Молекулярные «кластеры» представляют собой группы случаев, которые имеют неразличимый тип молекулярного штамма и поэтому могут быть частью одной и той же цепи передачи. Кластерные исследования направлены на снижение воздействия общественного здравоохранения путем выявления и диагностики ранее неидентифицированных латентно инфицированных и активных случаев туберкулеза в этих цепях [6]. С января 2010 года по декабрь 2013 года 81% (16 602) изолятов для подтвержденных культурой случаев в Соединенном Королевстве были штаммом, напечатанным, по меньшей мере, для 23 локусов [7]. Более половины (8 890) из этих случаев делят тип штамма по меньшей мере с одним другим случаем и поэтому классифицируются как часть молекулярного кластера. Было идентифицировано в общей сложности 1854 различных молекулярных кластера, и первоначальные рекомендации потребовали проспективного исследования всех кластеров, которые соответствовали определенным пороговым значениям [3]. Оценка услуги в 2013 году не показала, что рутинное кластерное расследование на основе этих критериев было эффективным или экономически эффективным, и поэтому оно было прекращено [8]. В текущих рекомендациях утверждается, что местные исследования молекулярных кластеров должны проводиться, если сочтет это целесообразным специалистами общественного здравоохранения [3]. Поэтому новые инструменты были бы полезны, если бы они могли помочь в этом процессе, как в Великобритании, так и на международном уровне, выделив молекулярные кластеры, которые могут поделиться эпидемиологическими связями [1].

Исследование кластеров туберкулеза посредством точечного картирования может быть реализовано относительно легко, когда сохраняются национальные регистры случаев, которые включают географические данные. ВОЗ рекомендует собирать географическую информацию на адресном уровне в электронных регистрах случаев заболевания туберкулезом [9], а многие страны, включая Соединенные Штаты и не менее 23 в Европе, также собирают данные о типизации данных на регулярной основе [10, 11]. Например, в Соединенном Королевстве система расширенного контроля над туберкулезом (ETS) включает в себя информацию на уровне кода для всех случаев в дополнение к обычным данным для набора данных о молекулярном напряжении. Это означает, что случаи могут быть построены с высокой степенью точности и связаны с другими случаями с одинаковым типом молекулярного напряжения.

Географические информационные системы (ГИС) — это базы данных, предназначенные для ввода, управления, анализа и отображения данных с географической привязкой [12]. Одной из наиболее часто используемых ГИС в эпидемиологии является ArcGIS / ArcView, коммерческий пакет со многими функциями, начиная от производства простых точечных карт и заканчивая сложными анализами с использованием пространственной статистики [13]. QGIS — это альтернатива ArcGIS с открытым исходным кодом, которая разделяет некоторые из тех же функций [14]. Тем не менее, обе эти программы требуют определенной технической поддержки, даже если желаемые результаты относительно просты.

Легкие приложения, предназначенные для одной функции, могут стать привлекательной альтернативой широким пакетам ГИС в некоторых случаях. Например, SaTScan — это программа, используемая для выполнения статистики пространственного сканирования для определения значительной кластеризации в данных [15], а Европейский центр по предотвращению заболеваний и контролю Map Maker (EMMa) — это онлайн-инструмент, используемый для создания карт данных на уровне области [16]. Обе эти программы могут свободно использоваться, иметь простые требования к данным и избегать необходимости вручную обрабатывать геопространственные данные. Аналогичное приложение для создания точечных карт было бы полезно для поддержки расследований заболеваний или расследований вспышек.

Мы предлагаем приложение для интерактивного точечного сопоставления для помощи в проведении исследований эпидемиологических заболеваний путем составления планов размещения случаев и связанных с ними характеристик. Инструмент должен быть прост в эксплуатации без специального обучения ГИС, допускать гибкий ввод данных и не требовать загрузки информации, идентифицируемой пациентом, в Интернет. Он также должен быть написан с использованием программного обеспечения с открытым исходным кодом и свободно доступен для загрузки из репозитория для дальнейшей разработки или настройки.

Здесь мы описываем наше решение, DotMapper и демонстрируем его возможности и потенциальное использование с тематическим исследованием, основанным на молекулярных кластерах туберкулеза в Лондоне, полученных из ETS. Представленные данные основаны на характеристиках реальных кластеров (например, широких шаблонах в пространстве и времени), но анонимны, изменяя точные характеристики, включая демографические данные, факторы риска и пространственные местоположения.

Инструмент интерактивного сопоставления был реализован с использованием Shiny — структуры веб-приложений для статистического программного обеспечения R [17, 18]. Блестящие приложения особенно полезны для опроса конфиденциальных данных, поскольку они обеспечивают интерактивный пользовательский интерфейс, но выполняются локально и, следовательно, не требуют загрузки информации в Интернет. Интерактивное сопоставление было включено с помощью листового пакета R для библиотеки javascript с тем же именем [19]. Основы базовой карты в приложении предоставляются OpenStreetMap, свободной, редактируемой картой мира, позволяющей визуализировать данные, которые будут доступны без ограничений авторского права [20]. Очки автоматически кодируются цветом в соответствии с уровнями категориальных переменных, используя пакет RColorBrewer для выбора цветовых палитр, подходящих для картографии [21].

Дополнительные возможности приложения включают в себя необязательное геокодирование почтовых индексов или названных географических местоположений с использованием пакета g ggmap [22]; построение эпидемических кривых с использованием пакетов ggplot2 и epitools [23, 24] и сводную таблицу данных, сравнивающую характеристики выбранного кластера со всем набором данных. Дизайн приложения был вдохновлен интерактивной визуализацией SuperZip от RStudio [25].

Приложение отображает данные двух типов: случаи (например, местоположения пациентов и связанные с ними характеристики) и, необязательно, места (например, другие интересные места, такие как клиники или потенциальные источники инфекции). Приложение было разработано максимально гибким, чтобы обеспечить быструю печать данных, собранных из разных систем наблюдения или обследований, хотя есть некоторые требования: данные должны быть импортированы в виде CSV-файла .txt или .xls. в R в «широком» формате, по одному ряду на человека; должен быть уникальный идентификатор для каждого отдельного случая, места проведения и группировки случаев; и категориальные переменные, используемые для точек цветового кодирования, должны быть первыми столбцами данных. Приложение было разработано главным образом для отображения групп дел на местном уровне, но оно было протестировано с данными, содержащими до 20 000 отдельных мест.

Скрипты, необходимые для запуска DotMapper, предоставляются в качестве дополнительных файлов с этой статьей. Их также можно загрузить из репозитория GitHub (https://github.com/cathsmith57/DotMapper), который дополнительно содержит руководство пользователя, примеры данных и ссылку на рабочую демонстрацию приложения.

Здесь мы описываем основные функции приложения и иллюстрируем их полезность посредством тематического исследования.

Основной вывод приложения — интерактивная карта. Мы включаем три коротких видеоролика в качестве дополнительных файлов, которые демонстрируют интерактивный анализ приложения, и более подробно рассматриваются в приведенном ниже примере. По умолчанию на карте отображаются местоположения корпусов с цветовой кодировкой в ​​соответствии с первой категориальной переменной в наборе данных. Включение или выключение местоположений контекстных мест. Карта может быть развернута и увеличена, чтобы исследовать данные, и щелчок по случаям или местам создает всплывающее окно, отображающее дополнительную информацию. Приложение может использоваться для построения только одной группы случаев, например, в ситуации вспышки, или для загрузки нескольких групп и сравнения их характеристик. Выпадающие меню используются для выбора группы для отображения; для фильтрации групп по размеру, если это необходимо, и для изменения отображаемой переменной.

Отмеченные случаи также могут быть отфильтрованы путем интерактивного выбора подмножеств данных: ползунок диапазона дат предоставляется для выбора случаев в любой период времени в соответствии с их датой уведомления, а выбор «Подмножество» облегчает отображение случаев, которые удовлетворяют выбранным комбинациям характеристик категориальных переменных , Кнопка «Сброс групп» возвращает дисплей для отображения всех случаев.

На других вкладках приложения отображается сводная таблица данных и кривая эпидемии. В таблице данных представлено количество и процент случаев в группе в соответствии с каждой категориальной переменной. Если в данные включены несколько групп, они также отображают итоговые значения и проценты для всех случаев, которые могут использоваться для оценки того, отражают ли модели в выбранной группе общую эпидемиологию заболевания. Случаи строятся как функция времени с использованием эпидемической кривой. Временные периоды, в которых эти случаи группируются в эпидемической кривой, могут переключаться между днями, неделями, месяцами, кварталами и годами, в зависимости от конкретного исследуемого заболевания.

В этом тематическом исследовании представлены данные из трех примеров молекулярных кластеров туберкулеза (обозначенных c1, c2 и c3) с использованием измененных и анонимных данных той же структуры, что и в системе ETS.

Дополнительный файл 1 показывает все случаи в молекулярном кластере c1, отображаемые этнической группой. На северо-востоке города есть заметная группа случаев, относящихся к пакистанской этнической группе, в то время как случаи других этнических групп, по-видимому, более разбросаны. Отображение только случаев в первый месяц кластера показывает, что первоначальные случаи были все в этой пространственно ограниченной группе пакистанской этнической принадлежности, и кластер стал более разбросанным и затронул различные этнические группы в последующие месяцы. Эта визуализация может использоваться для генерации гипотез о передаче и потенциально выделять упущенную возможность раннего контроля в целевой популяции: штамм, по-видимому, передавался среди отдельной группы населения, прежде чем распространяться в обществе более широко.

Оценка молекулярного кластера c2 демонстрирует использование этого инструмента в адресных вмешательствах для конкретных групп риска (дополнительный файл 2). Расположение случаев в этом кластере отображается в зависимости от того, есть ли у них история бездомности, а также показаны места предоставления убежища. По всей видимости, существует связь с бездомностью в южных центральных районах Лондона. Таким образом, приют на юге города может быть подходящим фокусом для вмешательств, таких как скрининг мобильным цифровым блоком скрининга, поиск и лечение [26].

В дополнительном файле 3 показан молекулярный кластер c3, состоящий из людей в узком географическом кластере в северных центральных районах города, около половины из которых родились в Соединенном Королевстве и в возрасте от 20 до 40 лет. Эпидемическая кривая показывает, что эти все случаи происходили в течение пяти кварталов, число которых в последнее время увеличивалось, что указывает на возможность контроля.

Это приложение разработано главным образом для использования на локальных машинах в однопользовательском контексте. Мы предполагаем, что сотрудники общественного здравоохранения и сотрудники эпиднадзора во всем мире используют приложение для опроса наборов данных без необходимости удалять личную идентификационную информацию из безопасных систем. Приложение может также использоваться исследователями с соответствующими правами доступа к данным. Установка программного обеспечения и его зависимостей может стать проблемой для некоторых пользователей, которые менее знакомы с R, поэтому мы предлагаем распространять через существующие сети локального программного обеспечения «чемпионы».

Гибкость этого инструмента позволяет расширить возможности для будущих разработок. В его текущей форме можно построить набор данных с любым количеством категориальных переменных. Тем не менее, полезные варианты инструмента с адаптацией к конкретным наборам данных могут быть полезны. Например, пользователи могут захотеть настроить категории, в которые разделяются непрерывные переменные, добавлять дополнительную информацию в всплывающие окна, масштабировать размер точек для представления нескольких случаев или изменять информацию, отображаемую в таблице. Такие разработки могут использоваться локально или совместно с профессиональными сетями через онлайн-репозиторий.

Более продвинутые пользователи могут также расширить приложение, используя другие функции библиотеки Leaflet, которые не реализованы в базовой версии инструмента, такие как добавление данных области с помощью полигонов, наложение изображений, включение перетаскивания маркеров или использование альтернативных базовых карт. Пример одного такого расширения, наложенного на поверхность риска, известную как географический профиль [27], демонстрируется на странице https://github.com/cathsmith57/geoprofileShiny.

Это приложение позволяет быстро и интерактивно отображать точечные случаи болезни. Он предназначен для использования в качестве средства для должностных лиц общественного здравоохранения для визуализации и допроса географически привязанных данных без необходимости специализированных специалистов в области пространственной эпидемиологии. В контексте исследования молекулярных кластеров туберкулеза мы продемонстрировали легкость, с которой данные, представленные на карте, могут быть использованы для определения закономерностей как в пространстве, так и во времени; использоваться для генерации гипотез о путях передачи заболеваний; выявлять случаи, представляющие интерес для будущих исследований, и определять возможные меры контроля.

Приложение также может быть использовано для лучшего понимания туберкулеза в более общем плане. Например, сравнение характеристик случаев в молекулярных кластерах с некластеризованными случаями может помочь объяснить, почему некоторые штаммы приводят к крупным вспышкам заболевания. Случаи, которыми управляет конкретная клиника, или лиц с множественной лекарственной устойчивостью, в отличие от совместного использования определенного типа молекулярного штампа, также могут быть нанесены на график, чтобы помочь в оценке нагрузок к корпусу. Например, процесс обзора когорт, используемый в Соединенных Штатах и ​​Соединенном Королевстве, предусматривает регулярную оценку каждого случая туберкулеза [28, 29]. Оценка карт случаев экспертами, имеющими местные знания, может определять потенциальные объекты передачи, например, приюты для бездомных или места, связанные с употреблением наркотиков. Это может привести к таргетингу на меры контроля, такие как отслеживание контактов и скрининг.

Хотя мы сосредоточились на примере туберкулеза здесь, инструмент легко адаптируется к любым геокодированным медицинским данным в любой обстановке. Потенциальное использование включает в себя исследование вспышек желудочно-кишечного тракта с подозрением на пищевое происхождение, для которого отображение продовольственных точек, поскольку контекстные местоположения могут быть информативными, и выдержки из онлайн-опросов, используемых для сбора информации о случаях, могут быть импортированы в приложение с минимальной обработкой данных. Приложение может также использоваться для информирования о таргетинге вмешательств при вспышках инфекций, передаваемых половым путем. В этих ситуациях способность фильтровать случаи с определенными характеристиками, например, в соответствии с сексуальным поведением, может быть особенно полезна. Комиссары служб по неинфекционным заболеваниям также могут найти применение в выявлении районов, которые в наибольшей степени нуждаются в услугах, путем сопоставления мест заболеваний или событий, таких как несчастные случаи. Наконец, приложение имеет потенциальное применение в других областях науки, таких как экология и в коммерческом секторе.

Другим преимуществом этого приложения является его веб-интерфейс, который обеспечивает интуитивные возможности интерактивных карт, подобных тем, которые есть в Интернете, с которыми пользователи могут быть знакомы. Поэтому это позволит допросить пространственные данные в контексте исследований эпидемиологических заболеваний, чтобы они были отделены от необходимости в экспертизе использования специализированного программного обеспечения ГИС. Использование статистического программного обеспечения R, в отличие от пакета GIS на заказ, также поможет оптимизировать рабочие процессы: позволяет проводить картографические и эпидемиологические анализы в рамках одной и той же программной среды, устраняя необходимость передачи данных между пакетами программного обеспечения. Это может быть особенно выгодным в ситуации вспышки, когда данные обновляются регулярно. Будущим расширением этого подхода к сопоставлению может быть создание мобильной версии приложения, которое может быть использовано в поле для создания живых обновлений данных, что в настоящее время возможно только с ноутбуком.

Основное ограничение этого приложения заключается в том, что, как это обычно бывает в проектах с открытым исходным кодом, оно не поддерживается и, следовательно, требует определенной технической экспертизы среди пользователей для установки и де-ошибки при необходимости. Это приложение написано на R, и для его первоначальной настройки потребуется знакомство с этим программным обеспечением, однако преимущества использования R-структуры включают в себя его большое пользовательское базовое и онлайн-сообщество, которое сможет оказывать помощь во многих ситуациях. Другим потенциальным ограничением является легкость обмена визуализацией, созданной этим приложением внутри и между агентствами, ряд из которых может быть вовлечен в исследование эпидемиологических заболеваний. Хотя скриншоты и видеоролики, представленные здесь, могут быть легко созданы, этот метод явно умаляет интерактивную полезность приложения.

Также важно признать ограничения точечных карт в качестве подхода к исследованиям эпидемиологических заболеваний. В то время как полезный первый шаг для визуализации и генерации гипотез, точечные карты не учитывают распределение основной популяции и, следовательно, не являются заменой формальных статистических тестов географической кластеризации. Кроме того, эти карты могут быть де-анонимизированы, если они отображаются с высоким уровнем масштабирования. Избежание требования по отправке данных в Интернет дает этому приложению преимущество сохранения конфиденциальности, но включение систем для обмена данными было бы полезно для межведомственных упражнений.

В этом исследовании мы вводим DotMapper, инструмент интерактивного картографирования для поддержки эпидемиологических исследований. Приложение является новым в обеспечении быстрого географического отображения характеристик случаев удобным для пользователя способом без необходимости использования специализированного программного обеспечения ГИС. Он широко применим к исследованиям в области эпидемиологических заболеваний в любой обстановке во всем мире. В контексте борьбы с туберкулезом мы демонстрируем его использование в выявлении общих особенностей случаев, связанных с молекулярной типизацией. Усовершенствованное понимание передачи туберкулеза с использованием этого приложения может привести к преимуществам общественного здравоохранения, способствуя более адекватной ориентации на услуги по диагностике и лечению пациентов.

Название проекта: DotMapper

Домашняя страница проекта: https://github.com/cathsmith57/DotMapper

Операционная система (ы): независимая от платформы

Язык программирования: R

Другие требования: R-пакеты: блестящие, листовки, RColorBrewer, ggplot2, plyr, lubridate, zoo, epitools, tidyr, reshape2, ggmap

Лицензия: Apache License 2.0

Любые ограничения для использования не академиками: N / A

Код доступен для загрузки из дополнительных файлов с помощью этой рукописи и из репозитория GitHub (https://github.com/cathsmith57/DotMapper).

Дополнительный файл 1:
              
                Скринкаст-фильм, демонстрирующий использование интерактивного приложения сопоставления DotMapper для изучения примера кластера c1. Плиты базовой карты предоставляются участниками OpenStreetMap © OpenStreetMap. (MP4 12644 kb)

Скринкаст-фильм демонстрирует использование интерактивного картографического приложения DotMapper для изучения примера кластера c2. Плиты базовой карты предоставляются участниками OpenStreetMap © OpenStreetMap. (MP4 20979 kb)

Скринкаст-фильм, демонстрирующий использование интерактивного картографического приложения DotMapper для изучения примера кластера c3. Плиты базовой карты предоставляются участниками OpenStreetMap © OpenStreetMap. (MP4 12448 kb)

Европейский центр по профилактике и контролю заболеваний

усиленное наблюдение за туберкулезом

географические информационные системы

микобактериальные вкрапленные повторяющиеся единицы — переменный номер тандемного повтора

Конкурирующие интересы

Авторы заявляют, что у них нет конкурирующих интересов.

Вклад авторов

CMS написала программное обеспечение и подготовила рукопись. ACH предоставил руководство и помог подготовить рукопись. Оба автора прочли и утвердили окончательную рукопись.

Мы хотели бы поблагодарить общественное здравоохранение в Англии: полевые эпидемиологические службы: Юго-Восток и Лондон для предоставления отзывов о более ранних версиях приложения. Мы также хотели бы поблагодарить доктора Ханну Фрай за полезные обсуждения в ходе разработки этого приложения.

CMS финансируется Институтом исследований информатики здравоохранения Фарра.

Комментариев нет.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *