DOI

Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие три из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.
Переведенное названиеCOMPARISON OF THE EFFICIENCY OF DIFFERENT SELECTING FEATURES METHODS FOR SOLVING THE BINARY CLASSIFICATION PROBLEM OF PREDICTING IN VITRO FERTILIZATION PREGNANCY
Язык оригиналаРусский
Страницы (с-по)2-3
Число страниц2
ЖурналМоделирование, оптимизация и информационные технологии
Том8
Номер выпуска3 (30)
DOI
СостояниеОпубликовано - 2020

    ГРНТИ

  • 76.00.00 МЕДИЦИНА И ЗДРАВООХРАНЕНИЕ

    Уровень публикации

  • Перечень ВАК

ID: 20253121