Standard

Harvard

APA

Vancouver

Author

BibTeX

@article{8dcac0cf2c544a88a84affb749b50524,
title = "СРАВНЕНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ МЕТОДОВ ОТБОРА ПРИЗНАКОВ ДЛЯ РЕШЕНИЯ ЗАДАЧИ БИНАРНОЙ КЛАССИФИКАЦИИ ПРЕДСКАЗАНИЯ НАСТУПЛЕНИЯ БЕРЕМЕННОСТИ ПРИ ПРОВЕДЕНИИ ЭКСТРАКОРПОРАЛЬНОГО ОПЛОДОТВОРЕНИЯ",
abstract = "Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие три из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.",
author = "Синотова, {Светлана Леонидовна} and Лимановская, {Оксана Викторовна} and Плаксина, {Анна Николаевна} and Макутина, {Валерия Андреевна}",
year = "2020",
doi = "10.26102/2310-6018/2020.30.3.025",
language = "Русский",
volume = "8",
pages = "2--3",
journal = "Моделирование, оптимизация и информационные технологии",
issn = "2310-6018",
publisher = "Воронежский институт высоких технологий",
number = "3 (30)",

}

RIS

TY - JOUR

T1 - СРАВНЕНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ МЕТОДОВ ОТБОРА ПРИЗНАКОВ ДЛЯ РЕШЕНИЯ ЗАДАЧИ БИНАРНОЙ КЛАССИФИКАЦИИ ПРЕДСКАЗАНИЯ НАСТУПЛЕНИЯ БЕРЕМЕННОСТИ ПРИ ПРОВЕДЕНИИ ЭКСТРАКОРПОРАЛЬНОГО ОПЛОДОТВОРЕНИЯ

AU - Синотова, Светлана Леонидовна

AU - Лимановская, Оксана Викторовна

AU - Плаксина, Анна Николаевна

AU - Макутина, Валерия Андреевна

PY - 2020

Y1 - 2020

N2 - Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие три из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.

AB - Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие три из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.

UR - https://www.elibrary.ru/item.asp?id=44302881

U2 - 10.26102/2310-6018/2020.30.3.025

DO - 10.26102/2310-6018/2020.30.3.025

M3 - Статья

VL - 8

SP - 2

EP - 3

JO - Моделирование, оптимизация и информационные технологии

JF - Моделирование, оптимизация и информационные технологии

SN - 2310-6018

IS - 3 (30)

ER -

ID: 20253121