Статья размещена в открытом доступе и распространяется на условиях лицензии Creative Commons Attribution (CC BY).
ОРИГИНАЛЬНОЕ ИССЛЕДОВАНИЕ
Разработка классификационных моделей для оценки ингибиторов вируса гриппа штамма A/H1N1 in silico
1 Научно-исследовательский институт биомедицинской химии имени В. Н. Ореховича, Москва, Россия
2 Уфимский институт химии УФИЦ РАН, Уфа, Россия
3 Санкт-Петербургский научно-исследовательский институт эпидемиологии и микробиологии имени Пастера, Санкт-Петербург, Россия
Для корреспонденции: Леонид Алексеевич Столбов
ул. Погодинская, д. 10, стр. 8, г. Москва, 119121, Россия; ur.xednay@alvoblots
Финансирование: модели зависимостей «структура–активность» построены при поддержке программы фундаментальных научных исследований в Российской Федерации на долгосрочный период (2021–2030 гг.) (№ 124050800018-9). Подготовка базы данных проводилась в рамках государственного задания «Кинетическое, спектрально-люминесцентное и теоретическое исследование ключевых интермедиатов в химических и биохимических процессах окисления» УфИХ УФИЦ РАН № 125020601626-9.
Вклад авторов: Л. А. Столбов — анализ данных, построение моделей, подготовка рукописи; С. С. Борисевич — идея, подготовка базы данных; Я. В. Горохов — анализ научной литературы с целью сбора базы данных; В. В. Зарубаев — предоставление актуальных результатов биологического тестирования; О. А. Тарасова — идея и методология исследования; В. В. Поройков — методология исследования. Все авторы принимали участие в подготовке и редактировании рукописи.
Разработка новых эффективных противовирусных препаратов остается одной из наиболее актуальных задач современной медицины и фармакологии вследствие тяжести возможного прямого цитопатического и иммуно-опосредованного действия вируса на клетки организма хозяина, распространения вирусных инфекций в популяции при эпидемиях и пандемиях. Особую значимость этот вопрос приобретает в контексте заболеваний, вызываемых вирусами с высокой изменчивостью, такими как вирус гриппа [1]. Ежегодные эпидемии и потенциальные пандемии требуют постоянного обновления терапевтического арсенала, что сопряжено со значительными временными и финансовыми затратами.
Методы in silico, и, в частности, машинное обучение (МО) являются мощным инструментом, обеспечивающим возможность кардинально ускорить и удешевить ранние этапы разработки. МО позволяет создавать прогностические модели, которые на основе известных данных о структуре и активности химических соединений предсказывают свойства как для уже созданных, так и для новых, еще не синтезированных молекул. Это открывает возможности для целенаправленного виртуального скрининга огромных химических библиотек и отбора наиболее перспективных «кандидатов» для синтеза и проведения биологических экспериментов.
Эффективность и надежность таких моделей зависят от нескольких аспектов. Во-первых, это качество и объем обучающих данных. Для построения робастных моделей необходима репрезентативная база данных (обучающая выборка), содержащая достоверные и однородные сведения о противовирусной активности (например, значения IC50) и цитотоксичности (CC50). Создание такой базы данных (БД) является отдельной сложной и трудоемкой задачей. Во-вторых, важен выбор методологии МО и признакового пространства.
В области лиганд-ориентированного дизайна лекарств, широко применяемого для идентификации перспективных соединений и оптимизации соединений-лидеров, анализ количественных зависимостей «структура–активность» (QSAR) является ключевым инструментом. Такой подход, хотя и расширяет область применимости модели, характеризуется рядом ограничений: значительный разброс в значениях активности для одного соединения, полученных по разным протоколам; сложность преобразования качественных данных в количественные; существенный дисбаланс в сторону соединений с высокой активностью. Эти факторы, дополнительно осложняемые часто недостаточно подробным описанием условий эксперимента, значительно снижают прогностическую способность обобщенных моделей по сравнению с моделями, построенными на узких, однородных наборах данных. Исследователь оказывается перед выбором между низкой прогностической способностью обобщенной модели и ограниченной областью применимости модели, обученной на небольшом, но однородном наборе данных. Различные алгоритмы — от классических методов, таких как метод «случайный лес» (Random Forest) [2] или метод опорных векторов (Support Vector Machines, SVM) [3], до глубоких нейронных сетей — и способы описания молекулярных структур (молекулярные дескрипторы, отпечатки пальцев) могут приводить к моделям, различающимся по прогностической способности и интерпретируемости.
Разработано несколько моделей для анализа зависимостей «структура–свойство» с целью поиска потенциальных противогриппозных соединений, в том числе комбинированных алгоритмов с применением молекулярного моделирования и методов машинного обучения. Так, в работе Khomenko, et al. [4] для установления связи между биологической активностью и теоретическими расчетами была построена регрессионная модель, в которой сопоставлены значения pIC50 полуингибирующей концентрации (50 % подавления репликации вируса) с расчетными оценками молекулярного докинга лигандов в активный центр гемагглютинина вируса гриппа. Значения скоринговых функций докинга использовались как параметр аффинности лигандов к белкам. Коэффициент корреляции, отражающий зависимость величин pIC50 от соответствующих значений скоринговых функций, составил 0,46.
В статье Mercader [5] авторы провели компьютерный анализ количественных соотношений «структура–активность» (QSAR) для прогнозирования ингибирующей способности флавоноидов и бифлавоноидов в отношении нейраминидазы вируса гриппа штамма H1N1. Использовались экспериментальные данные по полумаксимальной концентрации ингибирования IC50 для 25 соединений и рассчитанные дескрипторы, определяющие физико-химические и геометрические параметры молекул. Коэффициент корреляции модели R составил 0,971 (среднеквадратичная ошибка менее 0,1), для тестовой выборки модель характеризовалась среднеквадратичной ошибкой RMSE, равной 0,1163.
В публикации Hammoudan [6] авторы создали регрессионную модель на основе 168 соединений для прогноза потенциальной активности в отношении нейраминидазы вируса гриппа. Модель характеризуется приемлемыми показателями точности (R2 = 0,82; Q2 = 0,81), однако в статье непосредственно не указано точное количество соединений в тестовой выборке — можно предположить, что оно составило около 20 % от исходного количества (использовался алгоритм Кернарда–Стоуна для стратификации выборки). На основании построенной модели авторы предложили ряд структур с потенциальной противовирусной активностью в отношении вируса гриппа H1N1, однако эти соединения не были протестированы в клеточных тест-системах для оценки подавления репликации вируса.
В работах [7–11] построены модели анализа зависимостей «структура–свойство» (2D/3D-QSAR) для оценки связывающей (ингибирующей) активности в отношении мишеней нейраминидазы и гемагглютинина вируса гриппа для гетероциклических и природных противовирусных соединений обучающей выборки количеством от 20 до 45 молекул. Точность построенных моделей по коэффициенту детерминации составляет от (R2 = 0,847) и до (R2 = 0,973), а при перекрестной валидации — от (Q2 = 0,610) до (Q2 = 0,950).
Таким образом, ряд проводимых в настоящее время исследований с применением моделей машинного обучения [4–13] направлены на поиск ингибиторов конкретных вирусных мишеней (например, нейраминидазы, гемагглютинина, M2 протонного канала или других белков, влияющих на репликацию вируса).
Вместе с тем, значительное количество экспериментальных данных получено на основе исследований ингибирования репликации вируса в клеточных культурах, когда конкретный механизм действия не установлен. Эти данные могут быть использованы для построения моделей зависимостей «структура–активность», которые могут в дальнейшем использоваться для отбора перспективных «кандидатов» на основе виртуального скрининга. С этой целью мы применили классификационный метод анализа соотношений «структура–активность», основанный на принципах статистической регуляризации — SCEC (self-consistent extreme classifier — самосогласованный экстремальный классификатор). Ключевые особенности метода SCEC, позволяющие преодолеть ограничения традиционных подходов, заключаются, прежде всего, в эффективном отборе дескрипторов в процессе классификации. В отличие от методов, требующих предварительного отбора признаков или применения сложных преобразований (например, kernel trick для SVM [14]), SCEC интегрирует статистическую регуляризацию непосредственно в итерационный процесс построения классификатора. Это позволяет автоматически и эффективно отсеивать малозначимые дескрипторы и фокусироваться на выборе наиболее релевантных для разделения классов параметров, даже в условиях высокой размерности признакового пространства [15].
Разработанный нами подход учитывает удаленность объектов от границы разделения классов: алгоритм SCEC целенаправленно снижает влияние дескрипторов, характерных только для соединений, находящихся в химическом пространстве далеко от границы разделения на классы (то есть для «явно» активных или «явно» неактивных). Это обеспечивает фокусировку модели на наиболее информативных признаках для критической области около порога активности, что повышает надежность классификации пограничных случаев.
Валидация подхода SCEC на тестовых задачах показала, что качество прогноза сопоставимо с другими методами, но при этом используется существенно меньшее количество молекулярных дескрипторов, что свидетельствует о его эффективности и лучшей интерпретируемости [15]. В количественных моделях прогноза активности необходимы однородные данные, полученные в идентичных экспериментальных условиях для конкретной молекулярной мишени. В данной работе решается более общая, но практически значимая задача: предсказание принципиальной возможности проявления соединением противовирусной активности против вируса гриппа A/H1N1, независимо от конкретного механизма действия. Это обусловливает выбор бинарной классификации («активное»/«неактивное») вместо регрессионного моделирования. Такой подход позволяет: 1) объединять в обучающую выборку гетерогенные данные, полученные в разных лабораториях, на различных подтипах вируса и клеточных линиях, что было бы критично для регрессионной модели; 2) расширять химическое пространство модели за счет включения структурно разнородных рядов и заведомо неактивных соединений; 3) решать ключевую задачу первичного виртуального скрининга — ранжирование соединений по вероятности проявления активности для отбора наиболее перспективных кандидатов. В рамках этого подхода модель предоставляет количественную меру (например, оценку вероятности отнесения к классу «активных»), пригодную для сравнения и приоритизации соединений. Следует отметить, что данный метод не ставит целью предсказание точного численного значения активности, которое может быть получено в конкретном стандартизированном эксперименте для определенной мишени; эта задача решается на последующих этапах после идентификации перспективных «кандидатов». Разработанная модель позволяет ответить на два ключевых вопроса: может ли данное соединение проявлять активность против вируса гриппа A/H1N1 и какие из анализируемых соединений являются более предпочтительными для дальнейших экспериментальных исследований.
МАТЕРИАЛЫ И МЕТОДЫ
Используемая в работе БД [16] содержит 2255 записей о химической структуре малых молекул и данных биологического тестирования в отношении вируса гриппа штамма A/H1N1 разных серотипов и линии клеток почки собаки Мэйдин-Дарби MDCK методом МТТ-теста[17]. На основе значений CC50 и IC50 рассчитаны индексы селективности (Selectivity Index, SI = CC50 / IC50).
Значения полумаксимальной ингибирующей концентрации IC50 для соединений в базе данных варьируют в широком диапазоне — от субнаномолярных до микромолярных величин, что отражает значительное структурное разнообразие исследованных соединений. Значения цитотоксической концентрации CC50 также охватывают несколько порядков величины, что позволяет оценивать не только противовирусную эффективность, но и потенциальную токсичность соединений. Индекс селективности SI, рассчитанный как отношение CC50 к IC50, служит интегральным показателем перспективности соединения, поскольку объединяет данные об активности и безопасности. Высокие значения SI указывают на соединения с выраженной противовирусной активностью при минимальной цитотоксичности.
Выбор порогового значения, по которому соединение классифицируется как «активное», определяется конкретной задачей исследования. В области поиска противовирусных соединений этот критерий часто регламентируется нормативными документами, например, руководствами по доклиническому изучению новых фармакологических веществ [18]. Хотя рекомендуемый минимальный порог для индекса селективности часто составляет 8 и более, в данной работе для формирования высоконадежного пула кандидатов нами был установлен более строгий критерий SI = 200. Этот подход позволяет отобрать структуры с наиболее выраженным и селективным действием против вируса гриппа A/H1N1 для последующих этапов исследования.
Чтобы оценить возможности применения построенных классификационных моделей для виртуального скрининга с целью отбора потенциальных противовирусных соединений, была сформирована независимая тестовая выборка. Ключевой принцип ее формирования заключался в полном исключении связи с этапом обучения и тонкой настройки (оптимизации гиперпараметров) моделей. Внутренние методы валидации, такие как перекрестная проверка на обучающей выборке, необходимы для оценки устойчивости модели и подбора оптимальных параметров. Модель, которая характеризуется высокими показателями точности описания зависимости для известных данных, иногда гораздо хуже прогнозирует активность принципиально новых, ранее не встречавшихся химических структур. Именно для имитации этой реальной задачи прогнозирования активности неизвестных соединений и требуется полностью независимая тестовая выборка. Соединения тестовой выборки, отобранные из литературных источников [19–22] случайным образом, обладают структурной репрезентативностью и новизной относительно обучающей выборки. В данный перечень включены только те соединения, которые протестированы на противовирусную активность методом МТТ-теста в отношении вируса гриппа штамма A/H1N1 разных серотипов, культивируемых в линии клеток MDCK. Другими словами, для тестирования прогностической способности модели отобрали только те соединения, которые проверены в схожих экспериментальных условиях с соединениями в базе данных, применяемыми для построения модели. Прогнозы, сделанные с использованием построенных нами моделей на этой независимой тестовой выборке, предоставляют наиболее достоверные метрики ее практической применимости. Всего в тестовую выборку вошло 16 соединений.
Вся процедура обработки химических структур (удаление солей, стандартизация таутомерных и прототропных форм, устранение дубликатов) и курирования данных об активности проводилась в строгом соответствии с общепринятыми рекомендациями по подготовке данных для (Q)SAR-моделирования [23, 24] как для обучающей, так и для тестовой выборки. После удаления дубликатов и предварительной обработки в обучающую выборку было включено 1816 уникальных структур.
В качестве признакового пространства для построения моделей использовались молекулярные дескрипторы количественных атомных окрестностей (Quantitative Neighborhood of Atoms, QNA), ранее разработанные и реализованные в программном обеспечении GUSAR [25, 26].
QNA-дескрипторы характеризуют каждый атом в молекуле, учитывая влияние всех остальных атомов молекулы на данный атом. Это позволяет получать целостное и информативное описание молекулярной структуры, коррелирующее с ее биологическими свойствами. Подобно реализации в GUSAR, для формирования вектора дескрипторов, описывающего «потенциал» биологической активности молекулы, используются полиномы Чебышёва [27].
Для построения прогностических классификационных моделей в данной работе был применен метод самосогласованного экстремального классификатора (Self-Consistent Extreme Classifier, SCEC), детально описанный нами ранее [15].
Для объективной оценки обобщающей способности построенных моделей и минимизации риска переобучения была использована процедура 5-кратной кросс-валидации (5-fold cross-validation, 5F CV). Для получения статистически устойчивых оценок кросс-валидация была повторена 10 раз на различных случайных разбиениях исходной выборки на обучающие и тестовые подмножества, после чего рассчитывались усредненные метрики качества.
Для генерации случайных разбиений применялся алгоритм Mersenne Twister, реализованный в стандартной библиотеке C++, с последующей операцией взятия по модулю для ограничения диапазона генерируемых чисел.
Качество и сравнительный анализ разработанных классификационных моделей проводился на основе следующих метрик.
Чувствительность (Sensitivity, Recall) — доля правильно предсказанных активных соединений среди всех действительно активных.
Специфичность (Specificity) — доля правильно предсказанных неактивных соединений среди всех действительно неактивных.
Сбалансированная точность (Balanced Accuracy) — среднее арифметическое чувствительности и специфичности, что особенно важно для несбалансированных выборок.
Площадь под ROC-кривой (AUC-ROC) — интегральная метрика, оценивающая способность модели разделять классы при различных порогах классификации. Значение AUC-ROC вычислялось путем численного интегрирования зависимости верно классифицируемых объектов класса (True Positive Rate, TPR) от неверно классифицируемых объектов класса (False Positive Rate, FPR).
В формулах:
TP (True Positives) — число истинно-положительных прогнозов (активные соединения, предсказанные как активные).
TN (True Negatives) — число истинно-отрицательных прогнозов (неактивные соединения, предсказанные как неактивные).
FP (False Positives) — число ложноположительных прогнозов (неактивные соединения, ошибочно предсказанные как активные).
FN (False Negatives) — число ложноотрицательных прогнозов (активные соединения, ошибочно предсказанные как неактивные).
Область применимости (AD) прогноза оценивалась с использованием среднего сходства трех ближайших соседей в обучающей выборке. Если среднее сходство, определяемое по используемым дескрипторам, не превышает 0,5, то прогноз для такого соединения классифицировался как находящийся за пределами области применимости[28].
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
Для построения моделей использовалась тщательно подготовленная обучающая выборка, содержащая 1816 уникальных химических структур с экспериментально измеренными значениями противовирусной активности (IC50), цитотоксичности (CC50) и индексом селективности (SI). Анализ химического разнообразия показал, что выборка охватывает широкий спектр структурных классов, однако распределение активностей внутри них является несбалансированным.
На основе метода самосогласованного экстремального классификатора (SCEC) были построены три независимые бинарные классификационные модели для прогнозирования противовирусной активности (по IC50), цитотоксичности (по CC50) и селективности действия (по SI). Пороги для разделения на активные/неактивные, токсичные/нетоксичные и селективные/неселективные соединения были выбраны на основе баланса между физиологической интерпретируемостью и максимальной прогностической силой, оцененной методом 5-кратной кросс-валидации. С целью определения наилучшего способа классификации на потенциально активные в отношении вируса гриппа соединения и те, которые в эксперименте не будут демонстрировать ингибирующую активность, мы исследовали несколько вариантов разделения обучающей выборки на положительные (активные соединения) и отрицательные (неактивные) примеры.
Мы протестировали различные варианты разделения на активные и неактивные соединения с применением пороговых значений от 100 до 0,1 мкг/мл для IC50, от 1 до 300 мкг/мл для CC50, от 0,1 до 200 для SI. Такой подход был реализован, чтобы установить устойчивость моделей к выбору порога. В качестве основных были выбраны модели с порогами, значения которых соответствуют величинам, которые применяются для отбора потенциально активных противовирусных соединений: 1) для противовирусной активности пороговое значение IC50, 5 мкг/мл; 2) для цитотоксичности пороговое значение CC50, 300 мкг/мл; 3) для индекса селективности пороговое значение SI 200. Модели, построенные с применением соответствующих пороговых значений, были сопоставлены с моделями, полученными с использованием других ближайших порогов, без выраженного дисбаланса классов. Как видно из представленных на рис. 1 данных, выбранные пороги позволяют получить лучшие (для SI) или близкие по качеству модели (для IC50 и CC50). При указанных порогах обучающие выборки содержали 523 активных для IC50, 768 нетоксичных для CC50 и 88 селективных для SI.
Модель для выбора активных соединений по значению IC50 c порогом 5 мкг/мл обладает сбалансированной точностью (Balanced Accuracy), равной 0,756 и площадью под ROC-кривой (AUC-ROC) 0,822. Анализ профиля гистограмм (рис. 1А) при различных порогах классификатора показал, что имеются возможности дальнейшей оптимизации прогностической модели. Модель прогнозирования цитотоксичности CC50 с порогом 300 мкг/мл обладает сбалансированной точностью 0,801 и AUC-ROC 0,875 (рис. 1Б), что указывает на ее высокое качество для предсказания безопасности соединений. Точность прогностической модели для отбраковки соединений по значению индекса селективности также зависит от установленного порога (:media_ 1;С). При выборе порога SI = 200 модель достигла сбалансированной точности при 0,812 и AUC-ROC 0,861, что выше, чем при использовании более низкого порога SI = 8 (сбалансированная точность 0,682, ROC-AUC 0,745). Несмотря на рекомендации [18], согласно которым соединения со значением SI > 8 рассматриваются в качестве перспективных, мы используем более строгое условие при формировании обучающей выборки. Такой подход позволяет выбрать заведомо активные (и, возможно, менее токсичные соединения).
При проведении 5-кратной кросс-валидации во всех 10 вычислительных экспериментах случайных разбиений были получены близкие результаты (рис. 2).
Кривые зависимости значений TPR от FPR характеризуются высокой точностью (ROC кривые на этапе валидации не расходятся при разных случайных разбиениях, средний AUC > 0,7), что указывает на хорошую прогностическую способность моделей.
Практическая ценность построенных моделей подтверждена при прогнозе для независимой тестовой выборки. Совместное применение трех моделей даст возможность эффективно обогатить пул потенциальных кандидатов: доля правильно классифицированных соединений в тестовой выборке достигла 63 % (IC50), 75 % (SI и CC50). Этот результат свидетельствует о высокой эффективности предложенного подхода для первичного отбора наиболее перспективных структур на основе виртуального скрининга, что позволяет значительно сократить затраты на экспериментальный скрининг.
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Проведенное исследование свидетельствует об эффективности использования методологии машинного обучения для решения задач лиганд-ориентированного прогнозирования противовирусного потенциала лекарственно-подобных соединений с использованием метода SCEC [15].
На основе тщательно подготовленной базы данных созданы классификационные (Q)SAR-модели для предсказания противовирусной активности, цитотоксичности и селективности соединений в отношении вируса гриппа A/H1N1. Модели прогнозирования значений IC50 с порогом 5 мкг/мл, CC50 с порогом 300 мкг/мл и SI с порогом 200 показали наиболее высокие и устойчивые метрики качества при кросс-валидации.
Была проведена валидация разработанных моделей на независимой тестовой выборке из 16 соединений, синтез и биологическое тестирование которых описаны в работах [19–22]. Отбор с применением моделей SCEC привел к значительному обогащению (до 63 %) отбираемых «кандидатов», потенциально обладающих активностью и низкой цитотоксичностью. Нами показано, что предложенный подход может служить эффективным инструментом для первичного отбора и оптимизации работ при поиске новых противогриппозных препаратов. Использованный подход, не требующий априорного знания конкретной молекулярной мишени, является универсальным и применим на ранних этапах исследований. Метод SCEC дает возможность работать с разнородными и несбалансированными данными, обеспечивая качественную классификацию за счет встроенного отбора признаков и балансировки.
Необходимо отметить, что помимо проверки на этапе валидации, в которой каждое соединение присутствовало и в качестве теста, была проведена проверка прогностических моделей, содержащих только 16 соединений, на независимой тестовой выборке. Эти соединения взяты из научных публикаций и не содержатся в базе данных, а также не являются близкими аналогами соединений из обучающей выборки. В последующих исследованиях для более точного определения потенциальных противовирусных соединений и применения на практике внешняя тестовая и обучающая выборки требуют расширения для более полного покрытия химического пространства. Вместе с тем, даже на такой небольшой выборке становится понятна важность покрываемой моделью части химического пространства. Например, наличие в обучающей выборке структур, содержащих хиназолиновое (рис. 3А) или бициклооктановое ядро (рис. 3Б), положительно повлияло на прогноз противовирусного действия соединений из независимой тестовой выборки. Так, в используемой базе данных среди активных соединений со значением SI > 200 встречаются 36 структур, содержащих хиназолиновый и/или хинолиновый фрагмент, 7 структур с бициклооктановым ядром и 246 — со схожим с бициклогептаном скаффолдом. И, наоборот, характеристики структур в независимой тестовой выборке, содержащие дибензотиепиновое ядро (рис. 3В), предсказываются наименее корректно, поскольку данный сложный гетероцикл отсутствует в структурах обучающей выборки. Прогноз для структур с дибензотиепиновым ядром (красный цвет на рис. 3) был классифицирован моделью как не попадающий в AD, все остальные прогнозы (зеленый цвет) соответствовали области применимости моделей.
Вместе с тем, интересно отметить, что в тестовой выборке имеются два соединения, структура которых отличается только на один атом: замена хинолинового фрагмента на хиназолиновый приводит к повышению противовирусного эффекта (рис. 4). Индекс селективности увеличивается за счет снижения значения IC50. Как правило, большинство прогностических моделей нечувствительно к такого рода незначительным (с математической точки зрения) структурным изменениям. Подробно эта проблема обсуждается в работе [16]. Использование нашей прогностической модели позволяет отнести соединения, представленные на рис. 4, к активным по IC50, значение которых попадает в диапазон от 100 до 0,1 мкг/мл, что соответствует экспериментальным данным [21]. Результат прогноза по SI зависит от установленного порога: при строгих условиях SI = 200 прогностическая модель позволяет корректно отнести обе структуры к неактивным. Однако при уменьшении значения порога до SI = 8 результат прогнозирования ошибочный (рис. 4).
Этот результат позволяет уточнить границы применимости нашей прогностической модели. Тем не менее, если при выборе активных соединений руководствоваться более строгим порогом, то вероятность обнаружить перспективные соединения выше. Несмотря на фармакологические рекомендации [9], согласно которым соединения с SI > 8 можно относить к перспективным структурам, значения индекса селективности рассматриваемых на рис. 4 молекул не позволяет отнести их к активным противогриппозным соединениям.
На рис. 5 представлены результаты тестирования прогностической модели. Только в двух случаях (соединения 10 и 13) предсказанные значения IC50 не попадают в установленный диапазон «условно активных» соединений, что противоречит результатам эксперимента. Тем не менее использование наших моделей по прогнозированию значения SI с порогом 200 позволяет достоверно определить неактивные структуры 513, 521, 8, 10, 11, 13, 20, 26, 30 и 33 с SI < 200 и активные cyperenoid acid и cyperenol c SI > 200. Ошибочные результаты прогноза соответствуют структурам 38-S, 39-S и 39-R, которые характеризуются высокими экспериментальными значениями индекса селективности. Для указанных соединений ошибочен и прогноз CC50. Причина ошибки, очевидно, заключается в отсутствии в базе данных структур, содержащих дибензотиепиновое ядро (рис. 3) и то, что структуры не попадают в AD при прогнозе.
Построенные модели, помимо очевидных преимуществ, обладают и рядом ограничений, обусловленных как особенностями исходных данных, так и выбранной лиганд-ориентированной методологией. Принципиальным ограничением использованного подхода является отсутствие в обучающих данных информации о конкретном молекулярном механизме действия соединений. Модели позволяют прогнозировать противовирусную активность, но не идентифицируют, на какой вирусный белок (нейраминидазу, белок M2, полимеразный комплекс и т. д.) воздействует соединение. Это, с одной стороны, является преимуществом на ранних этапах скрининга, позволяя выявлять соединения с неизвестными или новыми механизмами действия. С другой стороны, это затрудняет дальнейшую рациональную оптимизацию выявленных соединений-лидеров, так как требует дополнительных трудоемких экспериментальных исследований для установления мишени. Кроме того, модели могут быть чувствительны к соединениям, действующим через неспецифические или цитотоксические механизмы, несмотря на попытку фильтрации по CC50. Как и любая модель машинного обучения, разработанные классификаторы критически зависят от репрезентативности обучающих данных. Использованная нами база данных, несмотря на тщательно проведенную подготовку, характеризуется химической разнородностью и несбалансированностью классов (значительно большее количество неактивных соединений). Наличие потенциальных ошибок или большого разброса в исходных экспериментальных данных (например, для дубликатов структур) может негативно сказываться на устойчивости и точности моделей. Область применимости моделей ограничена химическим пространством, представленным в обучающей выборке.
Для преодоления указанных ограничений можно выделить несколько направлений дальнейших исследований. Во-первых, необходимо систематическое расширение и тщательный отбор соединений обучающей выборки, включая постоянное пополнение новыми экспериментальными данными из литературных данных и результатов экспериментов что позволит охватить более широкое химическое пространство и снизить риск переобучения. Устранение скрытых дубликатов (стереоизомеры, таутомеры) позволит увеличить однородность выборки.
Точность и надежность прогностических моделей может быть дополнительно оценена в ходе проспективного исследования — проведения синтеза и тестирования отобранных в результате виртуального скрининга молекул.
Несмотря на существующие ограничения, модели, представленные в настоящей работе, формируют основу для создания постоянно совершенствуемого вычислительного инструмента, интегрированного в цикл поиска и разработки новых противогриппозных препаратов. Последовательная работа по расширению БД и валидации подходов in vitro позволит трансформировать этот инструмент из средства первичного отбора в систему поддержки принятия решений на более поздних этапах разработки лекарств.
ВЫВОДЫ
В рамках настоящей работы мы разработали лиганд-ориентированный подход, который направлен на прогнозирование противогриппозной активности лекарственно-подобных соединений, независимо от конкретной вирусной мишени, на основе нового эффективного классификационного метода SCEC. Основная цель исследования заключалась в разработке и валидации прогностических QSAR-моделей на основе SCEC для оценки противовирусного потенциала соединений против вируса гриппа штамма A/H1N1. Для этого подготовили специализированную базу данных (БД), содержащую структуры малых молекул, данные об их противовирусной активности (IC50) в отношении вируса гриппа штамма A/H1N1 разных серотипов, цитотоксичности (CC50) в отношении линии клеток MDCK. На основе этих данных мы построили классификационные модели и провели валидацию на независимой тестовой выборке, содержащей 16 соединений из различных химических классов, для оценки практической полезности метода SCEC в первичном отборе кандидатов для синтеза и биологического тестирования. Показано, что для 63 % соединений классификация проведена верно.
Применение оригинального подхода машинного обучения, реализованного в инструменте SCEC к отбору потенциально безопасных и эффективных противовирусных соединений, активных в отношении вирусов гриппа, позволило продемонстрировать, что разработанные модели и примененная методология представляют собой эффективный инструментарий для ускоренного поиска новых соединений с противогриппозной активностью и могут быть интегрированы в цикл рационального дизайна лекарственных средств.