Лекция 5. 3D QSAR и понятие о фармакофоре.
Наиболее широко применяемым и, можно сказать, классическим подходом к анализу связи трехмерной структуры с активностью (3D QSAR) является опубликованный Р. Крамером с сотр. в 1988 г. метод сравнительного анализа молекулярного поля СоМРА, а также различные усовершенствованные и модифицированные его варианты. Потенциально этот метод позволяет выявить области пространства вокруг молекулы, где ее определенные локальные свойства оказывают положительное или отрицательное влияние на биоактивность.
При разработке метода авторы исходили из того, что взаимодействие органических соединений (лигандов) с биологическими мишенями обычно является нековалентным и существенно зависит от формы молекул, а учет ван-дер-ваальсовых и кулоновских сил, как правило, позволяет адекватно описать нековалентные взаимодействия в рамках методов молекулярной механики. Было высказано предположение, что для понимания наблюдаемого биологического действия лигандов достаточно информации о форме и электростатическом поле их молекул. Ключевым моментом предложенного подхода является сопоставление количественных показателей этих свойств, проводимое путем сравнения структур родственных соединений. При этом составляется таблица (матрица) рассчитанных для каждого из узлов трехмерной решетки значений энергии ван-дер-ваальсова (стерического) и кулоновского (электростатического) взаимодействия стандартной пробной частицы с молекулами. В зависимости от особенностей задачи в качестве пробной частицы может выбираться, например, протон, sp3-гибридизованный атом углерода с единичным положительным зарядом и др.
Для построения модели по таким дескрипторным матрицам высокой размерности используется метод регрессии частичных наименьших квадратов со скользящим (перекрестным) контролем. В отличие от обычной множественной линейной регрессии он позволяет надежно выявлять статистические закономерности, даже когда число независимых переменных многократно превышает число экспериментальных объектов.
В первом сообщении о методе СоМРА в качестве примера его применения приводилось исследование данных по связыванию серии из 21 стероида с кортикостероид-связывающим глобулином (СВС). Из-за относительной жесткости стероидного каркаса каждое соединение было представлено единственной молекулярной моделью. Была получена модель, содержащая два фактора. Модель характеризуется достаточно высокими значениями коэффициента корреляции (г = 0,947) и параметра перекрестного контроля (равен 0,662), однако качество предсказания для контрольной выборки из 10 соединений оказалось существенно более низким. Несмотря на такие неоднозначные результаты и ряд погрешностей в исходных данных, предложенный подход довольно быстро нашел широкое применение в исследованиях количественной связи «структура—активность». Это связано прежде всего с привлекательностью определяемых трехмерных карт, которые отражают области благоприятных и неблагоприятных для активности взаимодействий. Немаловажно также то обстоятельство, что, получив патент на метод СоМРА, фирма «Тripos» реализовала его в одном из наиболее популярных программных комплексов для молекулярного модели-рования Sybyl.
Вместе с тем применение метода СоМРА нередко затрудняется из-за необходимости использования большого числа дескрипторов, а также из-за проблемы совмещения (alignment) трехмерных молекулярных структур, особенно в случае конформационно подвижных молекул, когда индуцированное соответствие между лигандом и биомишенью может приводить к конформациям лиганда, значительно отличающимся от оптимальных конформаций для изолированной молекулы. В ряде случаев более высокое качество описания активности и ее прогноза для новых соеди-нений обеспечивают топологические модели.
Наряду с описанными методами совмещения жестких моделей молекул разработаны и другие принципы совмещения структур, применяются также альтернативные методы статистического анализа данных. Кроме того, предложен ряд подходов, позволяющих уменьшить чувствительность моделей к совмещению структур или вообще устранить этот этап анализа. Например, в качестве характеристики стерических полей можно использовать объем пересечения ван-дер-ваальсовых объемов пробной частицы и молекулы лиганда, обладающий более гладкой зависимостью от расстояния по сравнению со стандартной функцией Леннард-Джонса. В случае серии родственных соединений для получения полезных результатов часто необходимо и достаточно применение канонических (иначе говоря, формальных) правил совмещения. Дальнейшее развитие этой идеи привело авторов к концепции метода «топомерного» СоМРА, который по сути основан на трехмерном анализе структур после топологического их совмещения. Наконец, при рассмотрении векторов пространственной автокорреляции и моментов распределений массы и заряда получаются трехмерные молекулярные дескрипторы, инвариантные к трансляции и вращению молекул.
Таким образом, при достаточно больших возможностях метода СоМРА его применение нередко требует отхода от прямого анализа трехмерной молекулярной модели и частичного возврата к топологическому представлению.
Лекция 6. Статистические методы, применяемые в QSAR (коэффициент корреляции R, стандартное отклонение s, разбиение выборки на обучающую и контрольную, множественная линейная регрессия).
Весь рассмотренный ранее материал был посвящен методологии математического описания структуры химических соединений. Целью данной лекции является рассмотрение аппарата установления функциональной зависимости между совокупностью дескрипторов, с помощью которых проводится описание структуры, и проявляемой данными соединениями биологической активностью, т.к. проводят регрессионный анализ.
Регрессио́нный анализ — статистический метод исследования влияния одной или нескольких независимых переменных X_1, X_2, ..., X_p на зависимую переменную Y. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными.
Строго регрессионную зависимость можно определить следующим образом. Пусть — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание , то функция называется регрессией величины по величинам , а её график — линией регрессии по , или уравнением регрессии.
Зависимость от проявляется в изменении средних значений при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым распределением. Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение при изменении , используется средняя величина дисперсии при разных наборах значений (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
( — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:
Условие минимума функции невязки:
Полученная система является системой линейных уравнений с неизвестными .
Если представить свободные члены левой части уравнений матрицей
а коэффициенты при неизвестных в правой части — матрицей
то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
Для оценки точности полученной математической модели используют два критерия: коэффициент корреляции R, стандартное отклонение s.
Количественной мерой линейности соотношения между переменными Х и У является коэффициент линейной корреляции – сравнительный показатель наличия взаимосвязи между Х и Н:
Значения r2 лежат в интервале от 0 до 1, следовательно, r может изменяться от -1 до +1. Если S=0 (строго линейная зависимость), r должно быть равно -1 или +1. При r2 = r = 0 линейная зависимость между переменными совершенно исключается, но это не означает, что между ними не существует вообще никакой зависимости. Не следует пытаться извлечь из r слишком большой объем информации; например, если r1 = 0,4 и r2=0,8, то это значит, что имеются две положительные корреляции, причем одна лучше другой, но нельзя сказать, что вторая в два раза лучше первой. Но для случая r2 = 0,8 можно утверждать, что 64% изменений переменной У объясняются переменной Х.
Подобно тому как стандартное отклонение является мерой вариации рассеяния относительно арифметического среднего, аналогично для регрессионного анализа оно представляет собой вариацию рассеяния относительно линии регрессии и равно среднему квадратичному отклонению величины У от линии регрессии и является мерой точности аппроксимации, выполненной по методу наименьших квадратов. Отклонения d величины У, равной Уистин. – Утеор., часто называют остаточными отклонениями относительно линии регрессии:
Аналогично в пределах ±1S заключено 68% случаев отклонения У в обе стороны от линии регрессии.
Лекция 7. Методы главных компонент и частичных наименьших квадратов.
Суть метода главных компонент - это существенное понижение размерности данных. Исходная матрица X заменяется двумя новыми матрицами T и P, размерность которых, A, меньше, чем число переменных (столбцов) J у исходной матрицы X.
Пусть имеется матрица переменных X размерностью (I×J), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1). В методе главных компонент используются новые, формальные переменные ta (a=1,…A), являющиеся линейной комбинацией исходных переменных xj (j=1,…J)
С помощью этих новых переменных матрица X разлагается в произведение двух матриц T и P -
|
(2)
|
Матрица T называется матрицей счетов (scores). Ее размерность - (I×A).
Матрица P называется матрицей нагрузок (loadings). Ее размерность (J×A).
|