ГЕТЕРОСКЕДАСТИЧНАЯ РАЗРЕЖЕННАЯ БАЙЕСОВСКАЯ РЕГРЕССИЯ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧЕ ПРОГНОЗА ТЕМПЕРАТУРЫ ПЛАВЛЕНИЯ ХАЛЬКОПЕРИТОВ И ЗАДАЧЕ СИНТЕЗА НАНОРАЗМЕРНОГО ОКСИДА АЛЮМИНИЯ1
Д. Ветров2, Д. Кропотов3
2 Московский государственный университет, факультет ВМиК, 119992, Москва, ГСП-2, Ленинские Горы, 1, [email protected]
3 Вычислительный центр им. А.А. Дородницына РАН, 119333, Москва, ул. Вавилова, д. 40, [email protected]
В работе предлагаются два метода решения задачи восстановления регрессии в рамках байесовского подхода. Эти методы позволяют получать разреженные решающие правила, где разреженность понимается в смысле небольшого количества задействованных признаков или объектов. В частности, рассматриваются два варианта недиагональной регуляризации обобщенных линейных моделей, которые приводят к алгоритмам с большой величиной обоснованности. Основное внимание уделено гетероскедастичным регрессорам. Предложенные алгоритмы апробированы при решении двух химических задач: прогноз температуры плавления халькопиритов и прогноз оптимальных условий синтеза наноразмерного оксида алюминия.
Введение
В настоящее время байесовские методы активно используются при решении задач классификации и восстановления регрессии [1]. Успех данного подхода обеспечивается практическим отсутствием параметров, которые необходимо настраивать пользователю при решении задач. Кроме того, байесовские методы позволяют автоматически отсеивать большую часть объектов или признаков в решающем правиле, что соответствует высокой степени интерпретируемости решения, а также позволяет быстро проводить распознавание новых объектов. Также следует отметить, что байесовский подход обеспечивает не только точечное значение прогноза, но и степень уверенности алгоритма в выдаваемом ответе. К числу широко используемых байесовских алгоритмов анализа данных следует отнести метод релевантных векторов (RVR) [2] и байесовскую логистическую регрессию [3]. В данной работе предложены два метода модификации RVR. Новые методы обладают более высокой скоростью обучения, большими значениями обоснованности и разреженности по сравнению с RVR.
Гетероскедастичная байесовская регрессия
Предположим, что имеется выборка данных , где , а целевая переменная. Необходимо для нового объекта предсказать значение . Предположим, что значение целевой переменной является зашумленным выходом функции регрессии от входных переменных:
где в качестве функции регрессии используется линейная модель
Здесь - набор числовых параметров, а - обобщенные признаки, в качестве которых, в частности, могут выступать исходные признаки или ядровые функции с центрами в объектах обучения . Пусть шумовая компонента имеет независимое нормальное распределение с нулевым математическим ожиданием и дисперсией пропорциональной значению целевой переменной:
Тогда правдоподобие обучающей выборки может быть представлено как
где , а
Заметим, что случай гомоскедастичной регрессии соответствует единичной матрице .
Байесовский подход предполагает задание априорных распределений на параметры алгоритма . Выберем в качестве априорного распределения нормальное распределение с центром в нуле и матрицей ковариации :
Прогноз значения целевой переменной для нового объекта вычисляется как интеграл по всевозможным значениям параметров алгоритма :
Здесь
Выражение (2) представляет собой свертку двух нормальных распределений и может быть вычислено как
Оптимальное значение матрицы регуляризации из некоторого семейства матриц находится с помощью максимизации величины обоснованности:
В дальнейшем рассматриваются два семейства матриц , обладающих различными интересными свойствами.
Регуляризация вдоль собственных векторов гессиана логарифма правдоподобия
Рассмотрим функцию правдоподобия (1). Она может быть представлена как
Здесь играет роль гессиана логарифма правдоподобия. Рассмотрим собственные значения и собственные векторы матрицы : . Выберем в качестве семейства матриц набор матриц, соответствующих независимой регуляризации вдоль собственных векторов :
Основным достоинством такой регуляризации является то, что значение обоснованности в терминах может быть представлено как произведение одномерных интегралов, каждый из которых может быть легко вычислен аналитически. Оптимальные значения равны
Для оценки значения может быть использована итерационная процедура, предложенная в [2]:
Регуляризация в семействе симметричных неотрицательно определенных матриц
Выберем следующее семейство матриц регуляризации:
Приравнивая производную обоснованности (3) по матрице к нулю, получаем следующее выражение для оптимальной матрицы регуляризации [4]:
Матрица симметричная, но, вообще говоря, не является неотрицательно определенной. Преобразуем матрицу к диагональному виду . Так как матрица имеет ранг 1, а , то в диагональной матрице только одна компонента может быть положительной. Обозначим ее через . Тогда можно показать, что оптимальная неотрицательно определенная матрица регуляризации может быть получена из заменой всех отрицательных собственных значений на , т.е. .
Задача прогноза температуры плавления халькопиритов
В последнее время внимание исследователей привлекли полупроводники с тетрагональной кристаллической структурой халькопирита. Интерес к халькопиритам вызван перспективами их применения в оптоэлектронике [5,6], солнечной энергетике [6], нелинейной оптике [7] и спинтронике [8]. Задача состоит в прогнозе температуры плавления халькопирита по данным о составляющих его химических элементах. Обучающая выборка состоит из 40 халькопиритов (см. таблицу 1), а тестовая выборка – из 14 элементов (см. таблицу 3).
Для решения данной задачи использовалась гетероскедастичная регрессия, т.к. традиционно в химии точность прогноза температуры измеряется в доле отклонения от абсолютной величины. В экспериментах участвовали три метода: метод релевантных векторов (RVR), предложенный метод с регуляризацией вдоль собственных векторов гессиана логарифма правдоподобия (REVR) и предложенный метод с регуляризацией в семействе симметричных неотрицательных матриц (IREVR). Каждый раз в качестве обобщенных признаков использовались следующие:
а параметр настраивался с помощью скользящего контроля.
Таблица 1. Вещества, входящие в обучающую выборку
AgTlTe2
|
AgFeSe2
|
CuFeS2
|
CuTlTe2
|
CuFeTe2
|
CuInSe2
|
ZnSnSb2
|
CdSnP2
|
AgGaS2
|
LiGaTe2
|
ZnSnAs2
|
ZnGeP2
|
CuTlSe2
|
AgInSe2
|
CuAlSe2
|
CuFeSe2
|
CuInTe2
|
CuGaSe2
|
CdSnAs2
|
CdGeP2
|
CuInS2
|
AgTlSe2
|
AgGaSe2
|
ZnSiAs2
|
LiInTe2
|
CdSiAs2
|
CdSiP2
|
CdGeAs2
|
CuGaTe2
|
CuGaS2
|
AgFeTe2
|
ZnGeAs2
|
ZnSiP2
|
AgInTe2
|
AgInS2
|
CuAlS2
|
AgGaTe2
|
CuAlTe2
|
|
AgAlTe2
|
ZnSnP2
|
|
В таблице 2 приведены результаты экспериментов на обучающей выборке. Для оценки качества использовался следующий критерий:
Значение критерия оценивалось с помощью скользящего контроля (5x2-fold cross validation). Результаты экспериментов приведены для трех наборов признаков. Набор признаков П1 состоит из простых химических признаков каждого из элементов, входящего в состав халькопирита. Набор П2 представляет собой специально отобранные признаки, полученные в результате исследования. Набор П3 – это набор П2 с добавлением логарифмов всех признаков. Результаты прогноза для набора П1 лишь немногим лучше погрешности в 20%, что соответствует точности, с которой эксперт решает эту задачу вручную. Наборы П2 и П3 позволяют добиться точности в 14%, что уже значительно лучше, чем точность экспертной оценки.
Таблица 2. Результаты экспериментов
Метод
|
П1
|
П2
|
П3
|
RVR
|
0.195 ± 0.009
|
0.173 ± 0.027
|
0.155 ± 0.026
|
REVR
|
0.182 ± 0.009
|
0.155 ± 0.004
|
0.142 ± 0.024
|
IREVR
|
0.177 ± 0.007
|
0.151 ± 0.004
|
0.143 ± 0.016
|
В таблице 3 приведен прогноз для тестовой выборки, полученный с помощью метода IREVR.
Таблица 3. Прогноз температуры плавления
Вещество
|
Прогноз
|
Ст.отклонение
|
ZnAlS2
|
1432,1537
|
118,6126
|
ZnAlSe2
|
1265,6839
|
113,9763
|
ZnAlTe2
|
1077,854
|
112,9513
|
ZnGaTe2
|
1006,2543
|
113,4827
|
CdGaTe2
|
901,5154
|
114,5348
|
HgGaTe2
|
688,0056
|
117,1578
|
AgFeS2
|
1177,1537
|
113,7476
|
AgAlS2
|
1430,2483
|
116,9982
|
AgAlSe2
|
1225,4362
|
113,2886
|
ZnGeN2
|
1420,5192
|
116,9595
|
MgSiP2
|
1391,4328
|
118,5705
|
MnGeP2
|
1258,7763
|
115,1215
|
MgGeAs2
|
1201,7747
|
113,6561
|
BeCN2
|
929,7983
|
116,0099
|
Задача синтеза наноразмерного оксида алюминия
Задача синтеза дешевых наноразмерных материалов из окиси алюминия является одной из актуальных проблем современной химии [10]. В качестве предшествующего материала часто используется гидрокарбонат алюмаммония (AACH), для синтеза которого проводится реакция с участием NH4Al(SO4)2 и NH4HCO3. В данном исследовании решалась задача прогноза выхода AACH в процентах при различных условиях этой реакции. Обучающая выборка состояла из 34 объектов, а тестовая – из двух. Результаты экспериментов приведены в таблицах 4 и 5. Эти результаты показывают, что предложенные методы работают в целом лучше, чем метод релевантных векторов, а качество прогноза оказалось лучше, чем у используемого химиками алгоритма решения данной задачи на основе метода опорных векторов [9].
Таблица 4. Результаты экспериментов на обучающей выборке
Метод
|
WRMSE
|
RVR
|
0.061 ± 0.030
|
REVR
|
0.046 ± 0.010
|
IREVR
|
0.036 ± 0.005
|
Таблица 5. Прогноз выхода AACH
Объект
|
Правильный ответ
|
Прогноз [9]
|
Прогноз IREVR
|
1
|
100%
|
96.51%
|
97.51%
|
2
|
100%
|
95.99%
|
96.93%
|
Список литературы
-
C.M. Bishop. Pattern recognition and machine learning. Springer. - 2006.
-
M.E. Tipping. Sparse Bayesian learning and the relevance vector machine // Journal of Mach. Learn. Res. – 2001. – Vol.1. – P.211-244.
-
G.C. Cawley, N.Talbot, M.Girolami. Sparse multinomial logistic regression via Bayesian l1 regularization // Advances in neural information processing systems. – 2007. – Vol.19. - MIT press.
-
D.Kropotov, D.Vetrov. Optimal Bayesian linear classifier with arbitrary Gaussian regularizer // Proc. of 7th Open German-Russian Workshop “Pattern Recognition and Image Understanding”, to appear
-
V.S. Vavilov. Physics and applications of wide bandgap semiconductors // Physics - Uspekhi. - 1994. - V.37, No.3 - P. 269-277.
-
S. Siebentritt. Wide gap chalcopyrites: material properties and solar cells // The solid films. - 2002. V.403-404. - P.1-8.
-
Bai L., Lin Z., Wang Z., Chen C. Mechanism of linear and nonlinear optical effects of chalcopyrite AgGaX2 (X = S, Se, and Te) crystals // J. Chem. Phys. - 2004. - V.120, No.18. - P.8772-8778.
-
Pearton S.J., Abernathy C.R., Norton D.P., et al. Advances in wide bandgap materials for semiconductor spintronics // Mater. Sci. and Eng. - 2003. - V.R40. - P.137-168.
-
Chi-Cheng Ma, Xue-Xi Zhou. Using Support vector machine in the optimization design for the preparation of ACCH
-
Chi-Cheng Ma, Xue-Xi Zhou, et al. Synthesis and thermal decomposition of ammonium aluminate carbonate hydroxide (AACH) // Materials Chemistry and Physics. – 2001. – Vol.72. – P.374-379.
______________________________________________________________________
1 Работа выполнена при поддержке РФФИ (проекты №№06-01-08045, 05-01-00332, 05-07-90333, 07-01-00211, 07-01-12020)
|