Добрый день! Уважаемые студенты, Вашему вниманию представляется курсовая работа на тему: «Построение разных корпоративных моделей, специализированных для целей улучшения дискриминации плохих и улучшения дискриминации хороших заёмщиков»
Оригинальность работы 95%
Введение.
В данной работе автор предлагает схему построения двух классов моделей: с лучшей дискриминацией «хороших» заёмщиков и с лучшей дискриминацией «плохих» заёмщиков,
используя новые метрики качества моделей, применяемые в задачах классификации: левый
и правый интегральные Джини (Помазанов, 2021)) Автору удалось выделить такие классы моделей на данных компаний малого и среднего бизнеса, отбирая переменные для моделирования, ранжируя их по убыванию соответствующих метрик качества. Автор также исследовал оптимизацию интегральных Джини с помощью алгоритма дифференциальной эволюции (Price, et al., 2005). И хотя результаты прямой оптимизации интегральных Джини неоднозначны, сопутствующим результатом стала успешная прямая оптимизация площади под ROC кривой с помощью дифференциальной эволюции.
Для банковского сектора оценка вероятности дефолта клиента очевидный источник потенциальной прибыли и минимизации потерь (Blöchlinger & Leippold, 2006). При этом малый и средний бизнес составляют важную часть кредитного портфеля банка. Но такая традиционная для кредитного скоринга метрика качества как площадь под ROC кривой (AUC) или коэффициент Джини (AR) даёт агрегированную оценку прогностической силы, не различая ошибки в предсказании классов. (Lobo, et al., 2008)
Объект исследования – компании малого и среднего бизнеса (МСБ).
Предмет исследования – свойства скоринговых моделей для МСБ.
Цель работы – построение двух подклассов упрощённых моделей с лучшей дискриминацией «хороших» заёмщиков (правая ROC кривая) и лучшей дискриминацией «плохих» заёмщиков (левая ROC кривая); обобщение опыта построения целево-ориентированных моделей и формулировка рекомендаций к построению таких моделей для расширенного класса объектов.
База данных – внутренняя обучающая выборка для построения моделей МСБ в Промсвязьбанке.
Автор ставит следующие задачи:
1. Отбор значимых параметров моделей на МСБ-базе Промсвязьбанка. Изучение отчётов о построении рейтинговых моделей МСБ.
2. Построение оптимизационных алгоритмов на основе специальных целевых метрик подклассов моделей.
3. Применение наилучших моделей в целевых классах. Их ROC-анализ.
4. Описание полученных классов моделей.
5. Обобщение опыта построения, формулировка рекомендаций.
Оглавление
Введение......................................................................................................................................... 3
Глава 1.............................................................................................................................................. 5
ROC кривая. Эмпирическая ROC кривая....................................................................................... 5
Площадь под ROC кривой (area under curve, AUC)....................................................................... 8
CAP кривая. Связь CAP кривой и ROC кривой............................................................................... 9
Недостатки площади под кривой............................................................................................... 11
Интегральные Джини................................................................................................................ 13
Оптимизация площади под ROC кривой.................................................................................... 14
Глава 2. Данные, дизайн исследования и результаты.................................................................... 17
Данные....................................................................................................................................... 17
Дизайн исследования................................................................................................................. 18
Схема кросс-валидации.......................................................................................................... 19
Доверительные интервалы оценённые бутстрапом............................................................. 20
Отбор переменных по ранжированным спискам факторов риска......................................... 20
Оптимизация целевых метрик с помощью дифференциальной эволюции........................ 21
Результаты................................................................................................................................ 21
Разделение классов моделей с помощью отбора переменных........................................... 21
Оптимизация метрик дифференциальной эволюцией......................................................... 22
Заключение................................................................................................................................... 23
Список литературы........................................................................................................................ 29
Список литературы
Bamber, D., 1975. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. Journal of Mathematical Psychology, 12(4), pp. 387-415.
Blöchlinger, A. & Leippold, M., 2006. Economic benefit of powerful credit scoring. Journal of Banking & Finance, 30(3), pp. 851-873.
Bradley, A. P., 1997. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7), pp. 1145-1159.
Campbell, G., 1994. Advances in statistical methodology for the evaluation of diagnostic and laboratory tests. Statistics in Medicine, 13(5-7), pp. 499-508.
Carpenter, J., 2000. Bootstrap confidence intervals: when, which, what? A practical guide for medical statisticians. Statistics in Medicine, 19(9), pp. 1141-1164.
Cortes, C. & Mohri, M., 2003. AUC optimization vs. error rate Minimization. Vancouver, BC, Canada, Neural information processing systems foundation, pp. 356-360.
Efron, B., 1981. Nonparametric Estimates of Standard Error: The Jackknife, the Bootstrap and Other Methods. Biometrika, 68(3), pp. 589-599.
Engelmann, B., Hayden, E. & Tasche, D., 2003. Measuring the Discriminative Power of Rating Systems.
Bundesbank Series 2 Discussion Paper No. 2003,01.
Good, I. J., 1985. Weight of Evidence: A Brief Survey. Bayesian Statistics, Том 2, p. 249–270.
Hanley, J. A. & McNeil, B. J., 1982. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, April, 143(1), pp. 29-36.
Irwin, R. J. & Irwin, T. C., 2013. APPRAISING CREDIT RATINGS: DOES THE CAP FIT BETTER THAN THE ROC?.
International Journal of Finance & Economics, 18(4), pp. 396-408.
Lobo, J. M., Jiménez-Valverde, A. & Real, R., 2008. AUC: a misleading measure of the performance of predictive distribution models. Global Ecology and Biogeography, 17(2), pp. 145-151.
Mann, H. B. & Whitney, D. R., 1947. On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. The Annals of Mathematical Statistics, 18(1), pp. 50-60.
Moise, A., Clément, B., Ducimetière, P. & Bourassa, M. G., 1985. Comparison of receiver operating curves derived from the same population: A bootstrapping approach. Computers and Biomedical Research, 18(2), pp. 125-131.
Natole, M., Ying, Y. & Lyu, S., 2018. Stochastic Proximal Algorithms for AUC Maximization. б.м., Proceedings of Machine Learning Research, pp. 3710-3719.
Pepe, M. & McIntosh, M., 2002. Combining several screening tests: optimality of the risk score. Biometrics, September, 58(3), pp. 657-64.
Pepe, M. S., Cai, T. & Longton, G., 2006. Combining predictors for classification using the area under the receiver operating characteristic curve. Biometrics, March.pp. 221-229.
Price, K. V., Storn, R. M. & Lampinen, J. A., 2005. Differential Evolution-A Practical Approach to Global Optimization. 1 ed. s.l.:Springer-Verlag Berlin Heidelberg.
Robin, X., Turck, N., Hainard, A. & et al., 2011. pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12(77).
Satchell, S. E. & Xia, W., 2007. Analytic Models of the ROC Curve: Applications to Credit Rating Model Validation.
Tasche, D., 2008. Validation of internal rating systems and PD estimates. In: The analytics of risk model validation. s.l.:Academic Press, pp. 169-196.
Yang, Z., Shen, W., Ying, Y. & Yuan, X., 2020. Stochastic AUC optimization with general loss.
Communications on Pure & Applied Analysis, 19(8), pp. 4191-4212.
Помазанов, 2021. ROC-анализ и калибровка скоринговых моделей на основе метрик точности второго порядка. Управление финансовыми рисками, Issue 2.