Скоринг: выехать на кредитной машине. Человека не забыли. Управление проблемными активами

Средний размер ипотечного займа за март 2014 составил порядка 1.5 млн рублей . Средний размер автокредита составляет
не менее 0.5 млн рублей . Спасибо за предоставленные ссылки.
Исходя из вышеприведенных цифр, можно предположить, что банк умудрился за месяц выдать кредит около двумстам тысячам человек.
Конечно, в этом банке используют скоринговые системы.
Я узнал про скоринговые системы пару лет назад и был потрясен. Сама идея, что бездушная машина может принимать решение о выдаче кредита на основе статистических данных, не выходила из головы. Я захотел поиграть в банк и проверить, выдаст ли компьютер кредиты моим друзьям, just for fun. Настоящие скоринговые системы я никогда не видел, но решил, что это и неважно, напишу сам.
Сказано - сделано.

Осторожно, много изображений!

Вступление

Конечно, это лишь модель, на которой можно обучать студентов-экономистов младших курсов,
зато все мои друзья теперь знают что дифференцированные платежи выгоднее аннуитетных.

Программа написана 2 года назад, за 2 недели, на C# + MSSQL.
Сейчас случайно откопал ее и решил показать хабрасообществу. А вдруг какой-нибудь мелкий банк купит?
Открыл код, испугался, добавил немножко многопоточности и закрыл.

SQL-запросы прямо в обработчиках - это ужасно, я знаю. Но доделывать неинтересно, уже наигрался.

Разработка

Алгоритм с точки зрения клиента примерно такой:
  1. Клиент заполняет анкету с вариантами ответов.
  2. Далее выбирает сумму кредита, в базе данных создается заявка.
  3. Система считает баллы за выбранные ответы и определяет, выдать кредит или нет.
  4. Если кредит одобрен, в базе данных создается договор и таблица платежей.
  5. Клиент выполняет платежи.
  6. Когда накопится статистика, можно посмотреть, какие критерии клиента влияют на его платежеспособность.
  7. ???????
  8. PROFIT!

Значит, для начала нужна анкета, которая по-умному называется «скоринговая карта».
На сайтах 3 крупнейших российских банков были найдены анкеты для получения потребительских кредитов. Собираем из трех одну, распечатываем и создаем экспертную комиссию. Были пойманы 15 человек, этого оказалось достаточно. Эксперт оценивает каждый критерий скоринговой карты в диапазоне от 0 до 100 баллов. Также есть следующие варианты:

  • -1 балл - ответ нестандартный и оценивается кредитным специалистом.
  • -10 - отказ в кредите.

Затем находится средний балл за каждый критерий и получается итоговая анкета.

Показатель Значение показателя Балл
Фамилия -1
Имя -1
Отчество -1
Дата рождения -1
Место рождения -1
Пол -1
-1
Серия, номер -1
Кем выдан -1
Дата выдачи -1
Телефон -1
Адрес -1
Возраст Менее 20 лет 8
20-25 лет 21
25-30 лет 36
30-35 лет 53
35-50 лет 60
50-60 лет 37
60-65 лет 15
Больше 65 лет -10
Проживание Собственное жилье 47
Аренда жилья 13
Общежитие 8
У родственников 10
Воинская часть 9
Другое (уточните) -1
Гражданство РФ 43
Другое (являюсь резидентом РФ) (уточните) 5
Не являюсь резидентом РФ -10
Семейное положение Холост (не замужем) 40
Женат (замужем) 65
Женат (замужем) но живет раздельно 26
В разводе 29
Вдовец (вдова) 34
Наличие детей Нет детей 66
Один 57
Два 48
Три 36
Более трех 24
Наличие иждивенцев Нет 66
Один 57
Два 48
Три 36
Более трех 24
Уровень образования Ниже среднего 11
Среднее 21
Среднее специальное 33
Незаконченное высшее 39
Высшее 58
Несколько высших 77
Ученая степень 84
Занимаемая должность (позиция) Руководитель (дир., зам.дир., гл. бух.) 94
ИП 92
Госслужащий 47
Военнослужащий 56
Специалист 46
Спортсмен 30
Рабочий 32
Студент (неработающий) 9
Пенсионер (неработающий) 8
Безработный 0
Количество мест работы за последние 3 года Одно 52
Два 38
Три 21
Более трех 9
Стаж на данном месте работы Менее 1 года 7
До 3 лет 24
До 5 лет 40
Более 5 лет 56
Общий стаж работы Менее 1 года 10
До 3 лет 20
До 10 лет 37
Более 10 лет 62
Вид деятельности организации Финансы, банки, страхование 37
Консалтинговые услуги 32
Строительство 39
Органы власти и управления 42
Промышленность и машиностроение 37
Инофрмационные технологии/телекоммуникации 38
Оптовая и розничная торговля 35
Транспорт 30
Туризм 36
Охранная деятельность 34
Образование 32
Медицина 30
Наука 33
Вооруженные силы 31
Социальная сфера 21
Другие отрасли (уточните) -1
Среднемесячные доходы -1
Среднемесячные расходы -1
Собственность недвижимого имущества Гараж 38
Квартира 58
Дом 65
Дача 51
Земельный участок 63
Другое (уточните) -1
Наличие транспортного средства Наименование, марка, год выпуска (уточните) -1
Нет транспортного средства 0

Эта анкета заносится в систему.

Вообще, обязательных вопросов всего 2 - «Среднемесячные доходы» и «Среднемесячные расходы». Без них нет смысла в кредитовании вообще. Остальные вопросы можно изменять, удалять, или добавлять свои.

Кнопка «Сортировать» определит максимальный и минимальный балл скоринговой карты, а также определит тип вопроса.
При прохождении анкеты элементы создаются автоматически. Если у вопроса один ответ, он будет отображаться как поле, если больше 1 ответа, он превращается в выпадающий список. Так выглядит анкета с точки зрения клиента.

А это клиент указал наличие транспортного средства, и описал его. Кредитный специалист оценил в баллах данный критерий.

Оценка системой анкеты.

Чистый среднемесячный доход - это разница между доходами и расходами. Для повышения гарантии платежа, в программе учитывается понижающий коэффициент платежа от чистой прибыли, например 0.7. Это значит, если клиент указывает 100 рублей чистой прибыли в месяц, банк рассчитывает до 70 рублей ежемесячного платежа. Чистый доход умножается на данный коэффициент. Коэффициент можно изменять в настройках.

У анкеты существует верхний и нижний предел прохождения. Нижний предел уменьшает количество одобренных кредитов, но повышает платежеспособность клиентов. Верхний предел отсекает мошенников, которые создают идеальные анкеты для максимально выгодного кредита. Верхний и нижний пределы задаются в процентах, их можно изменять в настройках. Если анкета клиента, а точнее, сумма баллов за анкету проходит в окно между верхним и нижним пределами, кредит считается одобренным. Теперь клиент может выбрать одно из кредитных предложений, сумму и продолжительность выплат. Выплаты можно посчитать аннуитетными или дифференцированными платежами.

Клиент хочет получить 230 000 рублей со сроком выплаты 24 месяца дифференцированными платежами под 22,5 процента. За 24 месяца клиент выплатит 283 906 рублей.

Вот график платежей.

Потными от волнения руками нажимается кнопка «Оформить». Первый платеж клиента самый большой, он составляет 13 896 рублей. Месячная платежеспособность клиента определена в 14 611 рублей, поэтому банк согласен выдать кредит.

Ура! Если кредит одобрен, создаются заявка, договор и таблица платежей.

Обратите внимание на статус - клиент плохой. Статусов всего 2 - хороший и плохой. Почему плохой, клиент же только что взял кредит? Дело в том, что первый платеж должен поступить уже сегодня.

Система определяет статус клиента по таблице платежей. Для каждого платежа указана дата. Определяются платежи, которые на сегодняшний день уже должны быть оплачены. Клиент признается плохим, если количество невыплат:

  • ≥ 1/3 от всех платежей по договору, или
  • ≥ 4 (задается в настройках).

Платеж оплачен, транзакция прошла!
Если честно, то номера счетов, договоров, заявок и транзакции платежей генерируются случайным образом, и для работы системы не нужны вообще. Но я же солидный банк!
Зато клиент стал хорошим.

Грязный хак - можно хорошего клиента сделать плохим, отменив его платежи.

Статистика

И наконец-то добрались до самого интересного - статистики!
Список вопросов формируется из анкет клиентов, которым одобрен кредит.
Можно выбрать любой вопрос и смотреть соотношение хороших/плохих клиентов.

Кредитное предложение «Добрый кредит»

Можно создавать свои кредитные предложения. Редактор позволяет задать максимальную сумму и длительность выплат, выставить процентную ставку в зависимости от размера кредита.

А теперь я хочу взять 140 000 рублей на год под «Добрый кредит».

Переплата 303 рубля - мечта!

Но вот все друзья получили кредит, статистика идеальна, рынок насытился. Банк в стагнации. Что делать? НУЖНО БОЛЬШЕ КЛИЕНТОВ! Где их взять? Сгенерировать!

Генерация клиентов

Были найдены текстовые файлы:

Итак, генератор для стандартной анкеты:

Вопрос Ответ
Пол Случайно
Имя Из списка
Фамилия Из списка
Отчество Имя из списка плюс «ович» или «овна»
Место рождения Из списка
Дата рождения От 1940 г. до 1997 г.
Документ, подтверждающий личность Паспорт
Номер паспорта От 0000 000000 до 9999 999999
Дата выдачи Любой момент, с тех пор как клиенту исполнилось 14 лет
Место выдачи Из списка
Среднемесячные доходы От 4 тыс. до 60 тыс. руб.
Среднемесячные расходы От 2 тыс. до 30 тыс. руб.
Остальные вопросы Случайно
Кредитное предложение Случайно
Сумма кредита От 1 тыс. руб. до максимальной суммы кредитного предложения
Количество месяцев выплат От минимального до максимального для данного кредитного предложения

Хотя доходы в 2 раза превышают расходы, все равно иногда попадается, что чистый доход отрицателен.

Если выбран ответ с уточнением, заявка аннулируется, а в строке состояния появляется подпись «Невозможно сгенерировать заявку с уточнением».

Если кредит одобрен, то генерируются выплаты. Вероятность неплатежа равна 1/20, но некоторым клиентам не везет и они пропускают по 4 платежа подряд.

Генератор был вынесен в главное меню, можно создать 1 или сразу 200 заявок.

Также генератор есть при прохождении анкеты.

Баллы сгенерированных клиентов подчиняются нормальному распределению. Крайний левый столбец - это те, кому отказано в кредите.

В анкетах конечно получаются глупости, зато статистика сразу стала повеселее!

Вывод - худшим клиентом является холостой (незамужняя) индивидуальный предприниматель, с несколькими высшими образованиями.

Могут понадобиться

Вы не применяете скоринговые карты в рекрутинге? Это плохо!
После моего семинара Аналитика для HR один из участников (из кредитной организации) подошел к риск – менеджеру компании, и они (HR и риск – менеджер) заговорили на одном языке.

Что такое скоринговые карты

Скоринговые карты придут в HR из риск-менеджмента. В риск –менеджменте
Скоринговые карты - Набор характеристик (возраст, доход, профессия, стаж работы, наличие имущества и т.д.) заемщика и соответствующих весовых коэффициентов, выраженных в баллах. Соискатель кредита сообщает о себе необходимые сведения и ему начисляется определенное количество баллов. В зависимости от числа набранных скоринг-баллов рассчитывается максимальная сумма кредита, которую банк готов был предоставить заемщику.
Вот на днях взял книгу издательства Манн, Иванов и Фербер Скоринговые карты для оценки кредитных рисков

Пример

Все мы получали кредит (или почти все). И помним, что размер выплат, первоначального взноса и сама возможность выдачи кредита зависит от нескольких параметров:
  • Возраст
  • Доход
  • Доход со-заемщика
  • Количество членов семьи (ну или типа такого).
  • Наличие кредитов в других банках
  • И т.п…
Каждый из этих параметров переводится в стандартные балы: например,
  • Возраст 35-40 лет – 94 бала
  • Доход 1 500 – 2000 долларов – 75 балов
  • И т.п..
Зная эти параметры, мы можем выйти на планку выдачи кредита, просто слагая балы.

Как это можно использовать в HR

Как принимается в компании решение о приеме на работу?

  • Чаще на глазок.
  • Иногда есть профиль требований к должности
  • Иногда модель компетенций…
У нас есть набор требований к кандидату:
  • Возраст
  • Образование
  • Опыт работы
  • Компетенции
Решение легко принять, если все параметры подходят. А если нет? Что важнее: опыт, компетенции или образование?
И вообще: важно ли образование? И кто в компании принимает решение: важно образование для данной должности или нет? Непосредственный руководитель? А если посмотреть бекгрануд данного руководителя и увидеть, что у него самая высокая текучесть, можно после этого дать ему полную свободу в выборе? Ну и т.п..

Скоринговые карты в HR

В идее скоринговых карт для HR зашито две (на мой взгляд) здравые идеи:
  1. Определение веса каждого параметра кандидата
  2. Объективация оценки факторов
Этому есть правда много преград:
  • Нелюбовь рекрутеров к excel;
  • Отсутствие общей информационной культуры;
  • Отсутствие соответствующей информационной инфраструктуры в виде программного обеспечения;
  • Недостаточная квалификация аналитиков;
  • Сопротивление менеджмента.
Но все преграды перевешивает

Светлое будущее

В результате рекрутер может по таблицам определять общий сводный бал кандидата и принимать решение о приеме / не приеме и прогнозировать успешность / неуспешность кандидата в работе.
Представляете картину, когда кандидат приходит на получасовую беседу с рекрутером, а последний как тот же кредитный менеджер оценивает вас через призму анкеты.
В итоге компания выиграет на оптимизации рекрутинга, что мелочи в сравнении с тем, что компания выиграет на оптимизации работы с персоналом, повысив эффективность, выбирая только лучших, снизив текучесть персонала.

Почему это утопия?

Куда денутся все тренинги по подбору персонала? Возьмите нормального рекрутера и проведите эксперимент. Предложите на выбор изучить практику скоринговых карт или пойти на тренинг по подбору персонала к ….
Потом еще 100 рекрутеров возьмите и спросите их про тоже самое…
Потом вы придете к знакомому HR-директору, который скажет: это все замечательно, но у меня вчера один отдел всем составом заявление об увольнении написал, а ты ко мне со своими планами пристаешь.
И пойдете вы к знакомому риск менеджеру чай пить…
Если все -таки вы хотите начать нелегкий путь к использованию скоринговых карт в рекрутинге для оценки кандидата при приеме на работу, то начните со сбора информации. ну хотя бы как здесь

При подборе персонала на вакантные должности компании (особенно в массовом подборе) специалисты сталкиваются с большим количеством рисков. Эти риски связаны с ошибочным отсевом кандидатов и как следствие с принятием на работу не профессионалов, что в дальнейшем может порождать все новые и новые цепочки рисков. Следовательно специалисту по подбору персонала важно располагать инструментами, помогающими быстро и по универсальным параметрам оценить степень риска при рассмотрении того или иного кандидата. «Скоринг» (от англ. Scoring) - дословно подсчет очков в игре. В бизнесе скоринг активно используют в маркетинге, страховании, у сотовых операторов в телекоммуникационной сфере и наиболее широко - при кредитовании физических лиц. В общем виде скоринговая модель представляет собой математическую модель, описывающую зависимость степени риска от набора входных факторов. Реализацию данная модель находит в скоринговых картах. Например, применительно к кредитованию - это некоторый набор основных характеристик заемщика, таких как возраст, доход, профессия, стаж работы, наличие имущества и т.д. и соответствующих весовых коэффициентов, выраженных в баллах. Потенциальный заемщик заполняет анкету, сообщая таким образом необходимые для анализа сведения о себе. В результате функционирования скоринговой модели для каждого потенциального заемщика получают интегральный показатель, представляющий собой взвешенную сумму определенных признаков. Надежность клиента можно оценить по уровню данного значения. В зависимости от суммы набранных скоринг-баллов банк определяет класс риска и рассчитывает максимальную сумма кредита, уточняет процентную ставку и срок. Основными критериями банковского скоринга физических лиц являются значения следующих параметров: возраст, пол, совокупный доход (как заемщика, так и поручителей), количество иждивенцев, место жительства и работы и т.п. Каждый из этих параметров переводится в стандартные балы. Подобный подход логично использовать и в процессе принятия решения по отбору кандидатов как при отборе на открытые вакансии или при отборе кандидатов в кадровый резерв. Модель скоринговой оценки строится на основе накопленных данных о зависимости дефолта (увольнения, несоответствия занимаемой должности и т.п.) потенциального кандидата от определенных характеристик. После чего используя статистический аппарат и приемы математического моделирования, составляется скоринговая карта. В процессе моделирования разрабатывается несколько скоринговых карт, каждая из которых будет зависеть от типа вакансии и ряда других признаков. При анализе, сопоставив конкретные анкетные данные о потенциальном или действующем кандидате на вакансию со скоринговой картой, получают соответствующий результат. Для построения эффективной скоринговой модели необходимо решить следующие задачи. На первом этапе необходимо определить ключевую цель, т.е. для чего конкретно будет использоваться скоринг (оценка кандидата, определение оптимальной стратегии по кандидатам на испытательном сроке и т.п.). На втором этапе выделяют показатели, которые будут использованы для моделирования, а также источники их получения. Например, знания кадровых специалистов о требованиях вакансии и компетенциях соискателей, статистика по уже работающему персоналу, учитывающая «успешных» и «плохих» кандидатов. На третьем этапе проводится предварительный анализ данных, их очистку и подготовку, ведь каждый соискатель обладает своим уникальным набором параметров. Для такого анализа необходима унификация данных и специализированное программное обеспечение бизнес-анализа класса Business Intelligence (BI). Система должна предоставлять возможность обработки данных: просмотра, фильтрации, поиска, ручной и автоматической замены. Часто для лучшего понимания данных и для определения их целостности необходимо проводить экспресс-анализ, который осуществляется на основе базовых статистик распределений. Следовательно, система должна уметь проводить частотный анализ и строить распределения. Если очистка данных произведена, необходимо подготовить данные к моделированию. До начала построения модели следует рассчитать на основе функциональных зависимостей все возможные производные параметры, которые будут использованы для дальнейшего анализа. На четвертом этапе полученные признаки разбиваются на классы, выявляются их предиктивные характеристики. Большинство алгоритмов скорингового моделирования основываются на классификации элементов (соискателей), обладающих одинаковыми признаками. Кроме того, в процессе построения модели появляется необходимость разбиения некоторых признаков на классы. Основной принцип в данном случае - группировка соискателей с максимально похожим поведением в один класс. Такой подход основывается на экспертных данных. На основе проводимого анализа выделяются предиктивные характеристики, между значениями которых и вероятностью негативного события существует корреляция. Теоретически предиктивным может быть любой параметр, характеризующий соискателя. К ключевым характеристикам могут быть отнесены следующие: возраст, средний срок работы на одном месте, стаж работы, место жительства, наличие кредитов, количество детей/иждивенцев и т.п. Для каждой модели составляется свой перечень предиктивных характеристик. На основе статистических данных и экспертных оценок для каждой характеристики вводится свой весовой коэффициент, определяющий степень ее влияния на вероятность возникновения негативного события. Отобранные предиктивные характеристики анализируются в совокупности. Это связано с существованием возможных корреляций. Может оказаться, что ввод дополнительной характеристики в модель ухудшит ее качество. На пятом этапе строится нескольких вариантов моделей, из которых выбирается наиболее оптимальный с точки зрения соотношения «качество/ стабильность». На шестом этапе определяют уровень стабильности модели, т.е. ее способность сохранять точность в течение какого-либо будущего периода. Стабильность построенной модели определяется аналитиком на основе тестовых данных. Если на тестовых данных система показывает эффективность, схожую с эффективностью на обучающих данных, считается, что модель стабильна. На седьмом этапе формируют балл отсечения, который базируется на стратегии, используемой фирмой (массовый подбор или закрытие «уникальной» вакансии, поиск уникального специалиста и др.). Балл отсечения устанавливается в зависимости от выбранного приоритета. При внедрении скоринговой модели в практику работы, специалисту по кадрам необходимо определить коэффициенты для различных факторов-характеристик надежности соискателя. Следовательно, кадровый специалист должен быть в состоянии оценить текущую ситуацию на рынке. В результате такой оценки получают набор факторов с весовыми коэффициентами и пороговое значение (балл отсечения), которые являются весьма субъективным мнением и зачастую являются статистически необоснованными. На последнем, восьмом этапе оценивают эффективность разработанной модели При использовании скоринговых карт в подборе персонала специалист по кадрам сможет быстро определять общий сводный бал кандидата и принимать решение о приеме/не приеме, а также прогнозировать успешность/неуспешность кандидата в работе. Преимуществом применения скоринговых карт при массовом подборе (когда обрабатываются данные о сотнях потенциальных соискателей) является возможность получения общего балла каждого кандидата, и автоматическое отсечение тех, кто не набирает «установленного достаточного минимума». Ценность применения скоринговой модели также и в том, что: - легко структурировать и визуализировать полученные данные при подборе на любую должность; - у специалиста по кадрам появляется четкое понимание, что необходимо узнать о соискателе и из какого источника; - оценки становятся стандартизированными, увеличивается прозрачность процедуры отбора в целом; - компания может легко проследить корреляцию между характеристиками нанятых сотрудников и их дальнейшей эффективностью Тем не менее, скоринговые карты не могут полностью заменить специалиста. Как и в банковском деле при нестандартных ситуациях (сложных вакансиях) окончательное решение должно приниматься не по набранным баллам, а по результатам дополнительного анализа соискателя и живого собеседования с ним. Применяя скоринговые карты предприятие оптимизирует бизнес-процессы подбора персонала, повысит эффективность, выбирая только лучших из кандидатов, и снизит риски текучести персонала.

В Европе существует большое количество стран, где кредитный скоринг применяется очень успешно, а проблемы мошенничества или отсутствия корректной информации в кредитных бюро или внутренних базах данных банка стоят не менее остро, чем в России.

Кредитный скоринг, как и другие предикативные модели, является инструментом для оценки уровня риска заемщика. Применяя различные статистические и вероятностные подходы, мы назначаем заемщикам скоринговые баллы, разделяя их на «хороших» и «плохих». Эти скоринговые баллы наряду с другими финансовыми характеристиками, такими как ожидаемый уровень выдачи кредитов, прибыль, потери, помогают в конечном итоге принять решение.

Простейшая скоринговая карта, которая используется при выдаче новых кредитов, состоит из набора характеристик, достаточно значимых со статистической точки зрения, способных разделять данные на «хорошие» и «плохие». Подобный формат карт используется непосредственно в ЗАО «ВТБ24», и имеет следующие обоснования:

l подобное представление баллов легко интерпретировать. Оно соответствует любому регулирующему требованию, обеспечивая необходимую прозрачность;

l причины для отказов, низкий или высокий балл можно легко объяснить, используя стандартные формы отчетности;

l «облегченная» структура скоринговой карты помогает аналитикам выполнить свои функции, не имея глубоких знаний в области статистики или программирования. Это делает скоринговую карту эффективным инструментом для управления рисками.

Скоринговые модели в бизнес-контексте - это инструмент принятия разнообразных кредитных решений, элемент общей стратегии розничного банка. Скоринговые модели в потребительском кредитовании используются на различных этапах работы с клиентом, начиная с получения первой заявки от заемщиков, через организацию работы с текущими заемщиками, и заканчивая прогнозированием возможного уровня потерь в кредитном портфеле и созданием необходимых резервов.

Итак, имея некоторую кредитную историю собственных заемщиков, ВТБ24 создает собственные скоринговые карты, с помощью которых будет оптимизирована работа розничного бизнес-подразделения, а значит, увеличена эффективность всего кредитного портфеля Банка. Процесс разработки и внедрения скоринговых карт, а так же его неотъемлемые компоненты, необходимые для успешного внедрения проекта в Банке, обобщены и приведены в таблице 1.

Таблица 1 - Этапы построения и внедрения скоринговой карты

Подготовка проекта

Работа с данными

Техническое внедрение

Постановка задачи; определение приоритетов; планирование проекта; формирование команды; оценка ИТ-систем

Сбор данных; очистка данных; анализ данных; применение аналитических методов; построение скоринговых карт; валидация карт

Доработка программного обеспечения; внедрение стратегии в программное обеспечение

Минимальное время

Необходимые человеческие ресурсы

Руководитель проекта

Руководитель проекта Разработчик скоринговой карты и специалисты по обработке данных

Руководитель проекта;

ИТ-менеджер

Технические ресурсы

Программное обеспечение для проведения аналитического исследования и построения карт

Фронт-офисное решение для скоринга новых заявок, или коллекторское ПО, или CRM-системы для работы с существующими клиентами банка

Процесс построения скоринговой карты - это синтез информационных технологий (IT) и статистического исследования данных. Только подобная комбинация в сочетании с аналитикой и пониманием бизнес-задач может гарантировать успешный результат. В отличие от уже готовой карты самостоятельно построенная банком скоринговая карта - это не «черный ящик». Опыт показал, что если формирование скоринговых баллов происходит изолированно, то это может привести к различным проблемам наподобие включения характеристик, данные по которым больше не собираются или являются недостаточно достоверными и которые в результате приводят к всевозможным «сюрпризам», а зачастую просто неприменимы. Поскольку процесс построения скоринговой карты комплексный, то на разных стадиях, соответственно, задействованы разные специалисты. Успешное завершение проекта возможно лишь при условии, что есть четкое понимание, какие ресурсы необходимы, и обеспечение наличия этих ресурсов в нужный момент в нужном месте.

Построение скоринговой карты в ЗАО «ВТБ24» включает в себя следующие этапы:

1 Этап: Анализ ситуации. Создание бизнес-плана и выбор стратегии

Существует ошибочное мнение, что разработка скоринговой карты начинается со сбора данных. Это в корне неверно. Прежде всего, необходимо идентифицировать цели проекта и соответствующий состав участников проекта.

Идентификация цели помогает расположить задачи по степени их важности: например, увеличение дохода - уменьшение потерь. Это повышает жизнеспособность проекта, устраняя возникновение сюрпризов, когда, например, банк неожиданно принимает решение об уменьшении балла отсечения с целью выдачи большего количества кредитов или об увеличении того же балла с целью сокращения потерь. Таким образом, цель должна быть определена заранее, что поможет избежать проблем в будущем, будь то:

l сокращение процента задолженности/мошенничества;

l увеличение количества выдаваемых кредитов;

l увеличение доходности;

l увеличение операционной эффективности (например, чтобы лучше управлять технологическим процессом);

l уменьшение расходов или увеличение скорости оборота капитала путем автоматизации;

l улучшение прогнозной силы модели (по сравнению с существующей).

В конечном итоге цель также влияет на процесс валидации и внедрения построенной скоринговой карты, определяя «лучшую» скоринговую карту из имеющихся в наличии. Как правило, на практике приходится сталкиваться сразу с несколькими целями из тех, что были перечислены выше.

Бизнес-план определяет, какие скоринговые карты будут использоваться в проекте, внутренние (построенные в процессе проекта) или внешние (готовые), и обосновывает этот выбор. Готовые карты используются не только тогда, когда в банке нет достаточной кредитной истории. Подобное решение может быть также вызвано отсутствием определенных ресурсов, необходимых для проекта, или отсутствием опыта построения скоринговой карты для специфического продукта, сжатыми сроками по времени или стоимостью внутренней разработки.

Готовые карты бывают также полезны, когда компания предлагает новый продукт, по которому еще не имеется никаких данных в прошлом, но существуют данные по отрасли; когда объем продаж того или иного продукта не покрывает стоимости построения скоринговой карты.

Бывают также случаи, когда статистически невозможно использовать скоринговые карты, ни внутренние, ни внешние. Это происходит обычно из-за очень низких объемов продаж, которые не оправдывают затраты, связанные с любой скоринговой картой. Встречаются также продукты, для которых не существуют готовые скоринговые модели. При таких обстоятельствах модель строится на базе так называемого экспертного мнения.

Развитие такой модели также включает в себя селективный отбор характеристик, обладающих (предположительно) хорошей прогнозной силой, и назначение баллов по каждому признаку, как это происходит со статистическими моделями. Однако внедрение подобной модели производится на основе коллективного опыта, а получающаяся модель отражает проводимую банком политику. В любом случае формирование таких субъективных моделей должно происходить при участии департаментов маркетинга, управления рисками и других соответствующих структур.

2 Этап: Наличие и сбор данных

По времени это наиболее длительный этап, требующий привлечения большого количества ресурсов. На этом этапе определяется, насколько выполним проект по формированию скоринговой карты, а также его основные параметры. Параметры включают в себя исключения, определение цели, выборку и «окна созревания». Оценивается пригодность данных: их качество и количество. Для построения скоринговой карты необходимы надежные и чистые данные с минимальным числом отсутствующих значений, повторных записей и т.п. Этот процесс можно сделать более эффективным, если данные размещать в специальных хранилищах или витринах данных.

Очевидно, что для решения различных скоринговых задач разработчиками скоринговых карт используются различные данные. Как правило, характеристики для скоринговой карты могут быть выбраны как из одного, так и из нескольких источников данных. Суммируя описание данных, которые могут быть использованы для построения различных скоринговых моделей, можно сказать, что данные всегда разделены на две части: в первой - все переменные, которые используются для предсказания того или иного события (например, дефолта), во второй - переменная, характеризующая наступление того или иного события.

Количество необходимых данных может быть разным, но в целом оно должно удовлетворять требованиям статистической значимости и хаотичности. На этом этапе точное количество данных не имеет значения, так как это зависит от определения «плохого» заемщика, которое будет установлено на следующем этапе. Однако по правилам для корректного построения скоринговой карты претендента достаточно приблизительно 2 тыс. «плохих» записей и 2 тыс. «хороших», которые могут быть случайно выбраны для каждой скоринговой карты из набора заемщиков, получивших кредит в течение определенного интервала времени. Для поведенческих скоринговых карт это будет уже другой набор данных, отражающий «платежное» поведение клиента, а для скоринговых карт должников используются записи со статусом просрочки платежа. Данные об отказах (2 тыс. записей) также могут применяться для построения скоринговой карты. Количество заявлений и отчеты по потерям/просрочкам платежей дают первоначальную идею относительно цели и степени ее достижения. На практике труднее найти достаточное количество «плохих» записей, чем «хороших».

Проектная команда также должна определить, насколько «надежны» внутренние данные, предназначенные для разработки скоринговой карты. Демографические данные, а также неподтвержденные публичные данные, например доход, указанный самим заемщиком, могут оказаться искаженными, в то время как данные кредитного агентства, сведения о регистрации недвижимого имущества, финансовая отчетность и т.д. являются более достоверными и реально могут использоваться. Если решено, например, что данные о заемщиках, предоставленные филиалами, ненадежны, то скоринговая карта может быть построена исключительно на данных кредитного бюро.

Банк решает самостоятельно - разработать скоринговую карту на основе только внутренних данных или добавить к этим данным еще и внешние источники, такие как кредитные бюро и внешние информационные провайдеры. Предпочтительно иметь эти данные в электронном виде, хотя в российской банковской практике, к сожалению, до сих пор практикуется «бумажный» вариант анкет заемщика, которые буквально вручную приходится вносить в компьютер. Естественно, это требует дополнительных ресурсов и задерживает процесс разработки. При этом любопытен тот факт, что региональные отделения в этом вопросе зачастую оказываются более «подкованными» и «продвинутыми» по сравнению с центром.

Определившись с типом данных, следует переходить к непосредственному их сбору. Собирать их необходимо в строго определенном формате, отражающем параметры проекта разработки скоринговой карты.

Проектные параметры прежде всего включают в себя определение «хороших» и «плохих» заемщиков, временной горизонт и ограничения (исключения) в использовании определенных данных при создании выборки и непосредственно в процессе разработки карты.

Есть поля, обязательные к заполнению, а есть опционные. В первую очередь нас интересуют следующие поля, извлеченные из данных:

l номер клиента/идентификационный номер;

l дата обращения/получения кредита;

l демографические характеристики заемщика;

l история задолженности в течение жизни скоринговой карты;

l индикатор заявки заемщика - Одобрить/Отказать;

l продукт (тип кредита);

l текущий статус заемщика (например, нет операций по счету/счет закрыт/потеря пластиковой карты/мошенничество и т.д.)

При разработке скоринговой карты поведения заемщика учитывается вся информация на протяжении определенного временного интервала, обычно за последние 6 - 12 месяцев.

В зависимости от бизнес-целей карты в нее могут добавляться всевозможные другие данные, в том числе демографические: возраст, регион, время проведения определенных акций, индикаторы на основе данных бюро и любые другие критерии, которые могут оказаться полезными при создании всестороннего профиля клиентской базы вашего банка.

Данные формируются в структуре, соответствующей задаче проекта. Например, эти банковские данные могут быть размещены с многократными строками для каждой комбинации продукта/учетной записи или с отдельной строкой для каждой учетной записи и многократных столбцов для каждого продукта.

Подготовка данных занимает 90% ресурсов проекта. В принципе, процесс моделирования мог бы принести гораздо большую выгоду, но после изнурительной фазы подготовки данных времени, чтобы провести очистку моделей предсказания, как правило, просто не остается.

Угроза срыва проекта кроется на стадии подготовки данных, когда они идентифицируются, трансформируются и собираются из различных источников, преобразуются и объединяются. Во многих случаях получение данных занимает столько времени, что на выполнение других задач, в том числе и анализа данных, его уже практически не хватает.

3 Этап: Качество и очистка данных. Определение параметров проекта. Период «созревания».

Скоринговые карты строятся исходя из предположения о том, что «прошлое отражает будущее». Таким образом, базируясь на данных об открытых ранее кредитах и анализируя имеющуюся информацию, можно предсказать результат (поведение) будущих заемщиков. Для того чтобы корректно выполнить этот анализ, нужно собрать необходимые данные за определенный промежуток времени, а затем осуществить их мониторинг в течение другого определенного отрезка времени и оценить, были они хорошими или плохими. Собранные данные (переменные) наряду с соответствующей классификацией (цель: «хороший»/»плохой») составляют основу для разработки скоринговой карты.

Процесс определения временного горизонта может быть представлен следующим образом. Предположим, что очередной кредит был предоставлен 1 февраля 2009 г. В некоторый момент времени в будущем (например, через 90 дней) вы должны будете определить, был ли этот заемщик «хорошим» или «плохим». «Окно созревания» представляет собой тот промежуток времени, когда заемщик, собственно говоря, имел возможность себя проявить (цель: 90+). «Окно выборки» представляет собой тот промежуток времени, когда те или иные заемщики отбираются для анализа (попадают в выборку). Рекомендуется также проанализировать, какой период «созревания» является идеальным для того или иного продукта (региона, типа клиента и т.п.). В некоторых случаях, таких как мошенничество и банкротство, временной период уже известен или предопределен. Но, тем не менее, вышеописанный анализ полезно выполнить для того, чтобы определить идеальное «окно созревания».

Самый простой способ определить «окна созревания» и «выборки» состоит в том, чтобы проанализировать портфель на предмет просроченной задолженности и применить различные сценарии «плохих» случаев в течение определенного времени: просрочка более 30,60,90 дней. Хороший источник для подобных данных - ежемесячная или ежеквартальная отчетность, имеющаяся в любом отделе кредитных рисков.

4 Этап: Исключения

Определенные записи о заемщиках должны быть исключены из выборки, используемой для разработки скоринговой карты. В целом набор данных для скоринга должен отражать обычную (нормальную) ситуацию и реальных заемщиков, которые ежедневно обращаются в банк с целью получения кредита. Скоринговые карты, разрабатываемые для определенных целей, например, выявление мошенничества, могут также использовать некоторые дополнительные критерии и, соответственно, особые выборки. Подобные наборы данных специфичны и имеют определенную направленность: это работники самого банка, VIP-клиенты, зарубежные клиенты, «отказники» по кредитам, заемщики с утерянными/похищенными карточками, несовершеннолетние или умершие. Заметим, что некоторые программные разработчики скоринговых карт (например, SAS) сознательно включают данные об «отказниках» для того, чтобы восстановить реальный портрет клиента с улицы. С точки зрения логики это является наилучшим подходом.

Другой способ применения метода исключений состоит в том, что можно рассматривать только определенный сегмент (однородную аудиторию, которая принимается за типичную). Например, если задача состоит в построении скоринговой карты для больших городов, то туда не стоит включать записи о заемщиках, проживающих в сельской местности. Точно так же любой регион в силу своих демографических и географических (климатических) особенностей заслуживает разработки собственной скоринговой карты на основе данных о клиентах исключительно данного региона.

Обычно скоринговая карта включает от пяти до пятнадцати параметров. Что это за параметры и как они оцениваются, узнать постороннему человеку невозможно. Такая конфиденциальность объясняется высокой ценой продукта. Банк или покупает его у компании-разработчика, или же разрабатывает самостоятельно, анализируя собственное «кредитное кладбище», то есть базу данных по невозвращенным кредитам, и пытается найти общее между недобросовестными плательщиками. Во втором случае банку приходится поначалу настежь распахнуть ворота и выдавать деньги лишь на основе документов, подтверждающих платежеспособность заемщика.

Итак, разработка скоринговых карт позволяет во многом облегчит работу банка в части оценки уровня риска, а так же значительно сократить время на обработку кредитной заявки за счет уже имеющихся данных в так называемом «кредитном кладбище».

Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине изумительной быстротой. (Дж. Бокс)

Cкоринг-карты

Начальный анализ характеристик определяет набор тех из них, которые должны быть учтены в итоговой модели и преобразует их в группированный формат переменных. На стадии составления предварительной скоринг-карты различные методики прогнозирования могут использоваться для нахождения такого набора характеристик, который способствует обеспечению наибольшей точности прогноза.

Применяются методы логистической регрессии, а также деревья решений и нейронные сети. Вообще говоря, итоговые скоринг-карты, создаваемые на этой стадии, должны состоять из 8-20 характеристик. Такое количество значений берется для обеспечения устойчивости карты даже при изменении одной или нескольких характеристик. Скоринг-карты с очень маленьким набором характеристик как правило, не выдерживают испытаний, так как они неустойчивы при малейших изменениях в выбранном профиле (наборе характеристик).

Вне зависимости от используемой методики моделирования, результатом работы должна явиться готовая скоринг-карта, состоящая из оптимальной комбинации характеристик, принятых во внимание, например, могут учитываться:

  • корреляция между характеристиками;
  • статистическая сила скоринг-карты;
  • интерпретируемость выбранных характеристик в конкретной отрасли/отделе;
  • используемые средства моделирования;
  • понятность методологии, соответствие предъявляемым требованиям.

Понятие профиля риска

Скоринг-карты могут разрабатываться и использоваться для различных целей: максимизации качества статистических показателей, эффективности (с использованием небольшого числа переменных), и т.д.

В бизнесе скоринг-карты разрабатываются, чтобы помочь специалисту в принятии решений. Они выступают в роли арбитров, хранят в себе правила для принятия решений. Опытный специалист никогда не будет принимать свое решение исходя только из 4-5 правил формы приложения или истории расчетов. Скорее, он проанализирует сразу несколько обобщающих показателей для формирования профиля риска клиента. Так почему же скоринг-карты разрабатываются всего с 4-5 переменными или характеристиками?

Цель процесса разработки карт - построить наиболее полный профиль риска для каждого клиента. Такой широкий подход делает скоринг-карты не только более эффективными, но и менее восприимчивыми к изменениям в одной отдельной области. Такой профиль риска должен включать в себя характеристики, отражающие столько независимых типов информации, сколько возможно. Для примера, кредитная скоринг-карта пользователя должна включать в себя: демографическую информацию о клиенте (возраст, место проживания, регион и стаж работы); раздел кредитных характеристик, отражающих владение недвижимостью, профессию, платежеспособность, некоторую финансовую информацию, а также степень доверия клиенту в отношении погашения долгов (общий коэффициент невозвращения долга), а также другую значимую для рассмотрения информацию о существующих пользователях.

Профиль пользователя также помогает при последующем мониторинге скоринг-карт по релевантности. Большинство аналитиков, занимающихся изучением рисков, используют ежемесячные отчеты типа "стабильность системы" или "стабильность численности клиентов" для подтверждения эффективности применения карт при текущей численности клиентов. Эти отчеты показывают меры эффективности, исходя лишь из характеристик, используемых в скоринг-карте. Общий же профиль риска более реалистично отражает текущие изменения численности, чем при использовании ограниченного количества переменных из скоринг-карты.

Создание карты клиента на основе профиля риска в теории практически ничем не отличается от других процедур прогнозного моделирования. Разница состоит лишь в представлении конечного набора характеристик. Существует большое количество разнообразных методов, которые могут быть использованы для включения значений профилей рисков клиента в скоринг-карту. Оставшаяся часть статьи будет посвящена методам, использующим logit-регрессию для построения скоринг-карт клиентов.

Logit-регрессия

Logit-регрессия применяется для разработки скоринг-карт в большинстве приложений финансовой сферы, где переменные являются категориальными. В случае непрерывных переменных прогноза используется линейная регрессия. Далее будет рассмотрено использование множественной logit-регрессии для прогноза бинарной переменной (имеющей значения плохо/хорошо).

logit-регрессия, как и большинство других методов прогнозирования, использует набор характеристик прогнозирования для определения вероятности (или возможности) достижения результата (цели). logit-преобразование уравнения возможности наступления события выглядит следующим образом:

Р - итоговая вероятность наступления события;

Х - зависимые переменные;

Начальный(нулевой) уровень линии регрессии;

Параметры

Логит-преобразование - это логарифм отношения вероятности наступления события к вероятности его ненаступления: log(p(наступления события)/р(ненаступления события)), и используется оно для линеаризации итоговой вероятности, ограничивая вероятность от 0 до 1. Для оценки параметров и используется метод максимального правдоподобия. Эти параметры оценивают меру изменения результата логит-преобразования при изменении входной переменной на одну единицу (в согласовании с другими входными переменными). На самом деле, эти коэффициенты показывают наклон линии регрессии между переменной-целью (target), и соответствующей входной переменной .

Параметры зависят от единицы измерения входной переменной, например, выражаются в процентном отношении к объему всех анализируемых данных, и их необходимо стандартизировать для облегчения анализа. Стандартизация может быть выполнена различными методами, включая и метод стандартизированных оценок. Другой способ стандартизации состоит в общей отмене единиц измерения входных данных, и выполнении регрессии не на входные данные, а на WOE для каждой группировки, созданной на прошлом шаге.

Регрессия подразумевает наличие целевой переменной и серий входных данных. Эти данные могут иметь различные формы представления. Наиболее общий способ - это использовать необработанную входную информацию для числовых данных и создавать замену для переменных с категориальными данными. Далее в анализе используется метод стандартизированных оценок для нейтрализации эффекта, оказываемого различными единицами измерения входных данных.

В случае скоринг-карт по сгруппированным переменным, входные данные могут быть представлены в виде средних значений для числовых переменных, например средний возраст по каждой группе, или некоторое взвешенное среднее, или замененные переменные для категориальных групп. Но использование замененных переменных для категориальных переменных имеет существенный недостаток - получается, что разница между группой категориальных переменных состоит в их названии. Более предпочтительно использовать для сгруппированных переменных WOE каждой группы в качестве входных данных. Данный подход не только решает проблемы различий единиц измерения входных переменных, но и принимает в расчет точный тренд и шкалу отношений одной группы к другой. В дополнение, если группировка была произведена верно, можно быть уверенным, что значения, распределенные по группам при шкалировании скоринг-карты являются логически обоснованными и отражают разницу в родстве между группами.

Регрессия может быть применена для нахождения наиболее вероятной модели, использующей все доступные опции. Обычно это принято называть методикой "регрессии по доступным параметрам". Данный метод оказывается довольно эффективным, особенно если имеется большое количество независимых входных переменных. Гораздо реже используются следующие три типа поэтапной logit-регрессии:

Предварительный выбор:

Этот метод строит модель по одной характеристике(переменной), затем постепенно добавляет остальные характеристики в эту модель по возрастанию до тех пор, пока не останется переменных с р-value меньше уровня значимости (например, 0,5). Этот метод эффективен, но может не работать, если имеется очень большое количество переменных или присутствует высокая степень их корреляции.

Метод исключения:

Противоположный предварительному выбору метод, работает сразу со всеми переменными модели, и последовательно исключает переменные с наименьшим уровнем значимости. Процесс идет до тех пор, пока все оставшиеся переменные не будут иметь р-value ниже уровня значимости, например 0,1. Этот метод учитывает корреляцию больше, нежели метод предварительного выбора, или поэтапного выбора. Однако это не идеальный метод для исключения корреляции. Обратное исключение также может быть использовано для объединения значимых взаимодействий в модель.

Поэтапный выбор:

Комбинация двух предыдущих методов. Использует и добавление и удаление переменных динамически в карту качества на каждом этапе, вплоть до достижения наилучшей комбинации признаков. Пользователь может задать минимальные p-value, при которых переменная добавляется в создаваемую модель, или остается в модели. Дополнительную информацию Вы можете получить на статистическом портале и сайте компании СтатСофт.

Конструирование скоринг-карты

Пока возможно построить карту качества, применив ко всем переменным регрессионную модель и сгенерировав статистически оптимальный результат, этот метод не может принести лучшие результаты. Разработчик скоринг-карты обычно опирается на некоторые статистические показатели, такие как p-value, ХИ-квадрат, R-квадрат и некоторые другие для определения качества построенной модели. Далее приведены некоторые задачи, решение которых необходимо при разработке скоринг-карты.

Первая задача состоит в определении наилучшего набора входных переменных, и построении полного профиля рисков. Методика построения профиля рисков была описана выше. В идеале, этот профиль должен быть построен с использованием как можно большего числа независимых переменных, например демографических, финансовых, кредитных вопросов, платежеспособности, и т.д. Процесс разработки должен учитывать проблемы корреляции и коллинеарности, и другие факторы, затрагивающие надежность модели.

Разработанная скоринг-карта должна соответствовать по своей структуре с последовательностью принятия решений в организации. Если модель является единственным решающим фактором, необходимость построения всестороннего профиля рисков возрастает. Если модель предполагается использовать для поддержки принятия решений, то переменные, включаемые в карту, должны перекликаться с остальными показателями, и не противоречить им. Например, включение таких характеристик как банкротство, TDSR, информация о совершенных преступлениях, должно быть сведено к минимуму, так как присутствует в полицейских стандартах.

Пример, приведенный в таблице 1, показывает переменные-факторы скоринг-карты, взятые из профиля рисков. Заметьте, что среди показателей представлены различные типы информации, как из внутренних, так и из внешних источников. Включение запросов за последние 12 и за 3 месяца сделано для того, чтобы можно было определить масштаб как коротко- так и долгосрочного кредитования. Банкротство и "статистика нарушений" не были включены в карту показателей, так как они используются в полицейских правилах и автоматически отсеиваютсоответствующих кандидатов.

Обычно подобная скоринг-карта не является результатом автоматического регрессионного алгоритма. Как же получается подобная скоринг-карта?

Рассмотрим на примере.

Разработчик скоринг-карт имеет на вооружении несколько методов, с помощью которых он может построить итоговую форму модели. Предполагается отбор параметров, при котором изначально рассматриваются лишь необходимые, или те, которые "может быть пригодятся".

Один из способов добиться результата - это предположить значимые для модели переменные, шаг за шагом, причем переменные предполагаются совершенно специфичным для каждого шага путем. Этот процесс похож на регрессию с поэтапным выбором (stepwise). Пример приведен в таблице 2 ниже:

Используя данный метод, регрессионный алгоритм сначала выбирает параметры, используя logit-регрессию либо по предварительному отбору, либо по методу исключения, либо поэтапный выбор. Характеристики, удовлетворяющие поставленным критериям отбора (напр. Когда p-value параметра оценивается на каком-либо уровне доверия, параметры добавляются к карте в первую очередь, или наоборот, удаляются из нее в случае регрессии по методу исключения.) В приведенном примере характеристики "возраст", "дата смены места жительства" и "опыт работы" будут вычислены при первой итерации. Характеристика "возраст" появится в модели как оказывающая наибольшее влияние на прогноз.

При второй итерации того же уровня, алгоритм рассмотрит две оставшиеся характеристики, принимая во внимание уже отобранную переменную "возраст". Если окажется, что одна либо обе рассматриваемые переменные оказывают значимое влияние на результат прогноза, то они тоже будут добавлены в модель. Регрессионный анализ остановится, когда не будет ни одной переменной, которую можно было бы добавить, либо исключить из набора данных для анализа.

Все характеристики, включенные в модель на первом шаге, будут участвовать в ней и на 2м шаге. Регрессионный алгоритм на этом шаге проверит такие характеристики как "район", "индекс", и "область", но проверка начнется с характеристик, отобранных на первом шаге и уже включенных в модель. Вновь, такие показатели как p-value и уровень значимости будут использованы для определения значимых характеристик (которые войдут в модель).

Подобный анализ будет проведен для каждого последующего уровня. Итогом анализа будет являться скоринг-карта. Характеристики, включенные в модель на более ранних шагах, будут также включены в модель и при последующих итерациях.

Статистические показатели, такие как ХИ-квадрат или стандартизированные оценки могут быть использованы для определения силы прогноза модели на каждом шаге итерации.

Опытный пользователь может проконтролировать процесс анализа для увеличения шансов вынесения правильного диагноза. Слабые и "Привилегированные" характеристики могут быть помещены на более ранние шаги итерации в целях увеличения шансов их добавления в модель, и для максимизации влияния бесспорных (проверенных) переменных. В дальнейшем, добавление других переменных увеличит точность прогноза.

Более значимые характеристики помещаются в конец, и могут не войти в скоринг-карту, если их влияние может быть уже смоделировано по одному или нескольким другим критериям. Использование нескольких слабых критериев для моделирования поведения одного более значимого применяется для стабилизации, причем без потери силы прогноза, например, 5 характеристик, добавляющих 200 баллов каждая в скоринг-карте предпочтительнее, чем две характеристики, добавляющие по 500 баллов каждая. Модель будет эффективна при более широкой базе (наборе характеристик). Это соответствует идее создания профилей рисков.

Схожие критерии("возраст", "дата смены места жительства" и "опыт работы") объединяются в один шаг итерации для того, чтобы корреляция между этими характеристиками была рассмотрена в дальнейшем. Наиболее подходящие среди коррелированных характеристик войдут в скоринг-карту. Схожие коэффициенты должны быть также помещены в один и тот же шаг итерации в качестве информации о числителе и знаменателе. Вдобавок, рассмотрение различной независимой информации на каждом шаге увеличивает шансы добавления хотя бы одной переменной из каждой группы в итоговую скоринг-карту.

Регрессионный анализ будет повторяться для различных комбинаций характеристик на разных этапах и с разными уровнями доверия в цикличном процессе для построения наилучшего набора правил модели. Характеристики могут быть перемещены на более высокие или более низкие шаги в целях достижения разнообразных комбинаций для скоринг-карт. Эти карты будут оценены позже, с использованием бизнес критериев и статистических показателей прогнозной силы модели.

На практике этот подход реализуется моделью с опцией выбора последовательности в logit-регрессии с поэтапным выбором. Вот два наиболее часто используемых подхода:

Простая регрессия

Выполняется однократный запуск алгоритма регрессионного анализа, причем порядок размещения характеристик следующий: - Все "слабые" характеристики размещаются вверху(вначале), все более значимые характеристики - в конце. Внутри каждого типа информации характеристики могут быть отсортированы, начиная самой менее значимой, и заканчивая наиболее значимой характеристикой. Весомость каждой характеристики может быть рассчитана по ее значению.

Множественная регрессия

При использовании данного подхода алгоритм регрессионного анализа повторяется многократно, рассматривая различную информацию на каждом шаге анализа.

  • Все "слабые" характеристики рассматриваются в первую очередь, на начальных шагах регрессионного анализа.
  • При каждом регрессионном анализе характеристики располагаются в порядке возрастания их значимости, то есть от самой "слабой" к самой "сильной".
  • Характеристики, включенные в скоринг-карту на более ранних шагах анализа, включаются во все последующие шаги.

Также, как и при процессе группировки, такой подход к разработке скоринг-карт восприимчив к понижению эластичности. Хорошее понимание всех шагов анализа, а также статистических компонентов, таких как набор анализируемых характеристик, снизит шансы получения неудовлетворительного качества прогнозирования. Данный подход должен быть протестирован с использованием нескольких различных комбинаций характеристик, чтобы понять динамику изменения данных перед составлением итоговой скоринг-карты.

Этот процесс включает в себя статистическое моделирование (например, регрессионный анализ) и бизнес-анализ. Осуществляется разработка устойчивой, эффективной скоринг-карты, содержащей характеристики из различных источников, и отображающей различные независимые типы информации(демографическая, запросы, информация о прошлой деятельности, о з/п и т.д.). Заметим, что регрессионный анализ выполняется с использованием устойчивого набора характеристик, выбранных из первично отобранных характеристик, и все слабые критерии уже были устранены. Все тесты на значимость следуют из выбора итоговой композиции характеристик, входящих в скоринг-карту, но это не единственный критерий для рассмотрения. Получившаяся карта имеет свою статистическую силу и воздействие. Чаще всего, это как раз то, что используют риск-менеджеры и другие специалисты по принятию решений для выработки компенсирующих риски стратегий.

Когда набор характеристик для включения в скоринг-карту получен, эти характеристики могут быть применены к анализу в сгруппированном виде, для получения итоговых параметров регрессии. Подобные процессы происходят с каждой скоринг-картой при построении, для каждого сегмента в отдельности. Типично несколько скоринг-карт используют различные комбинации характеристик для каждого сегмента, и учитывают поставленные цели и задачи для определения итогового решения. Скоринг-карта с более низкой "силой" может получить больший приоритет, если она нацелена на стратегию, цели и задачи организации.(например, большая прибыль), чем другая, с большей "силой", и поэтому необходимо сравнить несколько карт соответствующим образом, чем полагаться единственно на статистические показатели. Кстати выбор критериев скоринг-карт и их утверждение будет рассмотрено в последующих главах.

В итоге на данном этапе создаются несколько различных скоринг-карт, обобщающих некоторое число характеристик и их параметры регрессии.

mob_info