Грант Шнайдер, вице-президент по машинному обучению

За восемь с половиной лет работы в Upstart я имел удовольствие работать над множеством интересных и сложных задач, которые были важны для нашего бизнеса. (См. здесь, чтобы узнать, сколько!) Недавно команда машинного обучения работала над еще одним: количественной оценкой одной из самых динамичных макроэкономических условий за последние десятилетия.

Прошлый год усилил большое влияние, которое изменение макроэкономических условий, таких как инфляция и безработица, может оказать на финансы американцев и, в свою очередь, на кредитоспособность кредитов.

Итак, мы задались вопросом: есть ли способ измерить влияние изменения макроэкономических показателей на кредиты, предоставляемые Upstart, чтобы наши партнеры из банков и кредитных союзов могли лучше управлять своим кредитованием?

Оказывается есть. Мы называем его Макроиндекс Upstart (UMI). Мы запустили его вчера, и я собираюсь объяснить, как он был построен.

Во-первых, нам нужен был способ количественной оценки макроэкономического воздействия на наших заемщиков в разные месяцы таким образом, чтобы это было одновременно точным и действенным. Как статистик с классическим образованием, первым моим побуждением было провести эксперимент, в котором все было бы постоянным, кроме месяца. Но это не работает, потому что таких констант не существует. Мы не можем дать одному и тому же человеку один и тот же кредит в течение нескольких месяцев, чтобы провести A/B-тестирование эффекта данной пары месяцев. Даже если бы тот же человек вернулся за вторым кредитом, он был бы в другом финансовом положении и, как минимум, имел бы дополнительный кредит.

Теоретически мы могли бы вместо этого случайным образом выбрать группу соискателей кредита, замедлить процесс получения кредита, чтобы они могли получить набор кредитов, охватывающих несколько месяцев, и отслеживать их показатели по отношению к макроэкономике в течение этого периода. Тем не менее, мы знаем, что нашим заемщикам действительно нравится наша лучшая в отрасли скорость, и намеренное замедление работы почти ересь в этих краях.

Итак, мы не можем провести эксперимент. Можем ли мы попробовать простое сравнение кредитной эффективности одной и той же когорты за два разных месяца? Это также не сработает, потому что профиль риска кредита будет меняться во время его выплаты. Этот фактор «месяца на балансе» — количество месяцев, прошедших с момента выдачи кредита, — невероятно важная характеристика для прогнозирования риска, и мы потратили значительное количество времени на моделирование и размышления о взаимосвязи между ними как применительно к отдельному кредиту, и уровень портфолио.

Но как насчет сравнения производительности разных когорт в одном и том же месяце на книге? Например, кредиты, выданные в августе 2022 г. в ноябре 2022 г., и кредиты, выданные в октябре 2022 г. в январе 2023 г., будут запланированы на третьи платежи. Проблема с этим подходом заключается в том, что обновления нашей модели андеррайтинга, изменения в наших маркетинговых усилиях, макроэкономические сдвиги, сезонность и множество других факторов могут сделать месячные когорты очень разными, особенно когда между ними есть длительный период времени.

Вы также можете спросить, можем ли мы рассмотреть подмножество заемщиков в этих когортах на основе их кредитного рейтинга или дохода. Но это слишком упрощенно. Весь наш бизнес основан на идее, что человек — это больше, чем просто трехзначный кредитный рейтинг, и что искусственный интеллект можно использовать для лучшего определения кредитоспособности человека.

Если ни один из этих методов не работает, то как мы это сделали?

На высоком уровне мы оцениваем прогнозы нашей модели андеррайтинга по сравнению с наблюдаемыми значениями по умолчанию, чтобы оценить любые неучтенные эффекты в данном месяце. К счастью, наша инновационная (и запатентованная!) модель кредит-месяц уже дает нам прогнозы по каждому кредиту в месяц. Это отличается от более традиционных моделей, которые прогнозируют убытки на уровне отдельных кредитов или даже только на уровне портфеля.

Мы моделируем коэффициенты риска по умолчанию (для тех из вас, кто знаком с анализом выживаемости) в качестве зависимой переменной здесь. Эти коэффициенты представляют собой прогнозируемые вероятности дефолта в данный момент времени в течение срока кредита при условии, что он еще не был дефолтным или полностью не погашенным по кредиту, и существует несколько способов их корректировки, чтобы попытаться количественно оценить макроэкономический эффект. Самым простым было бы применить апостериорную корректировку, чтобы сопоставить фактические потери в данном месяце, который мы отслеживаем, — называемый «месяцем наблюдения», — с прогнозируемыми моделью. Но в обстоятельствах, когда ежемесячные макроэффекты коррелируют с другими входными данными модели, такими как переменные кредита или занятости, этот последовательный подход, заключающийся в сначала подгонке модели, а затем оценке эффектов, может привести к тому, что макроэффекты будут занижены или завышены и, следовательно, неверны.

Вместо этого мы добавляем индикаторную переменную для каждого месяца наблюдения во входные данные модели в нашем конвейере обучения модели и переобучаем ее. Переменная-индикатор присваивает месяцу наблюдения определенное значение, чтобы модель не допустила этой ошибки в корреляции. В результате мы можем совместно оценить влияние данного месяца вместе с более чем тысячей других переменных, которые мы отслеживаем, что позволяет модели обнаруживать тонкие взаимосвязи между ними.

model_pl = Pipeline([
    ('features', feature_eng_step),
    (
        'add_obs_month',
        ColumnTransformer([
            (
                'observation_month',
                convert_to_obs_month_cat_feature,
                ['month_on_book', 'first_payment_month']
            ),
            ('other_features', 'passthrough', other_features)
        ])
    ),
    ('estimator', estimator)
])
model_pl.fit(X, y)

Затем мы берем выборку из 2 миллионов исторических событий по платежам по кредиту (имеется в виду, был ли платеж произведен или нет и в каком месяце в книге) и регенерируют прогнозы для всего набора возможных месяцев наблюдения с января 2017 года. Почему именно этот момент времени? Потому что это был один из самых ранних моментов времени, когда у нас было достаточно кредита, чтобы прогнозы были стабильными. В качестве примера предположим, что в нашей выборке из 2 миллионов платежных событий мы выделяем второй и пятый платежи по конкретному кредиту, выданному в мае 2022 г., что соответствует месяцам наблюдения, июль 2022 г. и октябрь 2022 г. Затем мы повторно вычислим прогнозируемые коэффициенты риска для каждого из этих двух платежных событий для каждого из возможных месяцев наблюдения на сегодняшний день (с января 2017 г. по февраль 2023 г.), что дает 74 месяца × 2 миллиона выборочных платежей, что в общей сложности составляет 148 миллионов прогнозов.

for first_pmt_month_i in payment_months_of_interest:
    X[:, first_pmt_month_idx] = first_pmt_month_i
    preds = model_pl.predict(X)

Затем мы берем среднее из 2 миллионов предсказанных коэффициентов опасности для каждого из календарных месяцев, в результате чего получается вектор длиной 74, или среднее из этих 2 миллионов для каждого из 74 месяцев. Наконец, мы нормализуем эти средние прогнозируемые опасности с помощью долгосрочного среднего отношения рисков. Это делает число более интерпретируемым, так что значение UMI, равное 1, означает, что значения по умолчанию должны соответствовать долгосрочным средним ожиданиям, значение 2 означает, что их следует удвоить, значение 0,5 означает, что их следует уменьшить вдвое, и, таким образом, на.

Теперь, когда у нас есть количественная оценка относительных макроэкономических эффектов, мы (и вы, на сегодняшний день!) можем ежемесячно обновлять наши взгляды на то, как развивается кредитоспособность американских потребителей. Кроме того, мы можем применить корректировку коэффициентов риска для кредитов, которые мы выдаем сегодня, о чем сообщает UMI. Эта форвардная корректировка является мощным инструментом, который позволяет нашим партнерам по кредитованию сочетать свой уникальный взгляд на макроэкономические показатели с нашими современными моделями риска, чтобы получить индивидуальную модель с учетом кредитного риска.

Последний вопрос, который вы можете задать, заключается в том, можем ли мы использовать эту переменную месяца наблюдения в прогнозировании, учитывая, что у нас не будет никаких обучающих данных для будущих месяцев. Это захватывающая область активных исследований, и у нас есть несколько многообещающих идей для реализации — так что следите за обновлениями!

Upstart намерен выпускать UMI ежемесячно, включая изменения предыдущих месяцев, если это применимо. Подпишитесь на первый доступ к этим обновлениям здесь: upstart.com/umi

ЮРИДИЧЕСКАЯ ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ

Заявления и информация на этом сайте актуальны по состоянию на 21 марта 2023 года, если не указана другая дата в отношении какой-либо информации, и предоставляются только в информационных целях. Прошлые показатели UMI не могут гарантировать и не указывают на будущие результаты UMI. UMI основан на исторических данных и анализе Upstart потерь в кредитных портфелях, поддерживаемых Upstart, и зависит от базы заемщиков Upstart. UMI не предназначен для измерения макроэкономических рисков с точки зрения потерь кредитных портфелей или классов активов, которые не являются кредитами, предоставленными Upstart, включая кредиты, принадлежащие другим слоям населения США. Он не предназначен для измерения текущего состояния экономики в целом или для измерения или прогнозирования будущих макроэкономических условий, тенденций или рисков. Он также не предназначен для измерения или прогнозирования будущей эффективности кредитов, предоставляемых Upstart, или других продуктов Upstart, общих финансовых результатов операций или стоимости акций. Мы ожидаем, что наши исследования и разработки по улучшению UMI могут привести к изменениям или пересмотру текущих или прошлых значений UMI.

Все прогнозные заявления или информация на этом сайте подвержены рискам и неопределенностям, которые могут привести к тому, что фактические результаты будут существенно отличаться от ожидаемых Upstart. Любые прогнозные заявления или информация на этом сайте актуальны только на дату настоящего документа. Upstart не берет на себя никаких обязательств по обновлению или пересмотру каких-либо прогнозных заявлений или информации на этом сайте в результате получения новой информации, будущих событий или иным образом. Более подробная информация об этих рисках и неопределенностях содержится в открытых документах Upstart для Комиссии по ценным бумагам и биржам, копии которых можно получить, посетив веб-сайт Upstart по связям с инвесторами по адресу www.upstart.com или веб-сайт SEC по адресу www.sec. правительства.