Клиент
Kiwi Immigration, бизнес-направление Новозеландской компании KIWI, предоставляет интеллектуальные, ориентированные на клиента юридические услуги по вопросам иммиграции в Новую Зеландию: консультации по получению виз, поиску работы, жилья, сервис подготовки необходимых документов и организации переезда.
Задача
Оптимизировать процесс обработки анкет и создания сопроводительного письма в иммиграционную службу Новой Зеландии за счет использования AI.
В компании подготовка юридических документов для клиентов выполняется вручную:
1
Клиент компании KIWI Immigration заполняет анкету, в которой содержатся обязательные данные, от фамилии заявителя до информации об образовании, финансовом состоянии и целях поездки.
2
Юристы компании на основании анкетных данных, вручную создают сопроводительные письма и заявления с учетом особенностей каждого визового кейса. Например, для иммиграционной службы, для получения виз, для связи с образовательными учреждениями в Новой Зеландии.
Оформление сопроводительного письма, объемом 2–3 страницы требует от заказчика значительных временных затрат, от 30 минут до 1,5 часов, в зависимости от объема данных и требований к документу.
Трудности ручного подхода:
- низкая скорость обработки анкет клиентов
- высокая нагрузка на сотрудников и как следствие задержки в выполнении задач
- ошибки и несоответствия в документе
- падение общей продуктивности
Эти проблемы не только отнимали время и ресурсы заказчика от решения стратегических задач, но и негативно сказывались на качестве оказания услуг.
Решение
Во время предпроектного обследования команда true.code тесно сотрудничала с заказчиком. Мы провели несколько рабочих встреч, обсудили идеи реализации проекта и приняли решение: разработать автоматизированную систему для генерации сопроводительных писем в иммиграционную службу, используя возможности генеративного искусственного интеллекта нейросети GPT.
Для разработки сервиса мы взяли за основу принцип работы AI — использование алгоритмов, которые могут анализировать и извлекать информацию из набора данных (датасета) и генерировать новый контент. Команда true.code создала алгоритм генерации сопроводительного письма в иммиграционную службу, выявила закономерности, использовала и обучила модель GPT-3 davinci на примерах сопроводительных писем, разработанных заказчиком и на входных данных из анкет клиентов.
Создание и первичное обучение онлайн-модели GPT-3
Чтобы модель могла выдавать релевантные ответы относительно поставленной задачи, надо сначала загрузить в нее необходимую информацию, а потом обучить определенному алгоритму построения ответов на запросы заказчика.
Изначально модель искусственного интеллекта (AI) не обладает способностью автоматически устанавливать логические связи и генерировать точные ответы. Когда наша команда начинала работу с GPT-3, модель не содержала никакой предварительной информации. Модель AI могла выдавать относительно адекватные ответы на базовые вопросы только на английском языке. Для релевантных ответов на русском языке у необученной модели отсутствовал необходимый формат ответа и способность использовать данные запроса в правильном контексте. Например, если требовалось подставить в сопроводительное письмо название ВУЗа, модель GPT-3 не понимала это и могла дать вместо названия, полное описание учебного заведения (Рис.1).
Для успешного первичного обучения модели GPT-3 эксперты true.code:
- определили область знаний, в которой она будет работать — примеры разработанных заказчиком сопроводительных писем в иммиграционную службу Новой Зеландии;
- подготовили анкетные данные, для загрузки в модель.
Подготовка анкетных данных для загрузки и первичного обучения онлайн-модели GPT.
Сопроводительные письма в иммиграционную службу юристы компании KIWI Immigration готовили на основании анкетных данных клиентов. Заказчик обрабатывал анкеты вручную, формировал на каждого клиента отдельный файл и составлял соответствующий документ. Мы проанализировали этот бизнес-процесс и предложили другой подход, который позволит заказчику значительно сократить время обработки входных данных для их последующей загрузки в модель для обучения и тренировки искусственного интеллекта.
Команда true.code разработала алгоритм обработки данных для загрузки в модель нейросети GPT-3 и ее обучения, который собирает данные из нескольких анкет в один файл и обеспечивает быструю генерацию любого количества документов, например, 30–40 писем единовременно.
Новый формат — это разбитый на колонки текстовый документ. В каждой колонке содержится информация о клиенте: ФИО, год рождения, первое образование, название учебного заведения, начало и завершение учебы и т. д. Заказчик берет данные из анкет клиентов, заполняет файл и отправляет в модель GPT-3 davinci, которая автоматически формирует сопроводительные письма для каждого клиента. Для обеспечения безопасности информации заказчика все данные передаются в модель в зашифрованном виде.
Этапы первичного обучения модели нейросети GPT-3 для генерации сопроводительных писем.
1
Определили формат и структуру файла для обучения модели.
2
Подобрали запросы (промпты) — контекст, который мы задаем модели перед запуском генерации текста. Мы провели тщательный анализ и экспериментировали с различными запросами. Выбор правильного запроса помогает модели AI точно понимать ожидаемый тип ответа и генерировать сопроводительные письма, соответствующие требованиям заказчика.
3
Автоматизировали преобразование формата входных данных заказчика (CSV-файлов) в формат для загрузки и обучения модели GPT-3 (JSONL). Такой формат обеспечивает модели понятную структуру данных. Это позволило модели эффективно обучаться на представленных примерах и генерировать сопроводительные письма с высокой точностью.
4
Создали механизм, который автоматически подставляет последнюю обученную модель в запросы заказчика. Когда модель прошла первичное обучение с использованием подобранного формата файла и запросов, мы использовали ее ответы для последующего обучения. При каждом запросе модель автоматически подставляет последнюю обученную версию себя и генерирует наиболее релевантные и информативные ответы.
5
Реализовали для заказчика функцию настройки параметров запросов. Параметры позволяют заказчику настроить получаемые результаты, сопроводительные письма, под свои потребности и предпочтения. Например, presence_penalty позволяет контролировать, насколько модель учитывает свои предыдущие ответы, для генерации новых. Temperature управляет разнообразием генерируемых ответов, а repeat_penalty помогает предотвратить дублирование фраз или фрагментов в сгенерированном тексте.
6
Разработали механизм сохранения в базе данных ответов модели, которые заказчик отметил как верные и соответствующие задаче. Это позволяет создавать новые файлы обучения и использовать данные для улучшения алгоритма в будущем.
Первичное обучение позволило загрузить в модель AI базовые письма и структуру документа, необходимые для решения конкретной задачи — генерация сопроводительного письма, а также настроить параметры модели в соответствии с требованиями заказчика.
Разработка интерфейса сервиса
Для удобства взаимодействия с онлайн-моделью GPT-3 мы разработали интерфейс, который позволяет заказчику:
- формировать запросы к обученной модели AI для создания текста с базовыми регулировками настроек запроса
- изменять настройки запроса и повторно генерировать текст с начальными входными данными. Это позволяет заказчику экспериментировать с параметрами и получать разные варианты сопроводительного письма
- отмечать правильные или наиболее релевантные ответы и использовать их для дальнейшего обучения модели. Так, разработанная модель нейросети GPT становится более точной и соответствующей требованиям заказчика
- загружать входные данные (CSV-файлы) для обучения модели. Интерфейс отображает ошибки в файле, если они есть, и позволяет выбрать нужные версии обучения
Вызовы
В модели нейросети GPT-3 загрузка данных происходит через определенные разделители. Например, надо ввести имя и год рождения клиента KIWI Immigration , формат данных будет выглядеть так: «Иван:1973». На определенном этапе обработки загруженных данных модель начала выдавать в готовом сопроводительном письме «слипшиеся» предложения. Модель пыталась вставить данные в соответствующие части письма, но при этом они слипались.
Мы проанализировали ошибку и выяснили, что проблема в формате данных, которые загружал заказчик, как идеальные варианты документа (Рис.2). Модель не могла их правильно интерпретировать. Необходимо было изменить формат, явно указать разделители или добавить пробелы перед- и после соответствующих данных в файле — «_Иван_:_1973_». Мы внесли соответствующие изменения в формат данных, и ошибка была успешно исправлена.
Результат
Мы разработали онлайн-сервис на основе нейросети GPT-3, который позволил компании заказчика KIWI Immigration:
- Сократить время создания сопроводительного письма в иммиграционную службу в два раза.
- Создавать качественные сопроводительные письма, без дополнительного обучения персонала.
- Снизить количество ошибок, связанных с человеческим фактором.
- Увеличить количество успешных визовых кейсов.
Важная особенность разработанного нами сервиса — возможность итеративного обучения модели AI. Это позволяет сделать модель более точной, адаптивной и релевантной для конкретных задач. Например, когда клиент указывает, какой вариант сопроводительного письма является идеальным, система использует эту информацию для обучения модели. Таким образом, модель нейросети GPT-3 постепенно настраивается на предпочтения и требования клиента.
Заказчик продолжит обучать модель самостоятельно до достижения нужного результата. Это первый шаг к оптимизации бизнес-процессов заказчика Kiwi Immigration, который позволит в дальнейшем автоматизировать и другие ручные операции.
Поделиться