Авторизация
Забыли пароль?
Сброс пароля
Вернуться к авторизации

Как мы помогли агрегатору остановить отток пользователей за счет внедрения интеллектуального поиска

18 сентября ‘25

Заказчик: -

Кейс о внедрении RAG и LLM в онлайн-агрегатор инвестиционных проектов: интеллектуальный поиск повысил точность и исключил нерелевантные ответы. Вовлеченность аудитории выросла на 30%. Перед платформой открылись варианты масштабирования — от интеллектуальных рекомендаций до глубокой аналитики рынка.

Агентство-исполнитель кейса

ItFox

ItFox разрабатывает решения на базе ИИ, в том числе интеллектуальные поисковые системы на базе RAG и LLM. Работая даже с разрозненными массивами исходной информации, добиваемся точности ответов, исключаем возможность "галлюцинаций", обеспечивая высокую надежность результатов выдачи.

1. Вводная задача от заказчика, проблематика, цели

Заказчик — онлайн-платформа, которая объединяет инвестиционные проекты, консалтинговые услуги, компании из сферы торговли драгоценными металлами и недвижимостью. Единое информационное пространство создано для предпринимателей, инвесторов, консультантов, чтоб обеспечить удобное взаимодействие между ними. На платформе можно подобрать проекты для размещения капитала, найти партнеров или получить финансирование. Пользователь платформы может указать нужные ему характеристики и получить подборку проектов по этим параметрам, а дальше связаться с автором интересного ему проекта. Консультанты предлагают услуги сопровождения сделок. Участники рынков недвижимости и драгоценных металлов предлагают инструменты для управления рисками.

Главная функция платформы — создание удобной инфраструктуры для получения доступа к капиталу, расширению деловых связей, инвестированию.

Проблема, с которой столкнулся Заказчик

Современным пользователям гораздо удобнее формировать запросы на естественном языке. При этом используются профессиональные термины, указываются конкретные ограничительные условия.

Например:

· Для инвесторов важно найти бизнес на определенной стадии развития, конкретными патентами, или подобрать возможность вклада в недвижимость или драг.металлы;

· корпоративный клиент подбирает стартапы с определенной технологией или бизнес-моделью;

· предпринимателя интересуют доступные для его бизнеса программы гос.поддержки.

При стандартном поиске пользователь получает результат в виде списка источников. Далее ему необходимо вручную его фильтровать, т.к. многие варианты подходят под запрос только отдаленно. Создается ощущение, что платформа не улавливает сути запроса. Такая проблема типична для сервисов с отсутствием технологий обработки естественного языка и инструментов персонализации поиска.

Для заказчика возникают три угрозы:

· снижение доверия ЦА,

· платформа не рассматривается как инструмент принятия решений,

· пользователи теряют интерес к агрегатору и уходят.

Для решения этой проблемы команда ItFox предложила заказчику изменить логику взаимодействия с пользователями и модернизировать поиск с применением RAG-технологии.

Такое решение позволит поисковому механизму учитывать бизнес-контекст запросов и давать ответы с высокой релевантностью. Т.е. поиск из навигационного инструмента превратится в механизм экспертизы и обеспечит доверие платформе.

2. Описание реализации кейса и творческого пути по поиску оптимального решения

Чтобы изменить характер поисковой выдачи, нужно было начать с архитектуры. Поисковый модуль состоит из:

1. Индексирование данных (Indexing) — сбор, очистка и унификация информации об участниках платформы.

2. Поиск и генерация ответа (Retrieval + Generation) — контекстная обработка пользовательских запросов.

Индексация данных

· Для создания базы данных был разработан инструмент автоматического сбора информации с сайтов участников платформы.

· Собранные данные преобразовывались в унифицированные анкеты с помощью специально подготовленного промпта. Такое предварительное приведение анкет к единому формату упрощает их дальнейшую обработку.

· Каждый блок данных преобразовывался в векторное представление (эмбеддинг) с помощью YandexGPT PRO и сохранялся в векторное хранилище ChromaDB. Для быстрого поиска по смысловому сходству.

Время подготовки одной анкеты при первоначальном заполнении базы составляло около 1 минуты. Нагрузка на модель — порядка 3 000 токенов.

Поиск и генерация ответа

· При запросе пользователя система обращается к векторному хранилищу и выбирает анкеты компаний, проектов или консультантов, наиболее близкие по смыслу.

· Регулирование качеством совпадений происходит с помощью параметра MMR (Maximal Marginal Relevance) и порогового значения сходства. Это позволяет учитывать релевантность документа, а также уникальность данных относительно ранее выбранных.

· Извлеченные данные вместе с запросом передаются в языковую модель, которая формирует итоговый ответ на основе фактической информации из базы.

Такой подход снижает риск «галлюцинаций» модели, уменьшает количество нерелевантных ответов и обеспечивает их точность даже при работе с неполными или зашумленными данными.

Технические особенности проекта

Приступая к работе над проектом, команда ItFox столкнулась с типичной для таких кейсов ситуацией — исходные данные данные были неструктурированны, содержали много посторонней информации. Расскажем подробнее.

Первоначальная информация для интеллектуального поиска поступала из анкет, которые представители компаний вручную заполняли на платформе-агрегаторе. Форма заполнения была неунифицирована, не были установлены обязательные поля для заполнения. Из-за этого анкеты были либо не полностью заполнены, либо содержали дубли. Такое состояние данных сделало невозможным их прямое использование. Решением стало формирование с помощью ИИ новых унифицированных анкет, собирая информацию напрямую с сайтов участников-платформы.

Для сбора данных был разработан скрапер, осуществлявший автоматический обход ресурсов. Из более чем 120 тысяч организаций, проектов и профилей экспертов, зарегистрированных на платформе, актуальные сайты имели порядка 105 тысяч. После проверки их доступности и технического состояния к дальнейшей обработке было отобрано около 98 тысяч ресурсов.

Тем не менее сайты-первоисточники также содержали: рекламные блоки, служебные элементы, повторяющиеся фрагменты и другую нерелевантную информацию. Чтобы получить только нужную информацию, нами была реализована многоступенчатая система предобработки:

1. Удаление лишних пробелов, табуляции и пустых строк.

2. Фильтрация по стоп-словам с использованием стандартных инструментов Python. Список включал элементы меню («главная», «о нас» и др.), названия разделов («клиенты», «партнеры»), футер-тексты («copyright», «все права защищены»), технические обозначения («логин», «регистрация») и ряд кастомных исключений.

3. Исключение строк, содержащих только цифры, специальные символы или подчеркивания.

4. Удаление дубликатов через TfidfVectorizer библиотеки Scikit-learn. На основе TF-IDF матрицы проводился анализ попарного сходства, а его порог задавался параметром Threshold.

Такая очистка позволила нам сформировать качественный массив унифицированных анкет, который стал фундаментом для векторизации и последующего построения интеллектуального поиска. Еще раз подчеркнем, зашумленные данные — проблема распространенная, но решаемая за счет продуманного алгоритма очистки.

Технологический стек

В основе сервиса используется Python 3.11.

FastAPI применён в качестве web-фреймворка.

LangChain выступает как rag-framework для взаимодействия с LLM-агентами.

Apache Kafka — message queues — для масштабирования и параллельной обработки задач.

ChromaDB — векторное хранилище embeddings.

text-search-doc / text-search-query — инструменты для векторизации текстовых данных.

YandexGPT Pro используется для генерации и нормализации текстов.

Для проекта выбраны Yandex Foundation Models, т.к. соответствуют российской юрисдикции.

BeautifulSoup, lxml, TfidfVectorizer — инструменты для парсинга и предобработки данных.

3. Результаты сотрудничества

Интеллектуальная поисковая система на базе RAG способна работать с естественным языком, учитывать контекст и формировать релевантные ответы, опираясь на точные данные из анкет участников ресурса.

Внедрение этой системы дало для платформы три стратегических эффекта:

1. Экономия времени пользователей.Клиенты получают готовые точные ответы сразу. Ручная фильтрация данных теперь не нужна.

2. Укрепление конкурентных позиций.Интеллектуальный поиск учитывает инвестиционный контекст — от анализа стартапов и объектов недвижимости до подбора проектов по параметрам доходности, рисков и сроков. Это стало весомым конкурентным преимуществом. По данным внутренней аналитики, количество повторных обращений выросло примерно на 30 %, что подтверждает рост доверия к платформе.

3. Фундамент для масштабирования.Созданная векторная база открыла возможности для дальнейшего развития: интеллектуальных рекомендаций, глубокой аналитики рынка и расширения экосистемы платформы.

Внедрение решения на базе Rag позволило Заказчику продемонстрировать стратегический подхода к клиентскому опыту и готовности платформы добавлять новые сегменты.

Интеллектуальный поиск применим в любых отраслях, где есть массивы разнородных документов, требуется быстрый доступ к регламентированной информации, много времени уходит на поиск сведений, важна точность и актуальность данных.

Такие решения становятся стандартом современных цифровых платформ, и команда ItFox готова переносить  свой опыт в новые проекты.

Алексей Алимов

Менеджер проекта, ItFox

ИИ после своего громкого появления постепенно становится обычным рабочим инструментом. Однако, он поменял многое из того, что раньше казалось незыблемым. Внедрение интеллектуального поиска позволяет задавать запросы не ограничиваясь простым названием компании или ее ИНН. Когда данные собраны из разных источников и объединены с помощью RAG, это открывает для бизнеса новые возможности. А пользовательский опыт — особенно в сфере получения достоверной информации — становится удобнее и качественнее. Работа над проектом принесла нашей команде ценный опыт, а Заказчику дала инструмент, который стал его конкурентным преимуществом.

4. Заключение

Внедрение решения на базе Rag позволило Заказчику продемонстрировать стратегический подхода к клиентскому опыту и готовности платформы добавлять новые сегменты.

Агентство-исполнитель кейса

ItFox

ItFox разрабатывает решения на базе ИИ, в том числе интеллектуальные поисковые системы на базе RAG и LLM. Работая даже с разрозненными массивами исходной информации, добиваемся точности ответов, исключаем возможность "галлюцинаций", обеспечивая высокую надежность результатов выдачи.