Общаемся с базой знаний: как мы улучшили точность генеративных ответов LLM с помощью собственного RAG Хабр

Thuesen Mahmood

Mar 24, 2025 • 3 min read

Подробнее о подходе RAG можно прочитать на странице доков HuggingFace, недавно на Хабре вышла статья о русскоязычном помощнике, построенном на базе трансформерной модели Saiga (saiga_mistral_7b_lora). С помощью Fine-tuning мы влияем на саму большую языковую модель, так как она дообучается на специфичных для решаемой задачи данных. Исследования в этой области продолжаются, и сообщество разработчиков активно работает над тем, чтобы устройство CoT prompting стало еще более гибким и масштабируемым. Количество публикаций и исследований в этом направлении растет, что значительно способствует ускорению процесса внедрения данной технологии в реальные проекты и продукты. При длительных диалогах с языковой моделью периодически возвращайтесь к исходной задаче. Это естественная практика — даже в профессиональных дискуссиях о моделях участники могут увлечься интересной деталью и потерять основную цель обсуждения. В ходе диалога модели часто отклоняются от темы или теряют нить рассуждения. Мы разработали несколько эффективных техник для обучения модели и удержания фокуса на задаче. Инженер — прагматичный профессионал, который больше доверяет процессам обучения модели, чем людям. Интересно, что модели часто "срезают углы" — упрощают сложные темы или дают чересчур обобщённые ответы. Для обучения и инференса LLM нужен мощный сервер с высокопроизводительными процессорами и видеокартами. Облачные решения предоставляют доступ к таким ресурсам без необходимости покупать и поддерживать дорогостоящее оборудование. Эти модели работают на устройстве пользователя или на локальных серверах. Именно поэтому их используют, модифицируют и обучают любые разработчики, не только создатели. На основе двух вариантов оценки мы делаем вывод, что лучшие решения для работы с русскоязычными документами - облачные платформы YandexGPT и GigaChat. Проблемы конфиденциальности также вынуждают компании выбирать локальные модели. Это когда нейросеть уверенно отвечает на заданный вопрос, но ее суждение не имеет отношения к реальности. Причем мы заранее не знаем, где именно такая галлюцинация может возникнуть.

Что собой представляет большая языковая модель (LLM)?

Но вот что модель знает, чему она научилась, — мы знаем далеко не всегда.
CoT prompting может быть эффективно интегрирован с другими технологиями, такими как системы автоматизированного рассуждения и машинного обучения, что позволит создавать более комплексные и мощные системы ИИ.
Это требует от модели способности анализировать контекст и структурировать ответ.
Большие языковые модели (LLM) — это результат объединения методов глубинного обучения и работы с текстовыми данными.
Эти достижения подчеркивают необходимость углубленного изучения универсальных принципов, способных помочь в создании более мощных и универсальных ИИ-систем.

В будущем, с развитием технологий NLP, можно ожидать появления ещё более точных и производительных языковых моделей, которые смогут решать задачи на ещё более высоком уровне. Лучшими моделями для ведения диалога оказались YandexGPT, GigaChat и Saiga-Mistral-7b-Lora, благодаря их способности точно поддерживать контекст. Лучшими моделями для точных и кратких ответов на вопросы стали YandexGPT и Saiga-Llama3-8b.

Ответы на вопросы в формате диалога

Модель предназначена для обработки запросов, генерации текста и выполнения других задач, связанных с естественным языком. В статье рассмотрим, какие LLM подходят для задач на русском языке, протестируем их по разным параметрам и выявим лидеров. Мы оценили генерацию текста, ответы на вопросы, исправление ошибок и другие функции. CoT prompting требует от модели выполнения более сложных вычислений на каждом шаге рассуждения. Кроме того, более прозрачные и понятные модели могут способствовать обеспечению этических стандартов при их использовании. Например, он обычно отказывается отвечать на тему политики — это встроено в систему. Хотя вы можете попытаться получить нужный текст с помощью другой формулировки, вероятно, это не даст большой пользы. Saiga-Mistral-7b-Lora также показала хорошие результаты, но иногда давала избыточно детализированные ответы, что могло быть излишним. Важный этап обучения — Reinforcement Learning (RL) или обучение с подкреплением. В основе этого процесса лежит отдельная reward-модель, которая оценивает качество ответов основной модели. Этот этап помогает превратить просто умную модель в модель‑ассистента. Важно отметить, что эта уровень размышления помогает моделям справляться с задачами, где требуется глубокое понимание и анализ логических зависимости. Мощный фреймворк с открытым исходным кодом предназначен для создания приложений на основе больших языковых моделей и генеративных конвейеров, дополненных поиском (RAG). Он объединяет поисковые и генеративные методы, поэтому создает более точные и релевантные результаты. Haystack помогает бизнесу решать задачи обработки больших данных, улучшать взаимодействие с клиентами и повышать эффективность рабочих процессов. Разработчики могут легко адаптировать фреймворк под свои сценарии использования и создавать приложения на основе LLM. Их вычислительная сложность является одной из таких трудностей, которая может сделать обучение и развертывание медленнее, чем https://aibusiness.com с другой нейронной сетью топологий. Скрытый слой в сети управляет скрытым состоянием, которое отслеживает вычисляемую информацию на протяжении всей последовательности. Это позволяет RNN запоминать предыдущую информацию и использовать ее для создания прогнозов. Языковые модели в основном состоят из рекуррентных нейронных сетей (RNN). Например, так появилась YandexGPT 3 — это как раз модель нового поколения. Работа с пользователями, их вопросы, их оценки на дальнейшее обучение готовой LLM прямо уже не влияют. На первом этапе модель учится на специально отобранном большом наборе данных. Pretrain-датасет может быть достаточно большим — до многих терабайт. LLM применяются для автоматической генерации текстов, от новостных статей до маркетинговых материалов. https://auslander.expert/ Такие модели облегчают помогает копирайтерам и редакторам работать эффективнее, предлагая черновики текстов или даже создавая полные статьи. Это простой и эффективный метод, однако он имеет значительные ограничения, так как не учитывает дальние зависимости и может быстро становиться вычислительно неэффективным при увеличении размера n.● Марковские цепи. В основе этих моделей лежит идея, что будущее состояние (следующее слово) зависит только от текущего состояния. Марковские цепи также страдают от недостатка учёта длинных контекстов, но они были основой для многих ранних систем обработки естественного языка. Оптимизация промтов для LLM, таких как ChatGPT, является ключевым шагом к получению качественных и полезных результатов. Правильная формулировка запросов, использование контекста и ключевых слов значительно повышают точность и релевантность ответов.

Что собой представляет большая языковая модель (LLM)?

Ответы на вопросы в формате диалога

Sign up for more like this.