RAG

Короткое определение. RAG (retrieval-augmented generation, генерация с дополнением из поиска) — подход, при котором перед ответом система ищет в ваших документах фрагменты, похожие на вопрос, и передаёт их нейросети как основу для ответа.

Простыми словами. RAG — это поиск по коробкам. У вас склад документов; на каждый вопрос очень быстрый кладовщик приносит десяток листов, которые показались ему подходящими, а нейросеть отвечает по этим листам. Иногда листы — именно те. Иногда — три версии одного прайса, и модель не знает, какой верить.

Зачем это нужно. RAG незаменим, когда документов очень много: миллионы страниц нельзя «прочитать заранее», можно только искать по ним. Архивы тикетов, нормативка, большая документация — его территория.

Пример. Вопрос «какой срок гарантии на модель X?» — система находит фрагменты инструкций со словами про гарантию и модель X, нейросеть собирает из них ответ.

Отличие от LLM-wiki. RAG заново собирает знания на каждый вопрос и ничего не накапливает. LLM-wiki — противоположный полюс: знания осмыслены заранее и накапливаются. Подходы дополняют друг друга — подробный разбор в уроке-сравнении.

Связанные термины: LLM-wiki, embeddings, векторная база.