Embeddings

Короткое определение. Embeddings (эмбеддинги, векторные представления) — способ записать смысл текста набором чисел. Тексты с похожим смыслом получают похожие наборы чисел, и компьютер может искать «похожее по смыслу», а не только по совпадению слов.

Простыми словами. Представьте, что каждому тексту присваиваются координаты на огромной карте смыслов. «Возврат товара» и «клиент хочет вернуть покупку» окажутся рядом на этой карте, хотя общих слов у них почти нет. Поиск по смыслу — это поиск ближайших точек на карте.

Зачем это нужно. На эмбеддингах построен поиск в RAG: вопрос превращается в точку на карте, система находит ближайшие к нему фрагменты документов и передаёт их нейросети. Без эмбеддингов работал бы только поиск по точным словам — а люди редко спрашивают теми же словами, которыми написан документ.

Пример. Клиент пишет «заказ пришёл мятый». Поиск по словам не найдёт регламент «Действия при повреждении упаковки» — общих слов нет. Поиск по эмбеддингам найдёт: смысл близкий.

Нужно ли это для LLM-wiki. Для старта — нет: в wiki с хорошим оглавлением ИИ ориентируется по структуре, как человек по каталогу. Эмбеддинги становятся полезными, когда исходников очень много и к wiki добавляется поисковый слой.

Связанные термины: векторная база, RAG, LLM.