Transforming raw corporate texts into instruction dataset for fine-tuning generator within a RAG system

Article's languageRussian

Author(s)

Vadim Olegovich Eliseev
Aleksandra Yuryevna Maksimova
Vitalii Ivanovich Bondarenko

Abstract

This paper describes a method for constructing an instruction dataset for fine-tuning a large language model (LLM) to serve as a generator within a retrieval-augmented generation (RAG) pipeline. The practical implementation of this method is demonstrated through the construction of a dataset tailored for fine-tuning the generator of a corporate intelligent assistant based on the RAG architecture.

Keywords

retrieval augmented generation
RAG
large linguistic models
fine-tuning
instruction dataset
AI-assistant

DOI10.31144/si.2307-6410.2025.n27.p77-92

UDK004.853

Issue # 27, 2025

Pages77-92

File eliseevmaksimovabondarenko.pdf (526.81 KB)

Bibliographic reference

Eliseev, V.; Maksimova, A.; Bondarenko, V. Transforming raw corporate texts into instruction dataset for fine-tuning generator within a RAG system. System Informatics 2025, 27, 77-92. https://doi.org/10.31144/si.2307-6410.2025.n27.p77-92.