Bilgilendirme: Kurulum ve veri kapsamındaki çalışmalar devam etmektedir. Göstereceğiniz anlayış için teşekkür ederiz.
 

İnce Ayarlanmış RAG Bileşenlerini Kullanarak Türkçe Veri Setleri için Yeni Bir Füzyon Yöntemi ile Yeniden Sıralama Konfigürasyonu

No Thumbnail Available

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Bu çalışma, Türkçe için, özellikle de tıp alanında, Retrieval-Augmented Generation (RAG) sistemlerinin çok dilli yeteneklerindeki boşluğu ele almaktadır. Büyük Dil Modellerinin (LLM'ler) yükselişi ve yaygın uygulamalarıyla, halüsinasyonları azaltmak ve yanıt doğruluğunu artırmak için, harici bilgilere dayalı retrieval (geri çağırma) bileşenlerinin kullanımı kritik bir hale gelmiştir. Ancak, mevcut retrieval bileşenlerinin çoğu (embedding'ler ve reranker'lar dahil olmak üzere) ağırlıklı olarak İngilizce veri setleri üzerinde eğitilmiştir, bu da çok dilli ve alana özgü yetenekler açısından önemli bir sınırlamayı ortaya koymaktadır. Bu durumu ele almak için, bu çalışma kapsamında Türkçe tıbbi bir veri seti olan Pubmed-RAG-TR ve popüler bir Türkçe RAG veri seti olan WikiRAG-TR [36] kullanılarak retrieval bileşenleri ince ayar (fine-tuning) ile geliştirilmiştir. Ayrıca, LLM'ler için bağlam oluşturmayı iyileştirmek amacıyla yeni bir RRF (Reciprocal Rank Fusion) tabanlı reranker pipeline'ı geliştirilmiştir. Deneysel sonuçlar, retrieval bileşenlerinin alana özgü veri setleri üzerinde ince ayar yapılmasının, retrieval ve post-retrieval kalitesini önemli ölçüde artırdığını ve LLM yanıtlarının doğruluğunu iyileştirdiğini göstermiştir. Çalışma, alana özgü semantiğin retrieval ve reranking modellerine dahil edilmesinin, çok dilli bağlamlarda RAG sistemlerinin performansını önemli ölçüde artırabileceği sonucuna varmaktadır.
This study addresses the gap in the multilingual capabilities of Retrieval Augmented Generation (RAG) systems for the Turkish language, particularly in the medical domain. With the rise of Large Language Models (LLMs) and their widespread applications, the reliance on external knowledge through retrieval components has become crucial to mitigate hallucinations and improve response accuracy. However, most existing retrieval components, including embeddings and rerankers, are predominantly trained on English datasets, highlighting a significant limitation in multilingual and domain-specific capabilities. To address this, the study introduced Pubmed-RAG-TR, a Turkish-language medical dataset, and fine-tuned retrieval components on both Pubmed-RAG-TR and WikiRAG-TR, a Turkish RAG dataset. A novel RRF-based reranker pipeline was also developed to improve the context construction for LLMs. Experimental results demonstrated that fine-tuning retrieval components on domain-specific datasets significantly enhanced the retrieval and post-retrieval quality, improving the accuracy of LLM responses. The study concludes that incorporating domain-specific semantics into retrieval and reranking models can substantially boost the performance of RAG systems in multilingual contexts.

Description

Keywords

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Metin Erişim, Sentetik Veriler, Yeniden Sıralama, İnsan-Yapay Zeka Etkileşimi, Computer Engineering and Computer Science and Control, Text Retrieval, Synthetic Dataset, Reordering, Human-Artificial Intelligence Interaction

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

84

Collections

Google Scholar Logo
Google Scholar™

Sustainable Development Goals

3

GOOD HEALTH AND WELL-BEING
GOOD HEALTH AND WELL-BEING Logo

7

AFFORDABLE AND CLEAN ENERGY
AFFORDABLE AND CLEAN ENERGY Logo

9

INDUSTRY, INNOVATION AND INFRASTRUCTURE
INDUSTRY, INNOVATION AND INFRASTRUCTURE Logo

10

REDUCED INEQUALITIES
REDUCED INEQUALITIES Logo

16

PEACE, JUSTICE AND STRONG INSTITUTIONS
PEACE, JUSTICE AND STRONG INSTITUTIONS Logo

17

PARTNERSHIPS FOR THE GOALS
PARTNERSHIPS FOR THE GOALS Logo