Bilgilendirme: Kurulum ve veri kapsamındaki çalışmalar devam etmektedir. Göstereceğiniz anlayış için teşekkür ederiz.
 

İnce Ayarlanmış RAG Bileşenlerini Kullanarak Türkçe Veri Setleri için Yeni Bir Füzyon Yöntemi ile Yeniden Sıralama Konfigürasyonu

dc.contributor.advisor Arslan, Serdar
dc.contributor.author Bıkmaz, Erdoğan
dc.date.accessioned 2026-01-05T15:15:53Z
dc.date.available 2026-01-05T15:15:53Z
dc.date.issued 2025
dc.description.abstract Bu çalışma, Türkçe için, özellikle de tıp alanında, Retrieval-Augmented Generation (RAG) sistemlerinin çok dilli yeteneklerindeki boşluğu ele almaktadır. Büyük Dil Modellerinin (LLM'ler) yükselişi ve yaygın uygulamalarıyla, halüsinasyonları azaltmak ve yanıt doğruluğunu artırmak için, harici bilgilere dayalı retrieval (geri çağırma) bileşenlerinin kullanımı kritik bir hale gelmiştir. Ancak, mevcut retrieval bileşenlerinin çoğu (embedding'ler ve reranker'lar dahil olmak üzere) ağırlıklı olarak İngilizce veri setleri üzerinde eğitilmiştir, bu da çok dilli ve alana özgü yetenekler açısından önemli bir sınırlamayı ortaya koymaktadır. Bu durumu ele almak için, bu çalışma kapsamında Türkçe tıbbi bir veri seti olan Pubmed-RAG-TR ve popüler bir Türkçe RAG veri seti olan WikiRAG-TR [36] kullanılarak retrieval bileşenleri ince ayar (fine-tuning) ile geliştirilmiştir. Ayrıca, LLM'ler için bağlam oluşturmayı iyileştirmek amacıyla yeni bir RRF (Reciprocal Rank Fusion) tabanlı reranker pipeline'ı geliştirilmiştir. Deneysel sonuçlar, retrieval bileşenlerinin alana özgü veri setleri üzerinde ince ayar yapılmasının, retrieval ve post-retrieval kalitesini önemli ölçüde artırdığını ve LLM yanıtlarının doğruluğunu iyileştirdiğini göstermiştir. Çalışma, alana özgü semantiğin retrieval ve reranking modellerine dahil edilmesinin, çok dilli bağlamlarda RAG sistemlerinin performansını önemli ölçüde artırabileceği sonucuna varmaktadır.
dc.description.abstract This study addresses the gap in the multilingual capabilities of Retrieval Augmented Generation (RAG) systems for the Turkish language, particularly in the medical domain. With the rise of Large Language Models (LLMs) and their widespread applications, the reliance on external knowledge through retrieval components has become crucial to mitigate hallucinations and improve response accuracy. However, most existing retrieval components, including embeddings and rerankers, are predominantly trained on English datasets, highlighting a significant limitation in multilingual and domain-specific capabilities. To address this, the study introduced Pubmed-RAG-TR, a Turkish-language medical dataset, and fine-tuned retrieval components on both Pubmed-RAG-TR and WikiRAG-TR, a Turkish RAG dataset. A novel RRF-based reranker pipeline was also developed to improve the context construction for LLMs. Experimental results demonstrated that fine-tuning retrieval components on domain-specific datasets significantly enhanced the retrieval and post-retrieval quality, improving the accuracy of LLM responses. The study concludes that incorporating domain-specific semantics into retrieval and reranking models can substantially boost the performance of RAG systems in multilingual contexts. en_US
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=CtwiQkYvArAb95Ufpfs_vmGr1Pe7Xe79cAQMQFD_GnVQxn9jeCbO96j0PiZaAZPZ
dc.identifier.uri https://hdl.handle.net/20.500.12416/15830
dc.language.iso en
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
dc.subject Metin Erişim
dc.subject Sentetik Veriler
dc.subject Yeniden Sıralama
dc.subject İnsan-Yapay Zeka Etkileşimi
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Text Retrieval en_US
dc.subject Synthetic Dataset en_US
dc.subject Reordering en_US
dc.subject Human-Artificial Intelligence Interaction en_US
dc.title İnce Ayarlanmış RAG Bileşenlerini Kullanarak Türkçe Veri Setleri için Yeni Bir Füzyon Yöntemi ile Yeniden Sıralama Konfigürasyonu
dc.title A New Fusion Reranking Pipeline for Turkish Datasets Using Fine-tuned RAG Components en_US
dc.type Doctoral Thesis en_US
dspace.entity.type Publication
gdc.coar.type text::thesis::doctoral thesis
gdc.description.department Lisansüstü Eğitim Enstitüsü / Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
gdc.description.endpage 84
gdc.identifier.yoktezid 981197
gdc.virtual.author Arslan, Serdar
relation.isAuthorOfPublication ee02ccda-1b5e-4bba-b8b3-ece13ce2ec47
relation.isAuthorOfPublication.latestForDiscovery ee02ccda-1b5e-4bba-b8b3-ece13ce2ec47
relation.isOrgUnitOfPublication 0b9123e4-4136-493b-9ffd-be856af2cdb1
relation.isOrgUnitOfPublication 12489df3-847d-4936-8339-f3d38607992f
relation.isOrgUnitOfPublication 43797d4e-4177-4b74-bd9b-38623b8aeefa
relation.isOrgUnitOfPublication.latestForDiscovery 0b9123e4-4136-493b-9ffd-be856af2cdb1

Files

Collections