TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli

Bu çalışmada, öncelikle Doğal Dil Çıkarımı (DDÇ) ve Anlamsal Metin Benzerliği (AMB) görevleri için geliştirilen TurkEmbed modelinin, MS-Marco-TR veri seti üzerinde ince ayar yapılarak geri getirme görevlerine uygun hale getirilmesini sağlayan TurkEmbed4Retrieval modelini tanıtıyoruz. Model, Matruşka temsili ögrenme ve özel tasarlanmış negatif çiftlerin sıralanması kayıp fonksiyonu gibi ileri seviye egitim teknikleri kullanılarak optimize edilmiştir. Yapılan kapsamlı deneyler, TurkEmbed4Retrieval’ın, geri getirme metriklerinde TurkishcolBERT modelini Scifact-TR veri kümesinde %19–26 oranında geçtiğini göstermektedir. Bu bağlamda, modelimiz, Türkçe bilgi getirme sistemleri için yeni bir çıtaya ulaşmaktadır.

In this work, we introduce TurkEmbed4Retrieval, a retrieval-specialized variant of the TurkEmbed model originally designed for Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. By fine-tuning the base model on the MS-MARCO-TR dataset using advanced training techniques, including Matryoshka representation learning and a tailored multiple negatives ranking loss, we achieve state-of-the-art (SOTA) performance for Turkish retrieval tasks. Extensive experiments demonstrate that our model outperforms Turkish-colBERT by 19–26% on key retrieval metrics for the Scifact-TR dataset, thereby establishing a new benchmark for Turkish information retrieval.

Anahtar Kelimeler

Türkçe gömme modeli, Bilgi getirme, MS-Marco-TR, Doğal Dil İşleme, Anlamsal benzerlik, Turkish embedding model, Information retrieval, Retrieval augmented generation, Natural Language Processing, Semantic similarity, Information retrieval, Embeddings, Natural Language Processing Systems, Semantics, Language inference, Language processing, Language semantics, Natural languages, Turkishs

Kaynak

2025 33rd Signal Processing and Communications Applications Conference (SIU)

WoS Q Değeri

N/A

Scopus Q Değeri

N/A

Künye

Ezerceli, Ö., Gümüşçekiçci, G., Erkoç, T. & Özenç, B. (2025). TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli. Paper presented at the 2025 33rd Signal Processing and Communications Applications Conference (SIU), 1-4. doi:https://doi.org/10.1109/SIU66497.2025.11112338

Bağlantı

https://hdl.handle.net/11729/6728
https://doi.org/10.1109/SIU66497.2025.11112338

Koleksiyon

Bildiri Koleksiyonu | Bilgisayar Mühendisliği Bölümü
Scopus İndeksli Yayınlar Koleksiyonu
WoS İndeksli Yayınlar Koleksiyonu

Detaylı Öğe Kaydı

TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli

Dosyalar

Tarih

Yazarlar

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Açıklama