TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli

Yükleniyor...
Küçük Resim

Tarih

2025-11-10

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Cornell Univ

Erişim Hakkı

info:eu-repo/semantics/openAccess

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Bu çalışmada, öncelikle Doğal Dil Çıkarımı (DDÇ) ve Anlamsal Metin Benzerliği (AMB) görevleri için geliştirilen TurkEmbed modelinin, MS-Marco-TR veri seti üzerinde ince ayar yapılarak geri getirme görevlerine uygun hale getirilmesini sağlayan TurkEmbed4Retrieval modelini tanıtıyoruz. Model, Matruşka temsili ögrenme ve özel tasarlanmış negatif çiftlerin sıralanması kayıp fonksiyonu gibi ileri seviye egitim teknikleri kullanılarak optimize edilmiştir. Yapılan kapsamlı deneyler, TurkEmbed4Retrieval’ın, geri getirme metriklerinde TurkishcolBERT modelini Scifact-TR veri kümesinde %19–26 oranında geçtiğini göstermektedir. Bu bağlamda, modelimiz, Türkçe bilgi getirme sistemleri için yeni bir çıtaya ulaşmaktadır.

In this work, we introduce TurkEmbed4Retrieval, a retrieval-specialized variant of the TurkEmbed model originally designed for Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. By fine-tuning the base model on the MS-MARCO-TR dataset using advanced training techniques, including Matryoshka representation learning and a tailored multiple negatives ranking loss, we achieve state-of-the-art (SOTA) performance for Turkish retrieval tasks. Extensive experiments demonstrate that our model outperforms Turkish-colBERT by 19–26% on key retrieval metrics for the Scifact-TR dataset, thereby establishing a new benchmark for Turkish information retrieval.

Açıklama

Anahtar Kelimeler

Türkçe gömme modeli, Bilgi getirme, MS-Marco-TR, Doğal Dil İşleme, Anlamsal benzerlik, Turkish embedding model, Information retrieval, Retrieval augmented generation, Natural Language Processing, Semantic similarity

Kaynak

Arxiv

WoS Q Değeri

N/A

Scopus Q Değeri

Cilt

Sayı

Künye

Ezerceli, Ö., Gümüşçekiçci, G., Erkoç, T. & Özenç, B. (2025). TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli. Arxiv, 1-4. doi: https://doi.org/10.48550/arXiv.2511.07595