TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli

Yükleniyor...
Küçük Resim

Tarih

2025-08-15

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Institute of Electrical and Electronics Engineers Inc.

Erişim Hakkı

info:eu-repo/semantics/closedAccess

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Bu çalışmada, öncelikle Doğal Dil Çıkarımı (DDÇ) ve Anlamsal Metin Benzerliği (AMB) görevleri için geliştirilen TurkEmbed modelinin, MS-Marco-TR veri seti üzerinde ince ayar yapılarak geri getirme görevlerine uygun hale getirilmesini sağlayan TurkEmbed4Retrieval modelini tanıtıyoruz. Model, Matruşka temsili ögrenme ve özel tasarlanmış negatif çiftlerin sıralanması kayıp fonksiyonu gibi ileri seviye egitim teknikleri kullanılarak optimize edilmiştir. Yapılan kapsamlı deneyler, TurkEmbed4Retrieval’ın, geri getirme metriklerinde TurkishcolBERT modelini Scifact-TR veri kümesinde %19–26 oranında geçtiğini göstermektedir. Bu bağlamda, modelimiz, Türkçe bilgi getirme sistemleri için yeni bir çıtaya ulaşmaktadır.

In this work, we introduce TurkEmbed4Retrieval, a retrieval-specialized variant of the TurkEmbed model originally designed for Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. By fine-tuning the base model on the MS-MARCO-TR dataset using advanced training techniques, including Matryoshka representation learning and a tailored multiple negatives ranking loss, we achieve state-of-the-art (SOTA) performance for Turkish retrieval tasks. Extensive experiments demonstrate that our model outperforms Turkish-colBERT by 19–26% on key retrieval metrics for the Scifact-TR dataset, thereby establishing a new benchmark for Turkish information retrieval.

Açıklama

Anahtar Kelimeler

Türkçe gömme modeli, Bilgi getirme, MS-Marco-TR, Doğal Dil İşleme, Anlamsal benzerlik, Turkish embedding model, Information retrieval, Retrieval augmented generation, Natural Language Processing, Semantic similarity, Information retrieval, Embeddings, Natural Language Processing Systems, Semantics, Language inference, Language processing, Language semantics, Natural languages, Turkishs

Kaynak

2025 33rd Signal Processing and Communications Applications Conference (SIU)

WoS Q Değeri

N/A

Scopus Q Değeri

N/A

Cilt

Sayı

Künye

Ezerceli, Ö., Gümüşçekiçci, G., Erkoç, T. & Özenç, B. (2025). TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli. Paper presented at the 2025 33rd Signal Processing and Communications Applications Conference (SIU), 1-4. doi:https://doi.org/10.1109/SIU66497.2025.11112338