TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli

dc.authorid0000-0002-7877-7528
dc.authorid0000-0002-9502-7817
dc.authorid0000-0001-9033-8934
dc.authorid0000-0003-2008-243X
dc.contributor.authorEzerceli, Özayen_US
dc.contributor.authorGümüşçekiçci, Gizemen_US
dc.contributor.authorErkoç, Tuğbaen_US
dc.contributor.authorÖzenç, Berkeen_US
dc.date.accessioned2025-09-29T08:04:10Z
dc.date.available2025-09-29T08:04:10Z
dc.date.issued2025-08-15
dc.departmentIşık Üniversitesi, Mühendislik ve Doğa Bilimleri Fakültesi, Bilgisayar Mühendisliği Bölümüen_US
dc.departmentIşık University, Faculty of Engineering and Natural Sciences, Department of Computer Engineeringen_US
dc.description.abstractBu çalışmada, öncelikle Doğal Dil Çıkarımı (DDÇ) ve Anlamsal Metin Benzerliği (AMB) görevleri için geliştirilen TurkEmbed modelinin, MS-Marco-TR veri seti üzerinde ince ayar yapılarak geri getirme görevlerine uygun hale getirilmesini sağlayan TurkEmbed4Retrieval modelini tanıtıyoruz. Model, Matruşka temsili ögrenme ve özel tasarlanmış negatif çiftlerin sıralanması kayıp fonksiyonu gibi ileri seviye egitim teknikleri kullanılarak optimize edilmiştir. Yapılan kapsamlı deneyler, TurkEmbed4Retrieval’ın, geri getirme metriklerinde TurkishcolBERT modelini Scifact-TR veri kümesinde %19–26 oranında geçtiğini göstermektedir. Bu bağlamda, modelimiz, Türkçe bilgi getirme sistemleri için yeni bir çıtaya ulaşmaktadır.en_US
dc.description.abstractIn this work, we introduce TurkEmbed4Retrieval, a retrieval-specialized variant of the TurkEmbed model originally designed for Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. By fine-tuning the base model on the MS-MARCO-TR dataset using advanced training techniques, including Matryoshka representation learning and a tailored multiple negatives ranking loss, we achieve state-of-the-art (SOTA) performance for Turkish retrieval tasks. Extensive experiments demonstrate that our model outperforms Turkish-colBERT by 19–26% on key retrieval metrics for the Scifact-TR dataset, thereby establishing a new benchmark for Turkish information retrieval.en_US
dc.description.versionPublisher's Versionen_US
dc.identifier.citationEzerceli, Ö., Gümüşçekiçci, G., Erkoç, T. & Özenç, B. (2025). TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli. Paper presented at the 2025 33rd Signal Processing and Communications Applications Conference (SIU), 1-4. doi:https://doi.org/10.1109/SIU66497.2025.11112338en_US
dc.identifier.doi10.1109/SIU66497.2025.11112338
dc.identifier.endpage4
dc.identifier.isbn9798331566555
dc.identifier.isbn9798331566562
dc.identifier.issn2165-0608
dc.identifier.scopus2-s2.0-105015368621
dc.identifier.scopusqualityN/A
dc.identifier.startpage1
dc.identifier.urihttps://hdl.handle.net/11729/6728
dc.identifier.urihttps://doi.org/10.1109/SIU66497.2025.11112338
dc.identifier.wosWOS:001575462500312
dc.identifier.wosqualityN/A
dc.indekslendigikaynakScopusen_US
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakConference Proceedings Citation Index – Science (CPCI-S)en_US
dc.institutionauthorGümüşçekiçci, Gizemen_US
dc.institutionauthorErkoç, Tuğbaen_US
dc.institutionauthorÖzenç, Berkeen_US
dc.institutionauthorid0000-0002-9502-7817
dc.institutionauthorid0000-0001-9033-8934
dc.institutionauthorid0000-0003-2008-243X
dc.language.isotren_US
dc.peerreviewedYesen_US
dc.publicationstatusPublisheden_US
dc.publisherInstitute of Electrical and Electronics Engineers Inc.en_US
dc.relation.ispartof2025 33rd Signal Processing and Communications Applications Conference (SIU)en_US
dc.relation.publicationcategoryKonferans Öğesi - Uluslararası - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/closedAccessen_US
dc.subjectTürkçe gömme modelien_US
dc.subjectBilgi getirmeen_US
dc.subjectMS-Marco-TRen_US
dc.subjectDoğal Dil İşlemeen_US
dc.subjectAnlamsal benzerliken_US
dc.subjectTurkish embedding modelen_US
dc.subjectInformation retrievalen_US
dc.subjectRetrieval augmented generationen_US
dc.subjectNatural Language Processingen_US
dc.subjectSemantic similarityen_US
dc.subjectInformation retrievalen_US
dc.subjectEmbeddingsen_US
dc.subjectNatural Language Processing Systemsen_US
dc.subjectSemanticsen_US
dc.subjectLanguage inferenceen_US
dc.subjectLanguage processingen_US
dc.subjectLanguage semanticsen_US
dc.subjectNatural languagesen_US
dc.subjectTurkishsen_US
dc.titleTurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modelien_US
dc.title.alternativeTurkEmbed4Retrieval: Turkish embedding model for retrieval tasken_US
dc.typeConference Objecten_US
dspace.entity.typePublicationen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
TurkEmbed4Retrieval_Turkce_icin_geri_getirme_gorevine_ozel_gomme_modeli.pdf
Boyut:
1.38 MB
Biçim:
Adobe Portable Document Format
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.17 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: