TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli
| dc.authorid | 0000-0002-7877-7528 | |
| dc.authorid | 0000-0002-9502-7817 | |
| dc.authorid | 0000-0001-9033-8934 | |
| dc.authorid | 0000-0003-2008-243X | |
| dc.contributor.author | Ezerceli, Özay | en_US |
| dc.contributor.author | Gümüşçekiçci, Gizem | en_US |
| dc.contributor.author | Erkoç, Tuğba | en_US |
| dc.contributor.author | Özenç, Berke | en_US |
| dc.date.accessioned | 2025-09-29T08:04:10Z | |
| dc.date.available | 2025-09-29T08:04:10Z | |
| dc.date.issued | 2025-08-15 | |
| dc.department | Işık Üniversitesi, Mühendislik ve Doğa Bilimleri Fakültesi, Bilgisayar Mühendisliği Bölümü | en_US |
| dc.department | Işık University, Faculty of Engineering and Natural Sciences, Department of Computer Engineering | en_US |
| dc.description.abstract | Bu çalışmada, öncelikle Doğal Dil Çıkarımı (DDÇ) ve Anlamsal Metin Benzerliği (AMB) görevleri için geliştirilen TurkEmbed modelinin, MS-Marco-TR veri seti üzerinde ince ayar yapılarak geri getirme görevlerine uygun hale getirilmesini sağlayan TurkEmbed4Retrieval modelini tanıtıyoruz. Model, Matruşka temsili ögrenme ve özel tasarlanmış negatif çiftlerin sıralanması kayıp fonksiyonu gibi ileri seviye egitim teknikleri kullanılarak optimize edilmiştir. Yapılan kapsamlı deneyler, TurkEmbed4Retrieval’ın, geri getirme metriklerinde TurkishcolBERT modelini Scifact-TR veri kümesinde %19–26 oranında geçtiğini göstermektedir. Bu bağlamda, modelimiz, Türkçe bilgi getirme sistemleri için yeni bir çıtaya ulaşmaktadır. | en_US |
| dc.description.abstract | In this work, we introduce TurkEmbed4Retrieval, a retrieval-specialized variant of the TurkEmbed model originally designed for Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. By fine-tuning the base model on the MS-MARCO-TR dataset using advanced training techniques, including Matryoshka representation learning and a tailored multiple negatives ranking loss, we achieve state-of-the-art (SOTA) performance for Turkish retrieval tasks. Extensive experiments demonstrate that our model outperforms Turkish-colBERT by 19–26% on key retrieval metrics for the Scifact-TR dataset, thereby establishing a new benchmark for Turkish information retrieval. | en_US |
| dc.description.version | Publisher's Version | en_US |
| dc.identifier.citation | Ezerceli, Ö., Gümüşçekiçci, G., Erkoç, T. & Özenç, B. (2025). TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli. Paper presented at the 2025 33rd Signal Processing and Communications Applications Conference (SIU), 1-4. doi:https://doi.org/10.1109/SIU66497.2025.11112338 | en_US |
| dc.identifier.doi | 10.1109/SIU66497.2025.11112338 | |
| dc.identifier.endpage | 4 | |
| dc.identifier.isbn | 9798331566555 | |
| dc.identifier.isbn | 9798331566562 | |
| dc.identifier.issn | 2165-0608 | |
| dc.identifier.scopus | 2-s2.0-105015368621 | |
| dc.identifier.scopusquality | N/A | |
| dc.identifier.startpage | 1 | |
| dc.identifier.uri | https://hdl.handle.net/11729/6728 | |
| dc.identifier.uri | https://doi.org/10.1109/SIU66497.2025.11112338 | |
| dc.identifier.wos | WOS:001575462500312 | |
| dc.identifier.wosquality | N/A | |
| dc.indekslendigikaynak | Scopus | en_US |
| dc.indekslendigikaynak | Web of Science | en_US |
| dc.indekslendigikaynak | Conference Proceedings Citation Index – Science (CPCI-S) | en_US |
| dc.institutionauthor | Gümüşçekiçci, Gizem | en_US |
| dc.institutionauthor | Erkoç, Tuğba | en_US |
| dc.institutionauthor | Özenç, Berke | en_US |
| dc.institutionauthorid | 0000-0002-9502-7817 | |
| dc.institutionauthorid | 0000-0001-9033-8934 | |
| dc.institutionauthorid | 0000-0003-2008-243X | |
| dc.language.iso | tr | en_US |
| dc.peerreviewed | Yes | en_US |
| dc.publicationstatus | Published | en_US |
| dc.publisher | Institute of Electrical and Electronics Engineers Inc. | en_US |
| dc.relation.ispartof | 2025 33rd Signal Processing and Communications Applications Conference (SIU) | en_US |
| dc.relation.publicationcategory | Konferans Öğesi - Uluslararası - Kurum Öğretim Elemanı | en_US |
| dc.rights | info:eu-repo/semantics/closedAccess | en_US |
| dc.subject | Türkçe gömme modeli | en_US |
| dc.subject | Bilgi getirme | en_US |
| dc.subject | MS-Marco-TR | en_US |
| dc.subject | Doğal Dil İşleme | en_US |
| dc.subject | Anlamsal benzerlik | en_US |
| dc.subject | Turkish embedding model | en_US |
| dc.subject | Information retrieval | en_US |
| dc.subject | Retrieval augmented generation | en_US |
| dc.subject | Natural Language Processing | en_US |
| dc.subject | Semantic similarity | en_US |
| dc.subject | Information retrieval | en_US |
| dc.subject | Embeddings | en_US |
| dc.subject | Natural Language Processing Systems | en_US |
| dc.subject | Semantics | en_US |
| dc.subject | Language inference | en_US |
| dc.subject | Language processing | en_US |
| dc.subject | Language semantics | en_US |
| dc.subject | Natural languages | en_US |
| dc.subject | Turkishs | en_US |
| dc.title | TurkEmbed4Retrieval: Türkçe için geri getirme görevine özel gömme modeli | en_US |
| dc.title.alternative | TurkEmbed4Retrieval: Turkish embedding model for retrieval task | en_US |
| dc.type | Conference Object | en_US |
| dspace.entity.type | Publication | en_US |
Dosyalar
Orijinal paket
1 - 1 / 1
Küçük Resim Yok
- İsim:
- TurkEmbed4Retrieval_Turkce_icin_geri_getirme_gorevine_ozel_gomme_modeli.pdf
- Boyut:
- 1.38 MB
- Biçim:
- Adobe Portable Document Format
Lisans paketi
1 - 1 / 1
Küçük Resim Yok
- İsim:
- license.txt
- Boyut:
- 1.17 KB
- Biçim:
- Item-specific license agreed upon to submission
- Açıklama:












