Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları
| dc.authorid | 0000-0003-1298-4521 | |
| dc.authorid | 0009-0002-7907-1209 | |
| dc.authorid | 0000-0002-6652-4339 | |
| dc.authorid | 0000-0002-7764-2891 | |
| dc.authorid | 0000-0002-4305-8785 | |
| dc.contributor.author | Bayram, M. Ali | en_US |
| dc.contributor.author | Fincan, Ali Arda | en_US |
| dc.contributor.author | Gümüş, Ahmet Semih | en_US |
| dc.contributor.author | Diri, Banu | en_US |
| dc.contributor.author | Yıldırım, Savaş | en_US |
| dc.contributor.author | Aytaş, Öner | en_US |
| dc.date.accessioned | 2025-09-30T09:46:39Z | |
| dc.date.available | 2025-09-30T09:46:39Z | |
| dc.date.issued | 2025-08-15 | |
| dc.department | Işık Üniversitesi, Meslek Yüksekokulu, Bilgisayar Programcılığı Programı | en_US |
| dc.department | Işık University, Vocational School, Computer Programming Program | en_US |
| dc.description.abstract | Dil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli ˘bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır. | en_US |
| dc.description.abstract | Language models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs’ capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations. | en_US |
| dc.description.version | Publisher's Version | en_US |
| dc.identifier.doi | 10.1109/SIU66497.2025.11112154 | |
| dc.identifier.endpage | 4 | |
| dc.identifier.isbn | 9798331566555 | |
| dc.identifier.isbn | 9798331566562 | |
| dc.identifier.issn | 2165-0608 | |
| dc.identifier.scopus | 2-s2.0-105015564217 | |
| dc.identifier.scopusquality | N/A | |
| dc.identifier.startpage | 1 | |
| dc.identifier.uri | https://hdl.handle.net/11729/6732 | |
| dc.identifier.uri | https://doi.org/10.1109/SIU66497.2025.11112154 | |
| dc.identifier.wos | WOS:001575462500215 | |
| dc.identifier.wosquality | N/A | |
| dc.indekslendigikaynak | Scopus | en_US |
| dc.indekslendigikaynak | Web of Science | en_US |
| dc.indekslendigikaynak | Conference Proceedings Citation Index – Science (CPCI-S) | en_US |
| dc.institutionauthor | Aytaş, Öner | en_US |
| dc.institutionauthorid | 0000-0002-4305-8785 | |
| dc.language.iso | tr | en_US |
| dc.peerreviewed | Yes | en_US |
| dc.publicationstatus | Published | en_US |
| dc.publisher | Institute of Electrical and Electronics Engineers Inc. | en_US |
| dc.relation.ispartof | 2025 33rd Signal Processing and Communications Applications Conference (SIU) | en_US |
| dc.relation.publicationcategory | Konferans Öğesi - Uluslararası - Kurum Öğretim Elemanı | en_US |
| dc.rights | info:eu-repo/semantics/closedAccess | en_US |
| dc.subject | Büyük Dil Modelleri (LLM) | en_US |
| dc.subject | Doğal Dil İşleme (NLP) | en_US |
| dc.subject | Yapay zeka | en_US |
| dc.subject | Türkçe NLP | en_US |
| dc.subject | Large Language Models (LLM) | en_US |
| dc.subject | Natural Language Processing (NLP) | en_US |
| dc.subject | Artificial intelligence | en_US |
| dc.subject | Turkish NLP | en_US |
| dc.subject | Computational linguistics | en_US |
| dc.subject | Natural language processing systems | en_US |
| dc.subject | Language model | en_US |
| dc.subject | Language processing | en_US |
| dc.subject | Model performance evaluations | en_US |
| dc.subject | Natural languages | en_US |
| dc.subject | Turkish natural language processing | en_US |
| dc.subject | Turkishs | en_US |
| dc.title | Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları | en_US |
| dc.title.alternative | TR-MMLU benchmark for large language models: performance evaluation, challenges, and opportunities for improvement | en_US |
| dc.type | Conference Object | en_US |
| dspace.entity.type | Publication | en_US |
Dosyalar
Orijinal paket
1 - 1 / 1
Küçük Resim Yok
- İsim:
- Buyuk_dil_modelleri_icin_TR_MMLU_benchmarki_performans_degerlendirmesi_zorluklar_ve_iyilestirme_firsatlari.pdf
- Boyut:
- 174.62 KB
- Biçim:
- Adobe Portable Document Format
Lisans paketi
1 - 1 / 1
Küçük Resim Yok
- İsim:
- license.txt
- Boyut:
- 1.17 KB
- Biçim:
- Item-specific license agreed upon to submission
- Açıklama:












