Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

dc.authorid0000-0003-1298-4521
dc.authorid0009-0002-7907-1209
dc.authorid0000-0002-6652-4339
dc.authorid0000-0002-7764-2891
dc.authorid0000-0002-4305-8785
dc.contributor.authorBayram, M. Alien_US
dc.contributor.authorFincan, Ali Ardaen_US
dc.contributor.authorGümüş, Ahmet Semihen_US
dc.contributor.authorDiri, Banuen_US
dc.contributor.authorYıldırım, Savaşen_US
dc.contributor.authorAytaş, Öneren_US
dc.date.accessioned2025-11-21T12:08:45Z
dc.date.available2025-11-21T12:08:45Z
dc.date.issued2025-08-18
dc.departmentIşık Üniversitesi, Meslek Yüksekokulu, Bilgisayar Programcılığı Programıen_US
dc.departmentIşık University, Vocational School, Computer Programming Programen_US
dc.description.abstractDil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.en_US
dc.description.abstractLanguage models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs’ capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations.en_US
dc.description.versionPreprint's Versionen_US
dc.identifier.citationBayram, M. A., Fincan, A. A., Gümüş, A. S., Diri, B., Yıldırım, S. & Aytaş, Ö. (2025). Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları. Arxiv, 1-4. doi: https://www.arxiv.org/abs/2508.13044v1en_US
dc.identifier.endpage4
dc.identifier.startpage1
dc.identifier.urihttps://hdl.handle.net/11729/6791
dc.identifier.urihttps://www.arxiv.org/abs/2508.13044v1
dc.identifier.wosPPRN:158936534
dc.identifier.wosqualityN/A
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakPreprint Citation Indexen_US
dc.institutionauthorAytaş, Öneren_US
dc.institutionauthorid0000-0002-4305-8785
dc.language.isotren_US
dc.publisherCornell Univen_US
dc.relation.ispartofArxiven_US
dc.relation.publicationcategoryÖn Baskı – Uluslararası – Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBüyük Dil Modelleri (LLM)en_US
dc.subjectDoğal Dil İşleme (NLP)en_US
dc.subjectYapay Zekaen_US
dc.subjectTürkçe NLPen_US
dc.subjectLarge Language Models (LLM)en_US
dc.subjectNatural Language Processing (NLP)en_US
dc.subjectArtificial Intelligenceen_US
dc.subjectTurkish NLPen_US
dc.titleBüyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatlarıen_US
dc.title.alternativeTR-MMLU Benchmark for Large Language Models: performance evaluation, challenges, and opportunities for improvementen_US
dc.typePreprinten_US
dspace.entity.typePublicationen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
TR_MMLU_Benchmark_for_Large_Language_Models_performance_evaluation_challenges_and_opportunities_for_improvement.pdf
Boyut:
130.5 KB
Biçim:
Adobe Portable Document Format
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.17 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: