Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

Bayram, M. Ali; Fincan, Ali Arda; Gümüş, Ahmet Semih; Diri, Banu; Yıldırım, Savaş; Aytaş, Öner

Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

dc.authorid	0000-0003-1298-4521
dc.authorid	0009-0002-7907-1209
dc.authorid	0000-0002-6652-4339
dc.authorid	0000-0002-7764-2891
dc.authorid	0000-0002-4305-8785
dc.contributor.author	Bayram, M. Ali	en_US
dc.contributor.author	Fincan, Ali Arda	en_US
dc.contributor.author	Gümüş, Ahmet Semih	en_US
dc.contributor.author	Diri, Banu	en_US
dc.contributor.author	Yıldırım, Savaş	en_US
dc.contributor.author	Aytaş, Öner	en_US
dc.date.accessioned	2025-11-21T12:08:45Z
dc.date.available	2025-11-21T12:08:45Z
dc.date.issued	2025-08-18
dc.department	Işık Üniversitesi, Meslek Yüksekokulu, Bilgisayar Programcılığı Programı	en_US
dc.department	Işık University, Vocational School, Computer Programming Program	en_US
dc.description.abstract	Dil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.	en_US
dc.description.abstract	Language models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs’ capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations.	en_US
dc.description.version	Preprint's Version	en_US
dc.identifier.citation	Bayram, M. A., Fincan, A. A., Gümüş, A. S., Diri, B., Yıldırım, S. & Aytaş, Ö. (2025). Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları. Arxiv, 1-4. doi: https://www.arxiv.org/abs/2508.13044v1	en_US
dc.identifier.endpage	4
dc.identifier.startpage	1
dc.identifier.uri	https://hdl.handle.net/11729/6791
dc.identifier.uri	https://www.arxiv.org/abs/2508.13044v1
dc.identifier.wos	PPRN:158936534
dc.identifier.wosquality	N/A
dc.indekslendigikaynak	Web of Science	en_US
dc.indekslendigikaynak	Preprint Citation Index	en_US
dc.institutionauthor	Aytaş, Öner	en_US
dc.institutionauthorid	0000-0002-4305-8785
dc.language.iso	tr	en_US
dc.publisher	Cornell Univ	en_US
dc.relation.ispartof	Arxiv	en_US
dc.relation.publicationcategory	Ön Baskı – Uluslararası – Kurum Öğretim Elemanı	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Büyük Dil Modelleri (LLM)	en_US
dc.subject	Doğal Dil İşleme (NLP)	en_US
dc.subject	Yapay Zeka	en_US
dc.subject	Türkçe NLP	en_US
dc.subject	Large Language Models (LLM)	en_US
dc.subject	Natural Language Processing (NLP)	en_US
dc.subject	Artificial Intelligence	en_US
dc.subject	Turkish NLP	en_US
dc.title	Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları	en_US
dc.title.alternative	TR-MMLU Benchmark for Large Language Models: performance evaluation, challenges, and opportunities for improvement	en_US
dc.type	Preprint	en_US
dspace.entity.type	Publication	en_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: TR_MMLU_Benchmark_for_Large_Language_Models_performance_evaluation_challenges_and_opportunities_for_improvement.pdf
Boyut:: 130.5 KB
Biçim:: Adobe Portable Document Format

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.17 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Meslek Yüksekokulu Koleksiyonu
WoS İndeksli Yayınlar Koleksiyonu