Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Dil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.

Language models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs’ capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations.

Açıklama

Anahtar Kelimeler

Büyük Dil Modelleri (LLM), Doğal Dil İşleme (NLP), Yapay Zeka, Türkçe NLP, Large Language Models (LLM), Natural Language Processing (NLP), Artificial Intelligence, Turkish NLP

Kaynak

Arxiv

WoS Q Değeri

N/A

Scopus Q Değeri

Cilt

Sayı

Künye

Bayram, M. A., Fincan, A. A., Gümüş, A. S., Diri, B., Yıldırım, S. & Aytaş, Ö. (2025). Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları. Arxiv, 1-4. doi: https://www.arxiv.org/abs/2508.13044v1