Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

Bayram, M. Ali; Fincan, Ali Arda; Gümüş, Ahmet Semih; Diri, Banu; Yıldırım, Savaş; Aytaş, Öner

Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

dc.authorid	0000-0003-1298-4521
dc.authorid	0009-0002-7907-1209
dc.authorid	0000-0002-6652-4339
dc.authorid	0000-0002-7764-2891
dc.authorid	0000-0002-4305-8785
dc.contributor.author	Bayram, M. Ali	en_US
dc.contributor.author	Fincan, Ali Arda	en_US
dc.contributor.author	Gümüş, Ahmet Semih	en_US
dc.contributor.author	Diri, Banu	en_US
dc.contributor.author	Yıldırım, Savaş	en_US
dc.contributor.author	Aytaş, Öner	en_US
dc.date.accessioned	2025-09-30T09:46:39Z
dc.date.available	2025-09-30T09:46:39Z
dc.date.issued	2025-08-15
dc.department	Işık Üniversitesi, Meslek Yüksekokulu, Bilgisayar Programcılığı Programı	en_US
dc.department	Işık University, Vocational School, Computer Programming Program	en_US
dc.description.abstract	Dil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli ˘bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.	en_US
dc.description.abstract	Language models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs’ capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations.	en_US
dc.description.version	Publisher's Version	en_US
dc.identifier.doi	10.1109/SIU66497.2025.11112154
dc.identifier.endpage	4
dc.identifier.isbn	9798331566555
dc.identifier.isbn	9798331566562
dc.identifier.issn	2165-0608
dc.identifier.scopus	2-s2.0-105015564217
dc.identifier.scopusquality	N/A
dc.identifier.startpage	1
dc.identifier.uri	https://hdl.handle.net/11729/6732
dc.identifier.uri	https://doi.org/10.1109/SIU66497.2025.11112154
dc.identifier.wos	WOS:001575462500215
dc.identifier.wosquality	N/A
dc.indekslendigikaynak	Scopus	en_US
dc.indekslendigikaynak	Web of Science	en_US
dc.indekslendigikaynak	Conference Proceedings Citation Index – Science (CPCI-S)	en_US
dc.institutionauthor	Aytaş, Öner	en_US
dc.institutionauthorid	0000-0002-4305-8785
dc.language.iso	tr	en_US
dc.peerreviewed	Yes	en_US
dc.publicationstatus	Published	en_US
dc.publisher	Institute of Electrical and Electronics Engineers Inc.	en_US
dc.relation.ispartof	2025 33rd Signal Processing and Communications Applications Conference (SIU)	en_US
dc.relation.publicationcategory	Konferans Öğesi - Uluslararası - Kurum Öğretim Elemanı	en_US
dc.rights	info:eu-repo/semantics/closedAccess	en_US
dc.subject	Büyük Dil Modelleri (LLM)	en_US
dc.subject	Doğal Dil İşleme (NLP)	en_US
dc.subject	Yapay zeka	en_US
dc.subject	Türkçe NLP	en_US
dc.subject	Large Language Models (LLM)	en_US
dc.subject	Natural Language Processing (NLP)	en_US
dc.subject	Artificial intelligence	en_US
dc.subject	Turkish NLP	en_US
dc.subject	Computational linguistics	en_US
dc.subject	Natural language processing systems	en_US
dc.subject	Language model	en_US
dc.subject	Language processing	en_US
dc.subject	Model performance evaluations	en_US
dc.subject	Natural languages	en_US
dc.subject	Turkish natural language processing	en_US
dc.subject	Turkishs	en_US
dc.title	Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları	en_US
dc.title.alternative	TR-MMLU benchmark for large language models: performance evaluation, challenges, and opportunities for improvement	en_US
dc.type	Conference Object	en_US
dspace.entity.type	Publication	en_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: Buyuk_dil_modelleri_icin_TR_MMLU_benchmarki_performans_degerlendirmesi_zorluklar_ve_iyilestirme_firsatlari.pdf
Boyut:: 174.62 KB
Biçim:: Adobe Portable Document Format

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.17 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Meslek Yüksekokulu Koleksiyonu
Scopus İndeksli Yayınlar Koleksiyonu
WoS İndeksli Yayınlar Koleksiyonu