Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları

dc.authorid0000-0003-1298-4521
dc.authorid0009-0002-7907-1209
dc.authorid0000-0002-6652-4339
dc.authorid0000-0002-7764-2891
dc.authorid0000-0002-4305-8785
dc.contributor.authorBayram, M. Alien_US
dc.contributor.authorFincan, Ali Ardaen_US
dc.contributor.authorGümüş, Ahmet Semihen_US
dc.contributor.authorDiri, Banuen_US
dc.contributor.authorYıldırım, Savaşen_US
dc.contributor.authorAytaş, Öneren_US
dc.date.accessioned2025-09-30T09:46:39Z
dc.date.available2025-09-30T09:46:39Z
dc.date.issued2025-08-15
dc.departmentIşık Üniversitesi, Meslek Yüksekokulu, Bilgisayar Programcılığı Programıen_US
dc.departmentIşık University, Vocational School, Computer Programming Programen_US
dc.description.abstractDil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli ˘bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.en_US
dc.description.abstractLanguage models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs’ capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations.en_US
dc.description.versionPublisher's Versionen_US
dc.identifier.doi10.1109/SIU66497.2025.11112154
dc.identifier.endpage4
dc.identifier.isbn9798331566555
dc.identifier.isbn9798331566562
dc.identifier.issn2165-0608
dc.identifier.scopus2-s2.0-105015564217
dc.identifier.scopusqualityN/A
dc.identifier.startpage1
dc.identifier.urihttps://hdl.handle.net/11729/6732
dc.identifier.urihttps://doi.org/10.1109/SIU66497.2025.11112154
dc.identifier.wosWOS:001575462500215
dc.identifier.wosqualityN/A
dc.indekslendigikaynakScopusen_US
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakConference Proceedings Citation Index – Science (CPCI-S)en_US
dc.institutionauthorAytaş, Öneren_US
dc.institutionauthorid0000-0002-4305-8785
dc.language.isotren_US
dc.peerreviewedYesen_US
dc.publicationstatusPublisheden_US
dc.publisherInstitute of Electrical and Electronics Engineers Inc.en_US
dc.relation.ispartof2025 33rd Signal Processing and Communications Applications Conference (SIU)en_US
dc.relation.publicationcategoryKonferans Öğesi - Uluslararası - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/closedAccessen_US
dc.subjectBüyük Dil Modelleri (LLM)en_US
dc.subjectDoğal Dil İşleme (NLP)en_US
dc.subjectYapay zekaen_US
dc.subjectTürkçe NLPen_US
dc.subjectLarge Language Models (LLM)en_US
dc.subjectNatural Language Processing (NLP)en_US
dc.subjectArtificial intelligenceen_US
dc.subjectTurkish NLPen_US
dc.subjectComputational linguisticsen_US
dc.subjectNatural language processing systemsen_US
dc.subjectLanguage modelen_US
dc.subjectLanguage processingen_US
dc.subjectModel performance evaluationsen_US
dc.subjectNatural languagesen_US
dc.subjectTurkish natural language processingen_US
dc.subjectTurkishsen_US
dc.titleBüyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatlarıen_US
dc.title.alternativeTR-MMLU benchmark for large language models: performance evaluation, challenges, and opportunities for improvementen_US
dc.typeConference Objecten_US
dspace.entity.typePublicationen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
Buyuk_dil_modelleri_icin_TR_MMLU_benchmarki_performans_degerlendirmesi_zorluklar_ve_iyilestirme_firsatlari.pdf
Boyut:
174.62 KB
Biçim:
Adobe Portable Document Format
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.17 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: