Türkmed: Türkçe metinlerin konusal / duygusal sınıflandırması ve kelimelerin anlam bulanıklığını gidermek için difüzyon ve Seq2seq-füzyon algoritmalarını içeren özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi
dc.authorid | 0000-0002-7097-6143 | |
dc.contributor.other | Altınel Girgin, Ayşe Berna | en_US |
dc.contributor.other | Şipal Sert, Bilge | en_US |
dc.contributor.other | Karadeniz, Zeynep İlknur | en_US |
dc.contributor.other | Gümüşçekiçci, Gizem | en_US |
dc.contributor.other | Öztürk, Mehmet | en_US |
dc.contributor.other | Buzlu, Kübra | en_US |
dc.contributor.other | Elma, Eren | en_US |
dc.contributor.other | Çelikmasat, Gökberk | en_US |
dc.contributor.other | Mercan, Berra | en_US |
dc.contributor.other | Aktürk, Muhammed Enes | en_US |
dc.contributor.other | Önkol, Ahmet | en_US |
dc.contributor.other | Ormancı, Batıkan Bora | en_US |
dc.contributor.other | İpek, Kaan | en_US |
dc.contributor.other | Ertunç, Yunus Emre | en_US |
dc.contributor.other | Birdemir, Nuri Can | en_US |
dc.date.accessioned | 2024-04-16T14:50:03Z | |
dc.date.available | 2024-04-16T14:50:03Z | |
dc.date.issued | 2023-02-15 | |
dc.department | Işık Üniversitesi, Mühendislik ve Doğa Bilimleri Fakültesi, Bilgisayar Mühendisliği Bölümü | en_US |
dc.department | Işık University, Faculty of Engineering and Natural Sciences, Department of Computer Engineering | en_US |
dc.description.abstract | Bu proje teklifinde sunulan projemiz 3 ana hedeften oluşmaktadır. Bunlar: 1. Türkçe eş sesli kelimelerin bulundukları bağlamdaki doğru anlamlarının tespit edilmesi, 2. Türkçe uzun ve kısa metinlerin konu ve duygu bazlı sınıflandırması, 3. Türkçe metinlerin konu ve duygu siniflandirmasinı yapan kamuya açik ve ulaşilabilir bir servisin oluşturulmasi. Bu hedeflere ulaşmak için geliştirilecek olan projemiz aşağıdaki katkıları sağlayacaktır: 1. Anlam bulanıklığını (Word Sense Disambiguation) gidermek için Difüzyon Algoritması tabanlı özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi. 2. Türkçe metinlerin konu bazlı ve duygu bazlı olarak sınıflandırılması için özgün eğiticili ve yarı-eğiticili makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi. Bu proje teklifinde sunulan eğiticili ve yarı-eğiticili Difüzyon Algoritması ve bi-LSTM Algoritması içerikli makine öğrenmesi ve derin öğrenme algoritmaları Türkçe metinlerin duygu sınıflandırması için gözlemlediğimiz kadarıyla daha önce hiç kullanılmamıştır. 3. Türkçe eş sesli kelimelerin anlam bulanıklığını gidermeye yönelik olarak Fan ve ekibi tarafından (2018) birçok doğal dil modelleme teknikleri birleştirilerek ortaya çıkarılmış literatürdeki en başarılı Seq2Seq modellerinden birisi olarak gösterilen Self Attention (?Fusion of Seq2Seq+Self Attention?) algoritması kullanılması. Bu algoritma Türkçe metinler için gözlemlediğimiz kadarıyla daha önce hiç kullanılmamıştır. 4. İngilizce sözlüklerden çeviri yapılmadan, Türkçe sözlük kaynaklarının sözlük-tabanlı özellikler geliştirilerek mevcut kapsamının genişletilmesi ve bu konuda çalışan araştırmacıların erişimine açık hale getirilmesi. 5. Türkçe Metinlerin Duygu Sınıflandırması için makine öğrenmesi ve sözlük temelli yaklaşımların birleşimiyle oluşan hibrit bir yöntemin sunulması. 6. Türkçe için özelleştirilmiş ön işleme çalışmasının yapılması:Kelimelerin köke indirgeme işlemleri yapılırken ?-me/ma, sız/siz? gibi eklerin korunması gerekir, çünkü bunlar kelimelerin duygu polarite değerlerini etkilemektedir. 7. Bu proje teklifinde önerilen çalışma kapsamında Türkçe için büyük miktarda duygu ve konu bazlı veri kümelerinin oluşturulması, ayrıca ilgili kıyaslama ve doğrulama yöntemlerinin de yine sunulacak sistem içerisinde kamuya açık hale getirilmesi. 8. Türkçe metinlerin duygu sınıflandırması çalışmalarında duyarlılık analizinin (-5 ve +5 arasında) yapılması ve metnin tüm özelliklerinin (emojiler vb.) dikkate alınması. Yukarıda listelenen bilimsel ve teknolojik katkıların, çeşitli sosyo-ekonomik etkileri de olacaktır. Örneğin Türkiye?de 2018 yılında günlük ortalama 7 milyon tweet atılmaktadır. Bu bağlamda metinlerin konu ve duygu bazlı olarak doğru ve hızlı sınıflandırılması pazarlama, reklam,ekonomi gibi alanlarda ve politik ve askeri bazı senaryolarda da kritik kararlar verirken yüksek bir öneme sahiptir. Sunulan proje 30 ayda, Matematik konularında uzman bir kişiden alınacak eğitim ile, 1 yüksek-lisans bursiyeri ve 4 lisans bursiyerinin katkılarıyla disiplinlerarası bir çalışma olarak yürütülecektir. Proje yürütücüsü 3501 kodlu bu proje önerisi ile büyük bir projede proje yürütücülüğü deneyimi kazanıp ve sonrasında Avrupa Birliği projeleri yazmayı ve doçentlik başvurusunu yapmayı planlamaktadır.Projede geliştirilecek yöntemler bursiyerlerin tezlerine katkı sağlayacaktır. Geliştirilecek olan sistem diğer araştırmacıların erişimine açılacağı için Türkçe dilinin tanıtılması, yaygınlaşması ve Türk ve yabancı araştırmacılar tarafından daha çok kullanılmasını teşvik edecektir. Ayrıca ulusal şirketlerle işbirliği yapılarak geliştirilecek yöntem ve tecrübelerin aktarılması ve bu konuda ulusal ekonomiye katkı sağlanması da amaçlanmaktadır. | en_US |
dc.description.abstract | The project presented in this project proposal consists of 3 main objectives. These: 1. Word Sense Disambiguation of Turkish words, 2. Subjective and Sentiment Classification of Turkish short and long texts, 3. Creation of a publicly available service that performs the subject and sentiment classification of Turkish texts. Our project, which will be developed to reach these goals, will make the following contributions: 1. Development of Diffusion-based novel machine learning and deep learning methods for Word Sense Disambuguation. 2. Development of novel supervised and semi-supervised machine learning and deep learning methods for sentiment classification of Turkish texts. To the best of our knowledge, supervised and semi-supervised diffusion algorithm and bi-LSTM algorithm based machine learning and deep learning algorithms which are proposed in this project proposal have never been used for the sentiment classification of Turkish texts. 3. Using the Self Attention (?Fusion of Seq2Seq + Self Attention?) algorithm, which is shown by Fan and his team (2018) as one of the most successful Seq2Seq models in the literature, by combining many natural language modeling techniques to resolve the ambiguity of Turkish polysemous words. This algorithm has never been used in the literature as far as we can observe for Turkish texts. 4. Extending the available scope of Turkish dictionary resources by developing dictionary-based features without making translations from English dictionaries and making these extended resources accessible to researchers working on this topic. 5. To present a hybrid method which is formed by the combination of machine learning and dictionary based approaches for sentiment classification of Turkish texts. 6. Conducting customized preprocessing for Turkish: Attachments such as ?-me/ma, sız/siz? should be preserved while stemming, because these affect the emotional polarity values of the words. 7. Within the scope of the study proposed in this project proposal, it is planned to create a large amount of sentimental and subjective data sets for Turkish, and to make the corresponding comparison and verification methods publicly available within the system to be presented. 8. Conducting sensitivity analysis (between -5 and +5) in the sentiment classification studies of Turkish texts and taking all the features of the text (emojis etc.) into account. The scientific and technological contributions listed above will also have various socio-economic impacts. For example, in Turkey, in 2018, 7 million tweets per day was sent In this context, accurate and fast subjective and sentiment classification of texts is of great importance when making critical decisions in areas such as marketing, advertising, economics and in some political and military scenarios. The presented project will be carried out in 30 months as a multidisiplineary study with the contribution of 1 training, 1 graduate scholarship and 4 undergraduate students. With this 3501 Carrier Project Proposal, the project manager plans to gain project management experience in a larger project and then write European Union projects and apply for associate professorship.The methods to be developed in the project will contribute to the thesis of scholars, and the experience of the researchers. Since the system to be developed will be accessible to other researchers, it will encourage the introduction of Turkish language, its widespread use, and its use by Turkish and foreign researchers at home and abroad. It is also aimed to transfer methods and experiences to be developed in cooperation with national companies and to contribute to the national economy in this regard. | en_US |
dc.description.sponsorship | TÜBİTAK | en_US |
dc.format.extent | 101 leaves | en_US |
dc.identifier.citation | Altınel Girgin, A. B., Şipal Sert, B., Karadeniz, Z. İ., Gümüşçekiçci, G., Öztürk, M., Buzlu, K., Elma, E., Çelikmasat, G., Mercan, B., Aktürk, M. E., Önkol, A., Ormancı, B. B., İpek, K., Ertunç, Y. E. & Birdemir, N. C. (2023). Türkmed: Türkçe metinlerin konusal / duygusal sınıflandırması ve kelimelerin anlam bulanıklığını gidermek için difüzyon ve Seq2seq-füzyon algoritmalarını içeren özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi. Tübitak. | en_US |
dc.identifier.uri | https://hdl.handle.net/11729/5979 | |
dc.identifier.uri | https://search.trdizin.gov.tr/tr/yayin/detay/1223101 | |
dc.indekslendigikaynak | TR-Dizin | en_US |
dc.institutionauthor | Karadeniz, Zeynep İlknur | en_US |
dc.institutionauthorid | 0000-0002-7097-6143 | |
dc.language.iso | tr | en_US |
dc.publisher | Tübitak | en_US |
dc.relation.publicationcategory | Diğer | en_US |
dc.relation.tubitak | "info:eu-repo/grantAgreement/TUBITAK/EEEAG/120E187" | |
dc.rights | info:eu-repo/semantics/closedAccess | en_US |
dc.subject | Metinsel Veri Madenciliği | en_US |
dc.subject | Kelime Anlamı Belirginleştirme | en_US |
dc.subject | Duygu Sınıflandırması | en_US |
dc.subject | Makine Öğrenmesi | en_US |
dc.title | Türkmed: Türkçe metinlerin konusal / duygusal sınıflandırması ve kelimelerin anlam bulanıklığını gidermek için difüzyon ve Seq2seq-füzyon algoritmalarını içeren özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi | en_US |
dc.title.alternative | TurKSA: Development of novel machine learning and deep learning methods including diffusion and Seq2Seq-fusion algorithms for subjective and sentiment classification of Turkish texts and WSD | en_US |
dc.type | Project | en_US |
dspace.entity.type | Project |
Dosyalar
Lisans paketi
1 - 1 / 1
Küçük Resim Yok
- İsim:
- license.txt
- Boyut:
- 1.44 KB
- Biçim:
- Item-specific license agreed upon to submission
- Açıklama: