Searching for the optimal ordering of classes in rule induction

dc.contributor.advisorYıldız, Olcay Taneren_US
dc.contributor.authorAta, Sezinen_US
dc.contributor.otherIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.date.accessioned2016-05-31T07:13:08Z
dc.date.available2016-05-31T07:13:08Z
dc.date.issued2012-09-19
dc.departmentIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 47-50)en_US
dc.descriptionx, 51 leavesen_US
dc.description.abstractIn this thesis, we work on rule induction algorithms, basically Ripper. These algorithms solve a K>2 class problem by transforming it into a sequence ok K-1 two class problems. As a heuristic, these algorithms learn classes in the order of increasing prior probabilities. Although the heuristic works well in practice, there is much room for improvement. We propose two algorithms for that purpose. The first algorithm, namely Forward Ordering Search(FOS) starts with the ordering heuristic provided and searches for better oderings by swapping consecutive classes. For a dataset with K classes, the ordering space will be as large as K!. Since FOS is an example of Steepest Ascent Hill Climbing(Gradient Search), starting with the heuristic ordering will only give local maximum in the search space. In order to improve the performance, we use 10 random initial orderings as in Random-Restart (Steepest Ascent) Hill-Climbing. The best performance between 10 random initial orderings is the result of Random-Restart FOS. The second algorithm, namely Pairwise error Approximation (PEA), transforms the ordering search problem into an optimization problem and uses the solution of the optimization algorithm to extract the optimal ordering. In this algorithm, the number of random orderings to construct the optimization problem is a parameter and we try several values of this parameter to see the effect on the performance. We compare our algorithms with the original Ripper on 13 datasets from UCI repository [1]. Experimental results show that, our algorithms produce rule sets that are significantly better than those produced by Ripper proper in general and the number of rules and conditions of the produces rule sets are comparable with Ripper proper. Even though the accuracy of Random-Restart FOS is better than FOS, the time complexity of the algorithm is far worse than FOS. The average error estimation results of PEA promote the consistency of our pairwise assumption and show the relationship between accuracy and the number of random orderings to extract the optimal ordering.en_US
dc.description.abstractBu tezde, CN2 ve Ripper kural çıkarım algoritmaları üzerinde çalıştık. Bu algoritmaların ortak özelliği K>2 sınıflı veri kümelerini sınıflandırırken, K-1 adet 2 sınıflı probleme çevirerek sınıflandırmalarıdır. Bulgusal yaklaşıma göre, bu algoritmalar sınıfları, artan önsel olasılıklarına göre öğrenirler. Biz de çalışmamızda, kural çıkarım algoritmalarının sınıf sıralamalarına bağlı olarak performanslarının nasıl değişeceğini araştırırız. Bu amaçla, iki algoritma sunarız. Sunulan ilk algoritma, FOS (ileriye doğru-sıralama arama algoritması), ilk olarak bulgusal yaklaşımın sıralamasıyla başlar. Yan yana sınıfların yer değişimleri ile oluşturulmuş sıralamaları, daha iyi performans elde edildiği sürece, iteratif şekilde karşılaştırır. Bu arama En Dik Tırmanış Algoritması'na bir örnek olduğu için tüm arama uzayında ancak yerel bir başarı noktası bulacak şekilde gerçekeleşir. Tüm arama uzayı, K>8 sınıfı veri kümeleri için 8!'den büyük bir uzaydır. Bu nedenle, performansı arttırmak için Rasgele-Başlangıç Dik Tırmanış Algoritması'nda olduğu gibi, rasgele 10 farklı başlangıç sıralamasıyla FOS algoritmasını çalıştırırız. Bu sonuçların en iyisi, Rasgele-Başlangıç FOS'un sonucunu belirler. Sunduğumuz ikinci algoritma olan İkili Hata Yaklaşıklaması Algoritması, sıralama arama problemlerimizi, sıralamaların sınıf ikililerini kullanarak, optimizasyon problemine çevirir. Problemin çözümünü optimal sıralamayı bulmak için kullanırız.Optimizasyon Probleminin parametreleri olarak rasgele sıramalar üretiriz ve çeşitli sayıda rastgele sıralamalarla,sıralama sayısının performansa etkisini gözlemleriz. Algoritmalarımız sonuçlorını Ripper kural çıkarım algoritmasıyla 13 veri kümesi üzerinde karşılaştırırız.Elde ettiğimiz sonuçlar genel olarak,bulduğumuz sıralamaların perfomans ve karşılıksızları açısından daha iyi kural kümeleri oluşturduğunu gösterir. Ayrıca Rasgele-Başlangınç FOS algoritmasının performansının FOS'tan iyi olmasına rağmen ,algoritmanın karmaşıklığının FOS'tan kat kat fazla olduğunu gözlemleriz. Son olarak, PEA algoritması için hesapladığımız ortalama kestirim harası sonuçları,algoritmayı oluşturmamıza neden olan varsayımımızın tutalılığını destekler ve dogru sonuçlarla rasgele sıralama sayısı arasındaki ilişkiyi gösterir.en_US
dc.description.tableofcontentsIntroductionen_US
dc.description.tableofcontentsRule Induction Algorithmsen_US
dc.description.tableofcontentsSearch Directionen_US
dc.description.tableofcontentsTop-downen_US
dc.description.tableofcontentsBottom-upen_US
dc.description.tableofcontentsBi-directionalen_US
dc.description.tableofcontentsSearch Strategyen_US
dc.description.tableofcontentsHill-Climbingen_US
dc.description.tableofcontentsBeam searchen_US
dc.description.tableofcontentsBest-Firsten_US
dc.description.tableofcontentsStochasticen_US
dc.description.tableofcontentsPruningen_US
dc.description.tableofcontentsPre-pruningen_US
dc.description.tableofcontentsPost-pruningen_US
dc.description.tableofcontentsSurveyen_US
dc.description.tableofcontentsRipperen_US
dc.description.tableofcontentsProposed Algorithmsen_US
dc.description.tableofcontentsMotivationen_US
dc.description.tableofcontentsForward Ordering Search (FOS)en_US
dc.description.tableofcontentsPairwise Error Approximation (PEA)en_US
dc.description.tableofcontentsTheoryen_US
dc.description.tableofcontentsAlgorithmen_US
dc.description.tableofcontentsExperimentsen_US
dc.description.tableofcontentsSetupen_US
dc.description.tableofcontentsMotivationen_US
dc.description.tableofcontentsFOS Resultsen_US
dc.description.tableofcontentsPEA Resultsen_US
dc.description.tableofcontentsConclusionen_US
dc.identifier.citationAta, S. (2012). Searching for the optimal ordering of classes in rule induction. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü.en_US
dc.identifier.urihttps://hdl.handle.net/11729/884
dc.institutionauthorAta, Sezinen_US
dc.language.isoenen_US
dc.publisherIşık Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subject.lccQA76.9.A43 A83 2012
dc.subject.lcshComputer algorithms.en_US
dc.subject.lcshData structures (Computer science)en_US
dc.titleSearching for the optimal ordering of classes in rule inductionen_US
dc.title.alternativeKural çıkarımda optimal sınıf sıralamasını aramaen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
11729-884.pdf
Boyut:
314.1 KB
Biçim:
Adobe Portable Document Format
Açıklama:
MasterThesis
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: