Arama Sonuçları

Listeleniyor 1 - 10 / 12
  • Yayın
    Calculating the VC-dimension of decision trees
    (IEEE, 2009) Aslan, Özlem; Yıldız, Olcay Taner; Alpaydın, Ahmet İbrahim Ethem
    We propose an exhaustive search algorithm that calculates the VC-dimension of univariate decision trees with binary features. The VC-dimension of the univariate decision tree with binary features depends on (i) the VC-dimension values of the left and right subtrees, (ii) the number of inputs, and (iii) the number of nodes in the tree. From a training set of example trees whose VC-dimensions are calculated by exhaustive search, we fit a general regressor to estimate the VC-dimension of any binary tree. These VC-dimension estimates are then used to get VC-generalization bounds for complexity control using SRM in decision trees, i.e., pruning. Our simulation results shows that SRM-pruning using the estimated VC-dimensions finds trees that are as accurate as those pruned using cross-validation.
  • Yayın
    İlişkisel veri tabanlarında mükerrer kayıtların makine öğrenmesiyle tespiti
    (Institute of Electrical and Electronics Engineers Inc., 2018-07-05) Bayrak, Ahmet Tuğrul; Yılmaz, Aykut İnan; Yılmaz, Kemal Burak; Düzağaç, Remzi; Yıldız, Olcay Taner
    Veri miktarının artışına paralel olarak, ilişkisel veri tabanlarında mükerrer kayıtlar da artmaktadır. Artan bu kayıtlar kullanıldıkları rapor veya analizlerde tutarsızlığa sebep olabilmektedir. Bu sorunu en aza indirgemek için yaptığımız çalışmada, kayıtların birbirlerine olan benzerlikleri ve alan uzmanlık bilgisiyle belirlenen ağırlıklar, öznitelik olarak kullanılarak makine öğrenmesi algoritmaları ile mükerrer kayıtların bulunması hedeflenmiştir. Yapılan işlem sonucunda 9301467 satır veride 28412 mükerrer çift tespit edilmiştir. Bulunan bu mükerrer kayıtlar veri kaynağından temizlenerek verinin daha tutarlı hale gelmesi sağlanmaktadır.
  • Yayın
    Machine learning
    (Institution of Engineering and Technology, 2020-01-01) Yıldız, Olcay Taner
    [No abstract available]
  • Yayın
    VC-dimension of univariate decision trees
    (IEEE-INST Electrical Electronics Engineers Inc, 2015-02-25) Yıldız, Olcay Taner
    In this paper, we give and prove the lower bounds of the Vapnik-Chervonenkis (VC)-dimension of the univariate decision tree hypothesis class. The VC-dimension of the univariate decision tree depends on the VC-dimension values of its subtrees and the number of inputs. Via a search algorithm that calculates the VC-dimension of univariate decision trees exhaustively, we show that our VC-dimension bounds are tight for simple trees. To verify that the VC-dimension bounds are useful, we also use them to get VC-generalization bounds for complexity control using structural risk minimization in decision trees, i.e., pruning. Our simulation results show that structural risk minimization pruning using the VC-dimension bounds finds trees that are more accurate as those pruned using cross validation.
  • Yayın
    Extension of conventional co-training learning strategies to three-view and committee-based learning strategies for effective automatic sentence segmentation
    (IEEE, 2018) Dalva, Doğan; Güz, Ümit; Gürkan, Hakan
    The objective of this work is to develop effective multi-view semi-supervised machine learning strategies for sentence boundary classification problem when only small sets of sentence boundary labeled data are available. We propose three-view and committee-based learning strategies incorporating with co-training algorithms with agreement, disagreement, and self-combined learning strategies using prosodic, lexical and morphological information. We compare experimental results of proposed three-view and committee-based learning strategies to other semi-supervised learning strategies in the literature namely, self-training and co-training with agreement, disagreement, and self-combined strategies. The experiment results show that sentence segmentation performance can be highly improved using multi-view learning strategies that we propose since data sets can be represented by three redundantly sufficient and disjoint feature sets. We show that the proposed strategies substantially improve the average performance when only a small set of manually labeled data is available for Turkish and English spoken languages, respectively.
  • Yayın
    An incremental model selection algorithm based on cross-validation for finding the architecture of a Hidden Markov model on hand gesture data sets
    (IEEE, 2009-12-13) Ulaş, Aydın; Yıldız, Olcay Taner
    In a multi-parameter learning problem, besides choosing the architecture of the learner, there is the problem of finding the optimal parameters to get maximum performance. When the number of parameters to be tuned increases, it becomes infeasible to try all the parameter sets, hence we need an automatic mechanism to find the optimum parameter setting using computationally feasible algorithms. In this paper, we define the problem of optimizing the architecture of a Hidden Markov Model (HMM) as a state space search and propose the MSUMO (Model Selection Using Multiple Operators) framework that incrementally modifies the structure and checks for improvement using cross-validation. There are five variants that use forward/backward search, single/multiple operators, and depth-first/breadth-first search. On four hand gesture data sets, we compare the performance of MSUMO with the optimal parameter set found by exhaustive search in terms of expected error and computational complexity.
  • Yayın
    Müşterilerin GSP analizi kullanarak kümelenmesi
    (Institute of Electrical and Electronics Engineers Inc., 2018-07-05) Pakyürek, Muhammet; Sezgin, Mehmet Selman; Kestepe, Sedat; Bora, Büşra; Düzağaç, Remzi; Yıldız, Olcay Taner
    Bu çalışma ile mevcut misafir ve rezervasyon verisi kullanılarak doğal öbeklenmeleri tespit ederek misafir davranışları tespit ettik. Ayrıca verilen hizmetleri ve satış stratejilerini bu davranışlara göre özelleştirdik. K-ortalama ile kişileri öbekledikten sonra bu mevcut öbeklenmeleri sağlayan temel karakteristikler karar ağacı yaklaşımı ile çıkartılmıştır. Bu karakteristiklerin kişinin ürün alma kanalı, belirli ürün tercihleri, rezervasyon süresi, sezonsal tercihi vb. olduğu tespit edilmiştir. Bu karakteristiklerin her öbeklenmede ciddi değişiklikler göstermiş olması çözümün genel olarak doğru olduğunun ve bu karakteristiklerin başarılı bir şekilde seçildiğini göstermektedir. Bu çalışma, grup karakteristiklerine uygun kampanyalar ve ürün paketleri oluşturulmasında önemli bir rol oynamaktadır.
  • Yayın
    Aynı oteli temsil eden farklı kayıtlar için akıllı eşleştirme
    (Institute of Electrical and Electronics Engineers Inc., 2019-09) Bayrak, Ahmet Tuğrul; Özbek, Eyüp Erkan; Kestepe, Sedat; Yıldız, Olcay Taner
    Otel sayısının her geçen gün arttığı turizm sektöründe, aracı firmaların tüm oteller ile ayrı ayrı çalışma imkanı bulunmadığından, firmalar dünya üzerinde bir çok otelle anlaşması bulunan servis sağlayıcılarıyla beraber çalışmaktadır. Farklı servis sağlayıcılarından alınan otel kayıtlarında tekrarlayan otel verileri olabilmektedir. Tekrarlayan bu kayıtlar aynı bilgilere sahip olabileceği gibi, farklı bilgilere sahip olmasına rağmen aynı oteli temsil edebilmektedir. Otel verilerini tutarlı hale getirmek için aynı oteli temsil eden kayıtlar eşleştirilmelidir. Bu amaçla, otel kayıtları üzerinde çalışılarak, adres zenginleştirmesi ve ön işleme yapılan aday kayıtlar için kategorik ve görsel verilerin benzerliklerinin kullanıldığı makine öğrenmesi algoritmaları uygulanmıştır. Yapılan işlem sonucunda, 132.287 satırlık otel verisinde 14.985 adet otel %99,12 doğruluk oranı ile eşleştirilmiştir.
  • Yayın
    Doğrudan pazarlama amaçlı hedef kitle analizi
    (Institute of Electrical and Electronics Engineers Inc., 2018-07-05) Kegeci, Sinan; Özbek, Eyüp Erkan; Türkel, Mustafa Sertaç; Düzağaç, Remzi; Yıldız, Olcay Taner
    Doğrudan pazarlama, uygun ürünleri uygun kişilerle en kısa yoldan buluşturma sürecidir. Son yılların en popüler pazarlama yaklaşımlarından birisidir. Bu çalışmada turizm sektörüne ait isimsizleştirilmiş bir veri tabanını kullandık. Bir otel zinciri için yapılan kampanya kapsamında veri madenciliği tekniklerini uygulayarak hedef kitle seçimi yaptık. Çalışmada birçok makine öğrenmesi yöntemini denedik. Sonuç olarak; geçmişte yapılan ve herhangi bir makine öğrenmesi yöntemi kullanılmadan hazırlanan kampanya sonuçlarına göre daha iyi sonuçlar elde ederken benzer analizlerde kullanılabilecek bir altyapı oluşturmuş olduk.
  • Yayın
    Transforming tourism experience: AI-based smart travel platform
    (Association for Computing Machinery, 2023) Yöndem, Meltem Turhan; Özçelik, Şuayb Talha; Caetano, Inés; Figueiredo, José; Alves, Patrícia; Marreiros, Goreti; Bahtiyar, Hüseyin; Yüksel, Eda; Perales, Fernando
    In this paper, we propose the development of a novel personalized tourism platform incorporating artificial intelligence (AI) and augmented reality (AR) technologies to enhance the smart tourism experience. The platform utilizes various data sources, including travel history, user activity, and personality assessments, combined with machine learning algorithms to generate tailored travel recommendations for individual users. We implemented fundamental requirements for the platform: secure user identification using blockchain technology and provision of personalized services based on user interests and preferences. By addressing these requirements, the platform aims to increase tourist satisfaction and improve the efficiency of the tourism industry. In collaboration with various universities and companies, this multinational project aims to create a versatile platform that can seamlessly integrate new smart tourism units, providing an engaging, educational, and enjoyable experience for users.