İlişkisel veri tabanlarında mükerrer kayıtların makine öğrenmesiyle tespiti

dc.authorid0009-0009-6043-2765
dc.authorid0000-0001-5838-4615
dc.contributor.authorBayrak, Ahmet Tuğrulen_US
dc.contributor.authorYılmaz, Aykut İnanen_US
dc.contributor.authorYılmaz, Kemal Buraken_US
dc.contributor.authorDüzağaç, Remzien_US
dc.contributor.authorYıldız, Olcay Taneren_US
dc.date.accessioned2019-01-15T02:41:39Z
dc.date.available2019-01-15T02:41:39Z
dc.date.issued2018-07-05
dc.departmentIşık Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümüen_US
dc.departmentIşık University, Faculty of Engineering, Department of Computer Engineeringen_US
dc.description.abstractVeri miktarının artışına paralel olarak, ilişkisel veri tabanlarında mükerrer kayıtlar da artmaktadır. Artan bu kayıtlar kullanıldıkları rapor veya analizlerde tutarsızlığa sebep olabilmektedir. Bu sorunu en aza indirgemek için yaptığımız çalışmada, kayıtların birbirlerine olan benzerlikleri ve alan uzmanlık bilgisiyle belirlenen ağırlıklar, öznitelik olarak kullanılarak makine öğrenmesi algoritmaları ile mükerrer kayıtların bulunması hedeflenmiştir. Yapılan işlem sonucunda 9301467 satır veride 28412 mükerrer çift tespit edilmiştir. Bulunan bu mükerrer kayıtlar veri kaynağından temizlenerek verinin daha tutarlı hale gelmesi sağlanmaktadır.en_US
dc.description.abstractWhile data amount increases, number of duplicate records in relational databases increase gradually. The duplicate records might cause inconsistency on reports and analyzes. To reduce the effects of this problem, we aim to detect duplicate records using machine learning algorithms with features that are produced by similarity of the records. We achieved to detect 28412 duplicate records in 9301467 records. The detected duplicate rows are removed from the data source and the data become more consistent.en_US
dc.description.versionPublisher's Versionen_US
dc.identifier.citationBayrak, A. T., Yılmaz, A. I., Yılmaz, K. B., Düzağaç, R. & Yıldız, O. T. (2018). Near duplicate detection in relational databases. Paper presented at the 26th IEEE Signal Processing and Communications Applications Conference, SIU 2018, 1-4. doi:10.1109/SIU.2018.8404678en_US
dc.identifier.doi10.1109/SIU.2018.8404678
dc.identifier.endpage4
dc.identifier.isbn9781538615010
dc.identifier.isbn9781538615003
dc.identifier.isbn9781538615027
dc.identifier.issn2165-0608
dc.identifier.scopus2-s2.0-85050807995
dc.identifier.scopusqualityN/A
dc.identifier.startpage1
dc.identifier.urihttps://hdl.handle.net/11729/1446
dc.identifier.urihttp://dx.doi.org/10.1109/SIU.2018.8404678
dc.identifier.wosWOS:000511448500531
dc.identifier.wosqualityN/A
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakScopusen_US
dc.indekslendigikaynakConference Proceedings Citation Index – Science (CPCI-S)en_US
dc.institutionauthorYıldız, Olcay Taneren_US
dc.institutionauthorid0000-0001-5838-4615
dc.language.isotren_US
dc.peerreviewedYesen_US
dc.publicationstatusPublisheden_US
dc.publisherInstitute of Electrical and Electronics Engineers Inc.en_US
dc.relation.ispartof26th IEEE Signal Processing and Communications Applications Conference, SIU 2018en_US
dc.relation.publicationcategoryKonferans Öğesi - Uluslararası - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/closedAccessen_US
dc.subjectBenzerlik fonksiyonlarıen_US
dc.subjectMakine öğrenmesien_US
dc.subjectMükerrer kayıt tespitien_US
dc.subjectAlgorithmsen_US
dc.subjectArtificial intelligenceen_US
dc.subjectData miningen_US
dc.subjectDatabase systemsen_US
dc.subjectData-sourceen_US
dc.subjectDogsen_US
dc.subjectDuplicate record detectionen_US
dc.subjectDuplicate recordsen_US
dc.subjectDuplicate record detectionen_US
dc.subjectFeature extractionen_US
dc.subjectKernelen_US
dc.subjectKnowledge discoveryen_US
dc.subjectLearning (artificial intelligence)en_US
dc.subjectLearning algorithmsen_US
dc.subjectLearning systemsen_US
dc.subjectMachine learningen_US
dc.subjectMachine learning algorithmsen_US
dc.subjectNear-duplicate detectionen_US
dc.subjectNear-duplicate detectionen_US
dc.subjectPrivacy-preserving recorden_US
dc.subjectRelational databasesen_US
dc.subjectRelational databaseen_US
dc.subjectSignal processingen_US
dc.subjectSimilarity functionsen_US
dc.titleİlişkisel veri tabanlarında mükerrer kayıtların makine öğrenmesiyle tespitien_US
dc.title.alternativeNear duplicate detection in relational databasesen_US
dc.typeConference Objecten_US
dspace.entity.typePublication

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
1446.pdf
Boyut:
111.13 KB
Biçim:
Adobe Portable Document Format
Açıklama:
Publisher's Version
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: