Veri Madenciliği & Kümeleme ve Sınıflama Algoritmaları
Bankalar, kamu kuruluşları, cep telefonu şirketleri gibi çeşitli kuruluşların topladığı veri miktarı arttıkça bu veriden anlamlı sonuçlar
çıkartma isteği birtakım matematiksel yöntemlerin “Veri Madenciliği” adı altında toparlanmasına sebep olmuştur. Veri madenciliği, kitabın başlığına da esin kaynağı olan iki önemli ve işletmeler için faydalı amaç için kullanılabilir.Bunlardan ilki “sınıflama” olarak nitelendirilebilir. Örneğin bir banka kredi başvurularını “krediye uygun” ve “krediye uygun değil” olarak sınıflamak isteyecektir.
Diğer önemli amaç ise “kümeleme” olarak nitelenebilir ve aslında ilk amaçla ortak olarak da kullanılabilir. Örneğin aynı banka
kredi başvurusu yapan müşterileri bir hedef değişken gözetmeden demografik ve diğer özelliklere göre segmentlere ayırmak
isteyebilir.
Sadece bir amaca hizmet eden algoritmalar olmakla birlikte, hem kümeleme hem sınıflama algoritması olarak kullanılabilen algoritmalar da mevcuttur.
Bu kitabın amacı veri madenciliği tekniklerini temel matematiksel prensipleri ve uygulama yöntemleriyle göstermektir. Bu anlamda
k-means başta olmak üzere kümele teknikleri, k en yakın komşu algoritması ve karar ağaçları basit ve anlaşılır bir biçimde açıklanmıştır.
Son olarak hayali bir cep telefonu şirketinin kayıp müşteri tahmini ile ilgili ve yüksek öğretimde toplanmış gerçek veri ile iki
uygulamalı vaka, anlatılan teorik modelleri daha anlaşılır kılmaktadır.