K- Ortalamalar & Kümeleme Yöntemi İncelemesi
Bu kitap çalışması ile hedeflenen k – ortalamalar kümeleme yöntemini detaylı bir şekilde incelemek, yöntemin sahip olduğun iki temel sorunsalının varlığını farklı örnek kurgularla ortaya koymak olmuştur. Bu sorunsallardan biri yöntemin ikinci adımı olan rastgele başlangıç küme merkezlerinin belirlenmesi, diğeri ise yöntemin ilk adımı olan “k” değerinin belirlenmesidir. “k” değerinin belirlenmesi için literatürde çok farklı yöntemler olmasına rağmen, bu yöntemlerden hangisinin ne zaman kullanılması ya da hangi veri setleri için hangi yöntemin daha etkin olduğuna dair genel kabul görmüş bir yöntem yoktur. Bu kitap çalışmasında ise bu yöntemlerden sıkça tercih edilen iki tanesi (Silhouette indeks ve Calinski – Harabasz indeks) detaylı bir şekilde uygulamalı örneklerle incelenmiştir. Bu yöntemlerden elde edilen bulgular karşılaştırılmıştır. Başlangıç küme merkez seçimi sorunsalı ise farklı bulgular elde edilebileceğini ifade etmektedir. Biz bu çalışmada olası tüm veri seti içinden elde edilen tüm başlangıç merkez verilerle analizleri gerçekleştirerek elde edilen farklı küme gruplarını ve bu küme gruplarının görülme sıklıklarını, silhouette indeks ve Calinski – Harabasz indeks değerlerini hesaplayarak, en geçerli küme grubunu belirlemeyi hedefledik. Bunlara ek olarak, başlangıç merkez verilerin veri seti dışından da olabileceği bilgisi doğrultusunda daha önce geliştirdiğimiz bir yöntemi kullanarak, veri seti dışından başlangıç merkez veri olarak kullanabileceğimiz yeni veriler elde ederek, analizleri olası tüm veri seti dışından başlangıç merkezlerle hatta karma olarak adlandırdığımız veri seti içinden ve seti dışından başlangıç merkez verilerle gerçekleştirdik. Kitabın içinde yer alan örneklerin birçoğu kurgusal (yapay) veri setleri ile gerçekleştirilmiş olsa da kurgularda karşılaşılan sorunsallar gerçek veri setleri ile gerçekleştirilebilecek çalışmalar da karşımıza çıkabilir.