Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veritabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir. Veri madenciliği sahası, istatistik, makine bilgisi, veritabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
Neden Veri Madenciliği?
Elde var olan büyük miktardaki veri: Harddisk fiyatları son on yılda iyice düştü. Buna bağlı olarak şirketler, uygulamalar aracılığıyla büyük miktarda veri topladılar. Şirketler, keşfedilmeyi bekleyen bu verilerin iş stratejilerine rehberlik etmesi için gizli modelleri bulmak istiyorlar.
Rekabetin artması :
Modern satış ile internet ve iletişim gibi dağıtım kanallarının bir sonucu olarak rekabet çok yüksek. Şirketler uluslararası rekabet ile karşı karşıyalar ve bu noktada başarının anahtarı; var olan müşterileri korumak ve yenilerini elde etmek. Veri madenciliği, şirketlerin bu konuları etkileyen faktörleri analiz edebilmelerine izin veren teknolojiler içermektedir.
Hazır teknoloji :
Veri madenciliği teknoljileri, önceleri sadece akademik çevrede kabul görmekteydi. Ancak bu teknoljiler son yıllarda olgunlaştı ve günümüz endüstrisinde kullanılmak için hazır hale geldi. Algoritmalar daha doğru, daha etkili ve gittikçe artan karmaşıklıktaki veriyi ele alabilmektedir. Ayrıca veri madenciliği için kullanılan programlama arayüzleri standartlaşmakta, böylece geliştiriciler daha iyi veri madenciliği uygulamaları geliştirebilmektedirler.
Elde var olan büyük miktardaki veri: Harddisk fiyatları son on yılda iyice düştü. Buna bağlı olarak şirketler, uygulamalar aracılığıyla büyük miktarda veri topladılar. Şirketler, keşfedilmeyi bekleyen bu verilerin iş stratejilerine rehberlik etmesi için gizli modelleri bulmak istiyorlar.
Rekabetin artması :
Modern satış ile internet ve iletişim gibi dağıtım kanallarının bir sonucu olarak rekabet çok yüksek. Şirketler uluslararası rekabet ile karşı karşıyalar ve bu noktada başarının anahtarı; var olan müşterileri korumak ve yenilerini elde etmek. Veri madenciliği, şirketlerin bu konuları etkileyen faktörleri analiz edebilmelerine izin veren teknolojiler içermektedir.
Hazır teknoloji :
Veri madenciliği teknoljileri, önceleri sadece akademik çevrede kabul görmekteydi. Ancak bu teknoljiler son yıllarda olgunlaştı ve günümüz endüstrisinde kullanılmak için hazır hale geldi. Algoritmalar daha doğru, daha etkili ve gittikçe artan karmaşıklıktaki veriyi ele alabilmektedir. Ayrıca veri madenciliği için kullanılan programlama arayüzleri standartlaşmakta, böylece geliştiriciler daha iyi veri madenciliği uygulamaları geliştirebilmektedirler.