Yazılımın ücretsiz sürümü özel sürümdeki aynı algoritmaları sunuyor ama veri setleri 100,000 diziyle sınırlı. Yazılımın iyi bir seçim olup olmayacağını belirlemek için bu yeterli olabilir.
Büyük veri araçları: Tableau Desktop ve Server
Tableau Desktop verilerinize yeni yollardan bakmanızı kolaylaştıran, ardından bunları parçalayıp farklı bir şekilde bakmanızı sağlayan bir görselleştirme aracı. Hatta verileri farklı verilerle karşılaştırıp farklı bir ışık altında inceleyebilirsiniz. Bu araç veriler için tüm kolonları vermek, sonrasında birlikte gelen düzinelerce grafik şablonlarından biri içerisine toplamadan önce karıştırmanıza müsaade etmek üzere optimize edilmiş.
Tableau Software, birkaç sürüm önce Hadoop’u benimsemeye başladı ve şimdi Hadoop’a “herhangi bir veri bağlantısındaki gibi” davranabilirsiniz. Tableau sorguları yapılandırmak için Hive’a dayanıyor. Aracın interaktif olmasını sağlamak için mümkün olduğunca çok veriyi ön bellek içerisine alıyor. Diğer raporlama araçlarının çoğu raporları offline olarak üretme geleneği üzerine inşa edilmişken, Tableau interaktif bir mekanizma istiyor. Bu sayede verilerinizi tekrar tekrar analiz edebilirsiniz. Verilerin önbelleğe alınması bir Hadoop kümesinin gecikmesine bir nebze yardımcı oluyor.
Yazılım gayet iyi gözüküyor ve estetik olarak da tatmin edici. Ben çoğu kez başka bir grafik görmek için veriyi yeniden kestim; pasta grafiğinden çubuk grafiğe veya bir diğerine geçiş yapmak pek fazla yeni bir şey öğretmemiş olsa da. Yazılım ekibinde hiç şüphesiz sanatsal yeteneklere sahip bir dizi insan yer alıyor.
Büyük veri araçları: Splunk
Splunk, diğer seçeneklerden biraz farklı. Bu tam olarak rapor üretme aracı veya AI rutinleri koleksiyonu değil; her ne kadar bunların çoğunu yol boyunca gerçekleştiriyor olsa da. Splunk bir kitap ya da bir metin bloğuymuş gibi verilerinizin bir indeksini oluşturuyor. Evet veritabanları da indisler oluşturuyor ama Splunk’ın yaklaşımı metin tabanlı arama süreçlerine çok daha yakın.
Bu indeksleme şaşırtıcı şekilde esnek. Splunk, benim özel uygulamama ayarlı olarak geliyor, log dosyalarından anlam çıkartıyor ve bunları en başından aldı. Splunk aynı zamanda farklı çözüm paketleriyle de satılıyor. Bunlardan birisi Microsoft Exchange sunucusunu görüntüleme bir diğeri de Web saldırılarının tespiti için. İndeks bunların içindeki ve çeşitli diğer sunucu tarafı senaryolardaki verilerle ilişki kurmaya yardımcı oluyor.
Splunk, metin dizelerini ve aramaları indeksten alıyor. Önemli makalelerin URL’lerini veya IP adreslerini girebilirsiniz. Splunk bunları buluyor veri içerisinde bulduğu zaman etiketlerine göre oluşturulan bir zaman çizelgesi içerisinde paketliyor. Diğer tüm alanlara ilgili veri takımının içine daha derinlemesine girmek için tıklayabilirsiniz. Her ne kadar bu basit bir süreç olsa da, eğer veri kaynaklarınız içinden doğru tipteki iğneyi arıyorsanız oldukça güçlü bir özellik. Eğer doğru metin dizesini biliyorsanız, Splunk bunu izlemenize yardımcı olacak. Log dosyaları onun için harika bir uygulama.
Halihazırda özel beta aşamasında olan Shep adlı yeni bir Splunk aracı Hadoop ile Splunk arasında çift yönlü entegrasyon vaat ediyor. Bu araç sizin sistemler arasında veri alışverişi yapmanıza ve Hadoop’tan Splunk verilerini sorgulamanıza izin veriyor.
Büyük veriden daha büyük
Bu ürünler arasında ağır ağır ilerledikten sonra, “büyük veri”nin tek bir moda sözcükten çok daha büyük olduğu netleşti. Karmaşık matematiksel operasyonlara kalkışanlarla, çoğunlukla tablolar inşa eden ürünleri bir araya getirmek gerçekten adilane olmaz. Genel veritabanlarıyla çalışan daha basit araçlarla birden fazla makineye yayılan daha büyük yığınları yönetmeye çalışan Hadoop gibi yapıları karşılaştırmak da doğru olmaz.
İşleri daha da zorlaştırırsak, hedefler hareket halinde. Bunlardan bazıları umut verip henüz yazılımlarını paylaşmayan yeni firmalar. Gizemli Platfora üzerine tıklayıp güncel kalabileceğiniz bir butona sahip. Bir diğer startup firma olan Continuity ise, “Gizliliğimiz devam ediyor, başlarımız aşağıda, yoğun bir biçimde kod yazıyoruz,” diyor. Hiç şüphesiz onlar bu alana giren son oyuncular olmayacak.
Yeni algoritmaların hız ve kapsamlılığına rağmen, ben eski klasik raporların en iyisi olduğunu düşünüyorum. Pentaho ve Jaspersoft araçları sadece en çok girişlerden hoş listeler oluşturuyor ama bu tam benim ihtiyacımdı. Log dosyamda en üstte yer alan domain’leri bilmek yeterliydi.
Diğer algoritmalar fikirsel olarak ilginç, ama onlarla tutarlılığı sağlamak daha güç. Onlar kümeleri etiketleyebilir veya bulanık eşleştirme yapabilirler ama benim veri takımımın kendisini bu analizlere yanaşmadı gözüküyor. Benim verilerim için başarılı olan herhangi bir uygulamayı çözemedim.