Büyük veri araçları: Karmasphere Studio ve Analyst
Büyük veri araçlarının çoğu yaşamlarına raporlama araçları olarak başlamadı. Mesela Karmasphere Studio, Eclipse’in üzerine inşa edilmiş bir dizi plug-in’den oluşuyor. Bu, Hadoop işlerini oluşturup çalıştırmayı kolaylaştıran, özelleştirilmiş bir IDE.
Bu geliştirme aracıyla bir Hadoop işini ayarlamaya başladığımda nadir görülebilecek şekilde keyif aldım. Bir Hadoop işinde birkaç aşama vardır ve Karmasphere’ın araçları yolunuz boyunca kısmi verileri görüntüleyerek her adımda sizinle birlikte yürüyor. Hata ayıklayıcılar her zaman için mekanizma işini yaparken içine bakabilmemizi mümkün kıldılar ama Karmasphere Studio bunu biraz daha iyi yapıyor. Siz iş akışını ayarladığınızda, araçlar her adımda test verisinin durumunu görüntülüyor. Geçici veriler ayrıştırıldığında, analiz edildiğinde ve azaltıldığında nasıl gözükeceğini görebiliyorsunuz.
Karmasphere aynı zamanda bir Hadoop kümesi içerisinde tüm verilerin işlenmesi sürecini basitleştirmek üzere tasarlanmış Karmasphere Analyst adlı bir araca sahip. İyi bir Hadoop işini programlamak üzere, sıkıştırılmış log dosyalarının açılması için altyordamlar gibi çok sayıda faydalı yapıtaşıyla geliyor. Ardından bunları yeniden birbirine bağlıyor ve değerlendirmek üzere bir tablo çıktısı üretmek için Hive çağrılarını parametrelendiriyor.
Büyük veri araçları: Talend Open Studio
Talend de Hadoop ile birlikte veri işleme görevlerini birbirine bağlamak için Eclipse tabanlı bir IDE sunuyor. Araçları veri entegrasyonu, veri kalitesi ve veri yönetimine yardımcı olacak biçimde tasarlanmış. Tüm altyordamlar bu görevlere göre ayarlanmış.
Talend Studio, küçük ikonları bir taslağın üzerine sürükle bırakla işlerinizi inşa etmenize imkân tanıyor. Eğer bir RSS kaynağını almak istiyorsanız, Talend’in ilgili bileşeni RSS’i gidip alacak ve gerektiğinde proxy ekleyecek. Bilgi toplama için düzinelerce bileşen bulunuyor. Daha fazlası ise “bulanık eşleştirme” gibi şeyleri gerçekleştirmek için var. Ardından sonuçları çıkartabilirsiniz.
Hangi bileşenlerin ne yaptığını öğrendikten sonra blokları bir araya getirmek görsel olarak basitleşebilir. Taslağın arkasında oluşturulan kaynak koduna bakmaya başladığımda bunu anlamak benim için daha kolaydı. Talend bunu görmenize izin veriyor ve bence bu ideal bir taviz. Görsel programlama biraz yüce bir amaç gibi gözükebilir ama neler olduğunu anlamayı mümkün kılmak için ikonların mekanizmaları hiçbir zaman yeterince ayrıntılı biçimde temsil edemediğini gördüm. Kaynak koduna ihtiyacım var.
Talend ayrıca firmanın ürünleriyle çalışmayı kolaylaştıran bir açık kaynak uzantı koleksiyonu olan TalendForge’u sürdürüyor. Araçların çoğu Talend yazılımının Salesforce.com ve SugarCRM gibi diğer önemli ürünlere bağlayan filtre ya da kütüphanelerden oluşuyor gözüküyor. Bu sistemlerden bilgiyi kendi projeleriniz içerisine çekebilirsiniz; bu entegrasyonu kolaylaştırıyor.
Büyük veri araçları: Skytree Server
Araçların tümü, kodu görsel mekanizmalarla birleştirmeyi kolaylaştırmak için tasarlanmış değil. Skytree daha karmaşık öğrenme algoritmalarının çoğunu yerine getiren bir paket sunuyor. Tüm yapacağınız şey bir komut satırında doğru komutu vermek.
Skytree parlak bir GUI yerine daha çok iç tarafa odaklanıyor. Skytree Server, firmanın açıklamalarına göre diğer paketlerden 10,000 kat daha hızlı çalışan bir dizi klasik otomatik öğrenme algoritmalarını çalıştırmak üzere optimize edilmiş. O, matematik olarak benzer nesnelerin kümeleri için verilerinizi araştırabilir ve ardından bunu problem, fırsat ya da her ikisi olabilecek gözlemleri belirlemek için ters çevirebilir. Algoritmalar insanlara nazaran daha kesin olabilir ve onlar sıradan olmayan girişler için bol miktarda veriyi araştırabilir. Bu dolandırıcılık için veya kesintisiz olarak harcama yapacak olan belirli bir müşteri için, yapılabilir.