Bu koleksiyondaki yazılımların hiçbiri, Hadoop’taki işinizin film versiyonunun senaryosunu Brad Pitt’e okutamayacaktır. Bu ancak size ve proje üzerinde çalışan diğer insanlara bağlı. Verileri anlamak ve doğru soruyu sormak genellikle Hadoop işini hızlı bir biçimde çalışır hale getirmekten çok daha karmaşıktır. Bunu söylemek gerçekten önemli çünkü bu araçlar işin sadece bir yarısı.
Konunun vaatlerini anlamak için büyük veri araçlarından bazılarını indirdim, veri girdim ve ardından Einstein seviyesi görüşleri için cevaplara baktım. Bilgiler benim kitaplarımı satan web sitesine (wayner.org) gelen log dosyalarından geldi. Ben neyin sattığını ve bunun nedeni hakkında bir fikir sahibi olma arayışındaydım. Dolayısıyla yazılımı açtım ve sorularımı sordum.
Büyük veri araçları: Jaspersoft BI Suite
Jaspersoft paketi veritabanı kolonlarından rapor üretme konusunda açık kaynak önderlerinden. Yazılım gayet güzel gözüküyor ve birçok işletmede herkesin toplantılarda inceleyebilmesi için SQL tablolarını PDF’lere dönüştürmek üzere zaten kurulu durumda.
Firma büyük veri trenine binmiş durumda ve bu da rapor oluşturma yazılımını büyük verinin kaydedildiği yerlere bağlamak için bir yazılım katmanının eklenmesi anlamına geliyor. JasperReports Server şimdi yazılımın birçok önde gelen depolama platformundan veri çekmesine izin veriyor. Bu platformlar arasında MongoDB, Cassandra, Redis, Riak, CouchDB ve Neo4j var. Hadoop da iyi temsil ediliyor; JasperReports, HBase’in içine erişim için bir Hive bağlayıcısı sağlıyor.
Bu çalışma halen yeni başlanılmış gibi gözüküyor; dokümantasyondaki çoğu sayfa boş ve araçlar tamamen entegre edilmemiş. Örneğin, görsel sorgu tasarımcısı henüz Cassandra’nın CQL’i ile çalışmıyor. Bu türden sorguları elle yazmak durumundasınız.
Bu kaynaklardan bir kez veri aldığınızda, Jaspersoft’un sunucusu interaktif tablolara ve grafiklere dönüştürüyor. Raporlar oldukça kapsamlı interaktif araçlar olabilir; çeşitli alanların içine girmenize imkân tanıyor. İhtiyacınız olduğu takdirde daha fazla ayrıntı isteyebilirsiniz.
Bu, yazılım dünyasının iyi geliştirilmiş bir köşesi ve Jaspersoft bu yeni veri kaynaklarına sahip karmaşık raporların kullanımını kolaylaştırarak daha da geliştiriyor. Jaspersoft verilere bakmanın yeni yollarını sunmuyor; sadece yeni konumlarda saklanan verilere erişim için daha kapsamlı yollar sunuyor. Ben bunu şaşırtıcı derecede faydalı buldum. Benim verilerimin birleşimi, web sitesine kimlerin geldiğini ve buraya ne zaman geldiklerine dair temel fikri ortaya koymak için yeterliydi.
Büyük veri araçları: Pentaho Business Analytics
Pentaho, rapor üretme motoru olarak başlayan diğer bir yazılım platformu; o aynı JasperSoft gibi yeni kaynaklardan verilerin daha kolay emilmesini kolaylaştırarak büyük veri içerisine dallanıyor. Pentahool’un aracını MongoDB ve Cassandra gibi en popüler NoSQL veritabanlarının çoğuna bağlayabilirsiniz. Veritabanlarının bağlanmasının ardından bilgiler SQL veritabanlarından geliyormuş gibi kolonları görüş ve raporlar içerisine sürükleyebilirsiniz.
Klasik sınıflandırma ve tabloların ayrılması, web sitemdeki hangi kullanıcıların ne kadar zaman harcadığını anlamamda inanılmaz derecede faydalı oldu. Sadece log dosyalarındaki IP adreslerine göre sınıflandırdığımda sıkı kullanıcıların ne yaptığı ortaya çıktı.
Pentaho aynı zamanda Hadoop kümelerinden HDFS dosyası ve HBase verisini çekmek için yazılım sunuyor. İlgi çekici araçlardan bir tanesi Kettle veya Pentaho Data Integration olarak bilinen grafiksel programlama arayüzü. Bir resim üzerine sürükle bırak yapabileceğiniz ve ardından onlara bağlanabileceğiniz bir dizi dahili modüle sahip. Pentaho, Hadoop ve diğer kaynakları kapsamlı bir biçimde buna entegre etmiş. Dolayısıyla kodunuzu yazıp küme üzerinde çalıştırmak üzere gönderebilirsiniz.