Tayland’daki sabit disk endüstrisini harap eden sellerden bu yana altı ay geçti ve nihayet terabyte başına düşen fiyatlar yeniden düşmeye başladı. Bu, verilerin yeniden istiflenmeye başlanması ve iş yerlerinde insanların bunlarla ne yapılacağını merak edecek olması anlamına geliyor. O log dosyalarında belki bir miktar anlayış vardır. Belki küçük bir istatistiki analiz bütün o seslerin altında gömülü olan altını gün yüzüne çıkartır. Belki de o dosyaların yastıkları altına gömülü yükselmemize yetecek kadar nakdi bulabiliriz.
Endüstri şimdi “büyük veri” tanımına sahip; bu birikmekte olan devasa miktarlardaki bilgiyle ne yapacağımızla ilgili. “Büyük veri” iş zekâsını değiştiriyor. “Raporlama”yı kapsıyor, “tablolara” hoş bir parlaklık katıyor, eski moda “kağıt çıktılarını” devre dışı bırakıyor. Uzun sure önce kağıt çıktıları üzerinde çalışan yöneticiler şimdi aynı eski problemi (Ne satılıyor ve neden?) çözmelerinde kendilerine yardımcı olması için büyük veri uzmanları adı verilen matematikçileri işe alıyor.
Buradaki tanımların sadece birbirinin yerini alan şeyler olarak varsaymak doğru değil. Büyük veri çok daha karmaşık bir dünya çünkü ölçek çok daha büyük. Enformasyon genellikle çok sayıda sunucuya yayılmış durumda ve verilerin derlenmesi işi bunlar arasında koordine edilmeli. Geçmişte bu iş için çoğunlukla veritabanı yazılımı görevlendiriliyordu. Tabloları derlemek için büyülü JOIN mekanizmalarını kullanıyor, ardından veriler raporlama yazılımına gönderilmeden önce sütunlar toplanıyordu. Bu sıklıkla kulağa geldiğinden daha zor. Veritabanı programcıları, patron için bir rapor hazırlamaya çalışırken veritabanlarını kilitleyen karmaşık JOIN komutları hakkında size bolca hikâye anlatabilir.
Bu oyun artık çok daha farklı. Hadoop, rack’leri ve sunucu yığınlarını organize etmek için popüler bir araç. NoSQL veritabanları da bu rack’ler üzerinde veri saklamak için popüler araçlar. Bu mekanizmalar eski tek makineden çok daha güçlü olabilir ama eski veritabanı sunucuları kadar cilalı olmaktan uzaklar. SQL karmaşık olabilse de, SQL veritabanları için JOIN sorgusunu yazmak, bilgiyi düzinelerce makineden toplayıp tek bir mantıklı cevap içerisine derlemeye göre çoğunlukla daha basit. Hadoop işleri Java’da yazıldı ve bu da yeni bir kapsamlılık seviyesi getiriyor. Büyük verilerin düzenlenmesi için olan araçlar bu dağıtık bilgiişlem gücünü çok daha kolay kullanılabilinecek şekilde paketlemeye başladı.
Büyük veri araçlarının çoğu aynı zamanda NoSQL veri depolarıyla çalışıyor. Bunlar geleneksel ilişkisel veritabanlarına nazaran daha esnek ancak esneklik Hadoop kadar geçmişten çok fazla ayrılış değil. NoSQL sorguları daha basit olabilir çünkü veritabanı tasarımı SQL’le çalışmanın güçlüğüne neden olan karmaşık sekmeli yapıyı uzaklaştırıyor. Temel kaygı, yazılımın tüm dizilerin her bir kolon için bazı verilere sahip olmama olasılığını beklemeye ihtiyaç duyması.
En büyük güçlük önemli sinema yapımlarından biri olan “Moneyball (Kazanma Sanatı)” tarafından inşa edilen beklentilerle uğraşmak olabilir. Tüm patronlar onu izledi ve oradaki mesajı özümsedi: akıllıca yapılmış bazı istatistikler küçük bütçeli bir ekibi World Series (beyzbol karşılaşmaları serisi) şampiyonuna dönüştürebilir. Oakland Athletics takımının “Moneball” döneminde World Series’i hiç kazanamaması mühim değil. Bu Michael Lewis’in yazısının büyüsü. Patronların hepsi şunu düşünüyor; “İyi bir durum yakalayabilirsem belki film versiyonunda beni oynaması için Hollywood Brad Pitt’i kiralar.”