Büyük veri konusu, uzun bir süredir teknoloji haberlerinde geniş yer alıyor. Her şeyin çözümünün büyük veri olduğu söyleniyor, saldırı tespitinden ve dolandırıcılıkla mücadeleden tutun da kanser tedavisine, ürünler için doğru fiyat belirlemeye kadar her alanda ‘büyük veri’den bahsediliyor.
Verilerin yüksek hızda, çeşitli formatlarda ve en önemlisi büyük hacimlerde toplanması olarak tanımladığımız büyük veri, elbette tüm sorunların çözümü değil. Şirketler doğru bildikleri yanlışların peşinde koşmaya devam ederlerse aşırı miktarda zaman ve para kaybedecekler. Bu işin şakası yok, yanlış yöne giden bir şirket pazardaki konumunu kaybedebilir ve şirket itibarı zedenelenebilir. Peki bu “doğru bilinen yanlışlar” neler?
YANLIŞ 1: Yalnızca veri bilimciler büyük veri ile uğraşabilir
Aslına bakacak olursanız veri bilimciler tek başına yeterli değiller. “Eğer tam olarak ne aradığınızı bilmiyorsanız büyük veriden istediğiniz bilgileri alabilecek veri bilimcilere sahip olmanız hiçbir işe yaramaz.” diyor Penn Medicine şirketi Veri Analizi Sorumlusu Pat Farrell. “Endüstriyi bilen, alan bilgisine sahip, hangi soruların cevabını aradığını bilen, endüstriniz için hangi bilgilerin değerli olabileceğini önceden kestiren kişilere ihtiyacınız var.” diyor.
Penn Medicine, hem bir sağlık bilgi sistemi hem de bir tıp fakültesine sahip. Uzun zamandır sağlık bilgi sistemi klinik verileri bir veri ambarında topluyordu. Bu sırada tıp fakültesinde ise insan genlerinin sıralamasını yapan yeni bir teknoloji geliştiriliyor, bu da muazzam boyutta verilerle uğraşmak anlamına geliyordu.
“Aradığımız değerin orada bir yerde olduğunu biliyoruz ve artık buna erişebilecek hesaplama gücüne sahibiz.” diyor Farrell. “Sağlık alanındaki uzman deneyimini veri analiziyle birleştirmek, sağlık alanında yeni öngörüler geliştirmede devrim yaratıyor.” diye de ekliyor.
YANLIŞ 2: Veri ne kadar büyükse o kadar değerlidir
“Veri toplamak, depolamak ve kataloglamak zaman ve kaynak gerektiren bir süreç” diyor Farrell. Gelişigüzel veri toplamak, boşa kaynak tüketmek anlamına gelebilir. Farrell, veri toplamaya başlamadan önce şirketlerin hangi ölçütlere veya performans göstergelerine baktıkları konusunda emin olmaları gerektiğini söylüyor. “Nereye gittiğini bilmiyorsan hangi yoldan gittiğinin hiçbir önemi yok” diyen Farrell, verilerin tek başına yetersiz olduğunu söylüyor.
YANLIŞ 3: Büyük veri büyük şirketler içindir
Büyük şirketlerin şirket içi veri kaynakları fazla olabilir ancak küçük şirketler de sosyal medya platformlarından, hükümet kanallarından ve veri sağlayıcılardan gelen verileri kullanarak büyük veriden yararlanabilirler.
“Organizasyonunuzun boyutu her ne olursa olsun, sezgilere ve duygulara dayanarak karar almaktansa verilere dayanarak karar almak her zaman daha iyidir” diyor Dell’in Bilgi Yönetimi Çözümleri yöneticilerinden Darin Bartik. Küçük şirketler büyük şirketlere oranla karar alırken verileri daha az kullanıyorlar. Ancak kullandıkları takdirde daha düzgün bir rotaya sahip olabilirler. “Küçük şirketler verilere dayalı kararlar alarak ve aldıkları kararları boyutlarının verdiği avantajla daha hızlı uygulamaya koyarak büyük rakiplerine fark atabilirler” diyor Bartik.
YANLIŞ 4: Şimdi topla, sonra ayrıştır
Depolama gün geçtikçe ucuzlasa da ücretsiz değil. Birçok şirketin verilerini depolamak için ihtiyaç duyduğu alanın artma hızı, veri depolamanın ucuzlama hızından da yüksek. Kısacası depolama hala önemli bir gider kalemi ve bu durum kısa sürede değişecek gibi durmuyor, diyor Brad Peters. Kendisi, San Francisco merkezli Birst adlı bulut tabanlı iş zekası sağlayıcı firmasının CEO’su.
“Şirketler önce verileri toplamaları gerektiğini, topladıkları verilerle ne yapacaklarını daha sonra bulacaklarını düşünüyorlar” diyor Peters ve devam ediyor: “Tonlarca veri toplayan bir sürü büyük kurum görüyorum. Topladıkları veriler ile masrafları artıyor ve bundan hiçbir şey elde etmiyorlar.”
Aslında bazı veri setlerinde azalan getiriler ilkesi devreye giriyor. Diyelim ki seçim sonuçlarını tahmin etmek için anket yapıyorsunuz. Elbette aşağı yukarı doğru rakamları elde edebilmeniz için belirli sayıda insana ihtiyacınız var ancak bir noktadan sonra ankette daha fazla insana yer vermek hata payında önemli bir değişiklik yapmayacak. “Sıkıntı yalnızca depolama maliyetleri değil” diyor San Francisco merkezli yapılandırılmamış veri analizi konusunda çalışmalar yapan Recommind’ın Büyük Veri Yönetimi Uzmanı Dean Gonsowski.
“Veriler şirket dışına çıktığı takdirde şirketin zararı büyük olur” diyor Gonsowski. “Verileri veri ambarında başıboş bırakmak, mahkemelerde “e-keşif” davalarıyla uğraşmak demek.” diye de ekliyor.
Son olarak, veri miktarı ne kadar artarsa ayrıştırma süreci de o kadar uzar. “Depolarda milyarlarca girdi olması demek, aramaların saatlerce ya da haftalarca sürmesi anlamına geliyor.” diyor Gonsowski. “Verilerin boyutu arttıkça sistemler yavaşlıyor çünkü o kadar büyük verilerle uğraşmak için tasarlanmamışlar.” diyerek sözlerini tamamlıyor.
YANLIŞ 5: Tüm veriler eşit yaratılmıştır
ABD’nin Virginia eyaleti son 20 yıldır öğrenci kayıtları, finansal yardımlar ve derece ödülleri konusunda veri kaydı tutuyor ve bu kayıtları depoluyor. Ancak bu, 20 sene önce toplanan ve aynı veri alanlarında saklanan verinin aynı veri olduğu anlamına gelmiyor.
“Uğraştığım en büyük sorun, araştırmacıların bunun adil bir oyun olduğunu düşünmesi.” diyor Virginia Yüksek Öğretim Bakanlığı Veri Depolama Yöneticisi Tod Massa. “Örneğin ACT ve SAT (YGS – LYS türevi sınavlar) sınavlarına ilişkin veriler önceden yalnızca ülke içinde düzenlenen sınavlardan alınırdı. Daha sonra bu veriler hem ülke içinde hem de ülke dışında düzenlenen sınavlardan alınmaya başladı.” Aynı şekilde ırk ve etnik kimliğe ait veriler de ilköğretim ve yüksek öğretim kademelerinde farklı şekilde tutuluyor.
Aslında herhangi bir veri noktası farklı kurumlar tarafından farklı şekilde ya da farklı zamanlarda ya da o kurumlardaki farklı kişilerce yayınlanabilir. “Eğer sadee kendi topladığı verilerden sorumlu olan, izole bir mağaza ya da kurumdaysanız farklı bir durumla karşılaşabilirsiniz” diyor Massa. “Ancak o zaman bile verinin tanımının zaman içinde değiştiğinden şüphelenirim” diyerek endişelerini de belirtiyor Massa.
Bunun bir sonucu olarak analistlerin yalnızca istatistik yeteneklerine değil aynı zamanda uğraştıkları verilere ait alan bilgisine ve endüstrideki genel trendlere hakim olması gerekli, örneğin SAT ve ACT puanlarının yeniden düzenlendiğini bilmeli. “Bunların hepsini bir veri deposu için programlamanız mümkün değil.” diyor Massa.
————————-
“Büyük veri” terimi değişeceğe benziyor, tıpkı İnternetten ya da Web’den çok farklı olmayan bulut bilişim terimi gibi. Terim değişse bile büyük veri ruhu baki kalacaktır.
— Bryan Hill, Cadient Group CTO’su
—————————
Aynı şey harici veri kaynakları için de geçerli diyor Massa ve devam ediyor: “Federal düzeydeki veri koleksiyonları son 50 yılda dramatik ölçüde değişime uğradı.” Massa, “Kültürü ve veri koleksiyonunun içeriğini anlamak veriyi iyi kullanabilmek için gerçek bir gereksinim.” diyerek sözlerini tamamlıyor.
YANLIŞ 6: Öngörü ne kadar spesifik olursa o kadar iyidir
Bir şey daha spesifik olunca daha doğru olacağını düşünmek, insan doğasında var. ’15:12’ demek, ‘akşamüstü bir vakit’ demekten daha doğru gelebilir. Aynı şekilde ‘Pazar sabahı kesin yağış bekleniyor’ diyen bir meteoroloji uzmanı, ‘bu hafta sonu yüzde elli ihtimalle yağmur yağması bekleniyor’ diyen birinden daha inandırıcıdır. Aslında doğru olan, tam tersi. Birçok durumda öngörünün spesifikliği, doğru olma şansını azaltıyor. Örneğin bir müşterinin çok özel donanımlara sahip, özel bir dizüstü bilgisayar almak istiyor diyelim. Ve geçmiş yıllarda tam da aynı ürünü almış başka bir müşteri bir de pembe renkli sivri topuklu ayakkabı ayakkabı almış olsun. “Bu müşteriye pembe renkli sivri topuklu ayakkabı önermek çok spesifik olabilir. Hatta fazla spesifik olabilir ve hata payı oldukça yüksektir” diyor ABD merkezli Retention Science firmasının CEO’su Jerry Jao. “Bu bizim iş ve pazarlama yöneticileri arasında oldukça sık karşılaştığımız bir hata.” diyor Jao.
YANLIŞ 7: Büyük veri eşittir Hadoop
Yapılandırılmamış veri için açık kaynaklı bir veri tabanı olan Hadoop son zamanlarda ilgi odağı oldu. Ancak diğer seçenekler yok değil. “Büyük bir NoSQL hareketi olduğunu görüyoruz” diyor SAP Büyük Veri’nin Genel Müdürü Irfan Khan. “MongoDB var, Cassandra var, bir sürü başka teknolojiler var.” diyor Khan.
Hatta bu teknolojilerden bazıları bazı büyük veri projeleri için diğerlerinden daha uygun teknolojiler olabilir.
Hadoop, verileri yığınlara ayırarak çalışıyor ve aynı anda birden fazla yığın üstünde çalışabiliyor. Bu yaklaşım büyük veri sorunlarının çoğunda kullanılabiliyor ancak hepsinde kullanılamıyor.
“YARN ve Hadoop 2 bu konuda oldukça işlevsel olsa da bazen Hadoop’un ideal çözüm olmadığı sorunlarla uğraşmanız gerekebilir.” diyor bir büyük veri danışmanlık firması olan LucidWorks’ün CTO’su Grant Ingersoll. “İnsanların rakiplerinin ne kullandıklarına bakmantansa mantıklı olması ve onlar için hangi çözümün en iyi olduğunu düşünmesi gerekiyor.” diye de ekliyor.
YANLIŞ 8: Son kullanıcının büyük veriye erişmesi gerekmiyor
“Büyük veri” yüksek hızda hareket ediyor, bir sürü farklı kaynak var, hacim büyük… Sıradan çalışanlar için fazla karışıkmış gibi gözükebilir. Ancak durum hiç de böyle değil. Örneğin bir yoğun bakım ünitesindeki cihazların ürettiği tüm verileri düşünün. Kalp ritmi, nefes alma verme verileri, EKG verileri… Doktorlar ve hemşireler bu verileri yalnızca anlık olarak görebiliyorlar.
“10 dakika öncenin verilerini göremiyoruz ya da bir saat sonrası nasıl olacak kestiremiyoruz.” diyor Philips Healthcare’in Hasta Bakım & Klinik Bilişim CMO’su Anthony Jones. Hastanın geçmiş verilerini görmek bir hekimin karar vermesi için çok değerli olabilir. “Büyük bir fırsat kaçırıyorlar,” diyor Jones.
Günümüzdeki sorun, her ne kadar bu iş için tasarlanmış olmasalar da farklı platformlar, işletim sistemleri ve programlama dilleri kullanan cihazların veri üreterek birbirleriyle anlaşmalarını sağlamak. Bunu sağlayabilirseniz verileri doktor ve hemşirelere kullanışlı bir formda sunabilirsiniz.
YANLIŞ 9: Büyük veri büyük sorunlar içindir
Büyük bir bankanın CIO’su büyük veri hakkında bir konuşma yapıyor ve kendisine son kullanıcı self-servis deneyimi hakkında bir soru soruluyor. Ve CIO “Ben ona inanmıyorum.” diyor.
Birst’in CEO’su Peters, bunun genel bir tutum olduğunu ve bazı yöneticilerin büyük verinin yalnızca belirli tipte soruları cevaplandırabileceğini düşündüğünü söylüyor. Bu tutumu şu şekilde özetlemek mümkün: “Bizim büyük verideki hedefimiz sayıca az ancak yüksek değerli problemleri veri bilimcilerin de yardımıyla çözmek. Normal insanların da bu verilere erişebildiği bir kaos istemiyoruz çünkü ihtiyaçları olduğunu düşünmüyorum.”
Peters bu görüşe katılmıyor ancak birçok endüstride durumun bu şekilde olduğunu söylüyor. “Bu, çalışanların bu sistemleri kullanacak kadar zeki olmadığı büyük sigortacılık firmalarında sıkça karşımıza çıkan bir söylence.”
YANLIŞ 10: Büyük veri balonu bir gün patlayacak
Gelip geçen modalar her zaman olacaktır ancak devrimsel teknolojik değişimler bakidir. Neticede 2000’li yıllardaki internet sitesi patlaması, internetin sonunu getirmedi.
Büyük veri bir moda olmaktan çıkınca da şirketler büyük veriyle uğraşmak zorundalar. Aslında beklenenden çok daha büyük verilerle uğraşacaklar zira IDC’nin öngörülerine göre 2020’ye kadar toplanan veri miktarı her iki yılda iki katına çıkacak. Ve toplanan veriler, mevcut veriler gibi olmayacak. Yeni veri türleri ortaya çıkacak ve veriler devasa boyutlarda olacak, bu da depolama alanı gereksinimini üst kademeye çıkaracak.
“Öyle bir noktaya geleceğiz ki, kişi hastaneye girer girmez hastane kişinin genomlarını haritalandıracak.” diyor Anthony Jones. “Bu sayede tedavi, hastaya göre kişiselleştirilecek. Büyük veriden konuşurken gerçekten büyük bir veri miktarından bahsediyoruz. Birçok CIO’nun işlerin ne kadar zorlaşacağını kestiremediğini düşünüyorum.” diye ekliyor Jones.
“Büyük veriyi yalnızca bir kalıp olarak düşünen şirketler, veri bileşenlerinin kendilerine fırsat sunabilecek kısımlarını kaçıracaklar” diyor İnteraktif Pazarlama Ajansı Cadient Group CTO’su Bryan Hill. “Büyük veri” terimi değişeceğe benziyor, tıpkı internetten ya da web’den çok farklı olmayan bulut bilişim terimi gibi. Terim değişse bile büyük veri ruhu baki kalacaktır” diye ekliyor Hill.