Açık kaynak kodlu R programlama dili ile büyük veri üzerinde istatistikler ve grafiksel çıktılar alabilirsiniz…
Martin Heller
Büyük veri setleri üzerinde istatistiki bilgiişlem ve grafikler gerçekleştirmek için açık kaynak R programlamayı kullanmaya başlayın. Birkaç yıl önce medikal uygulama yönetimi yazılımı alanında bir startup firmasının CTO’su ve kurucularından biriydim. Çözmeye çalıştığımız problemlerden bir tanesi medikal ziyaret takvimlerinde herkesin zamanını nasıl optimize edebileceğimizdi. Sıklıkla ofis ziyaretleri doktorun zamanını optimize etmek üzere planlanır ve hastalar da ciğerlerindeki bulaşıcı hastalıklar yüzünden kesintisiz olarak öksüren insanlarla dolu kalabalık bekleme odasında beklemek zorundaydı.
Hastane medikal direktörü olan kuruculardan bir tanesinin ziyaret nedeni bazında bir ofis ziyaretinin gereken uzunluğunu tahmin edebilen çok değişkenli bir doğrusal modeli vardı; hastanın bir tercümana ihtiyaç duyup duymaması, hem doktor hem de hastanın geçmiş ziyaret uzunlukları ortalaması ve diğer olası ilgili faktörler. İnşa etmem gereken alt sistemlerden bir tanesi model içinde geçmiş verilere dayanan tüm katsayıları güncellemek için aylık bir ilişki yoklaması göreviydi.
Çok sayıda seçeneği araştırdıktan sonra bu bileşeni R’da geliştirmeyi seçtim; R sistemi içerisinde geliştirilmiş geniş çeşitlilikte istatistik (doğrusal ve doğrusal olmayan modelleme, klasik istatistiki testler, zaman serisi analizi, sınıflandırma, kümeleme) ve grafik tekniklerinin avantajında yararlanarak.
Beni çeken şeylerden bir tanesi R’ın kod diliydi ki güncellenen veri setlerinde analizleri kaydedip yeniden çalıştırmamı kolaylaştırıyor; bir diğer cazibe noktası R ve C++’ı entegre yeteneğiydi. Bu projenin anahtar faydalarından bir tanesi esasında Excel ve diğer GUI analiz programlarının aksine R’ın tamamen denetlenebilir olmasıydı.
Bununla birlikte pilot Web uygulamasını geliştirmemden kısa bir süre sonra startup’ın nakdi tükenmişti; en azından kısmen çünkü ilk hastane müşterimiz iflas açıklamak zorunda kalmıştı. Buna rağmen istatistiki analiz ve veri bilimleri için R halen benim favorim.
R script’leri
Computerworld’den Sharon Machlis 2013 yılında iş zekasına yönelik olarak R için mükemmel bir başlangıç eğitimi yazmıştı. Göz atmanızı öneririm. (http://www.computerworld.com/article/2497143/business-intelligence-beginner-s-guide-to-r-introduction.html)
Masaüstünüze R ve RStudio’u kurarak başlayın. İkisi de ücretsiz. RStudio opsiyonel ama ben onu seviyorum ve muhtemelen siz de seveceksiniz. Yarım düzine başka R IDE’leri ile kısmi R desteği sunan bir düzine editör mevcut ama hepsini deneme çılgınlığına düşmeyin.
R’ı, (Şekil 1) R Konsolu (Şekil 2) ve RStudio’yu(Şekil 3) komut satırından çalıştırmayı deneyin. Bir takım R dersleri ve demolarıyla kendinizi alıştırın.