25 Aralık 2016 Pazar

İstatistiksel Kavram Ve Yöntemler

İstatistik, veri analitiğin temellerini oluşturmaktadır. Bu yazıda bunu biraz daha somutlaştırmak amacıyla pratik hayattan örnek sunacağım.

İlk olarak bir alış-veriş sitesi veya mağazasını düşünelim. Örneğin firma erkekler ile kadınlar arasında veya bekar ile evliler arasında alış-veriş alışkanlıklarında farklılık olup olmadıklarını araştırmak istesin. Araştırma sonucunda, elindekileri verileri bilgiye dönüştürmüş olacaktır. Araştırma yapılacakken kullanılacak yöntemler istatistiğe dayanmaktadır. Örneğimizdeki araştırma için kullanılabilecek bir çok algoritma vardır. Algoritmaları kullanmadan önce verilerinizin böyle bir araştırmaya uygun olup olmadığını, verileriniz ne kadar güvenebileceğinizi test etmek gerekir ki; bu testlerde standart sapma, varyasyon, p değer gibi istatistiğe özel kavramlarla karşılaşırsınız.
analyticstraining.com


İkinci örneğimiz yine alış-veriş sitesinden olsun. A ürününü alanların beraberinde hangi ürünleri aldıklarını tespit etmek için de yine veri analitiği çalışması yapmak gerekir. Çalışmayı yaptınız ve genellikle A ürünü ile B ürününün birlikte sepette yer aldığını tespit ettiniz. İkisinin arasında bir ilişki olduğunu görünüyor ama bu ilişki bir nedensellik mi? Yani B’yi alanlar, A’yı aldıkları mı için mi alıyorlar? Bu durumlarda  regresyon ve korelasyon analizleri yapılmaktadır.

Analitik için sıklıkla kullanılan yöntemler için http://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists adresine bakabilirsiniz.


Bir sonraki yazımda, değişken nedir, verilerden değişken nasıl elde edilir, veriler nasıl sınıflanır gibi konulardan bahsetmeyi düşünüyorum.

24 Aralık 2016 Cumartesi

Analitik ve İstatistik

Önceki iki yazımda “R” dan bahsetmiştim. İki yazınında ana teması analitik idi. R nedir diye sorsanız istatistik dili olarak görürsünüz. İşte bu yazımda da veri analitiği ile istatistik arasındaki ilişkiyi anlatmaya çalışacağım.

Günümüzde veri, yeni petrol olarak tanımlanmakta. Elbetteki bu tanım verinin ne kadar kıymetli olduğunu vurgulamak için geliştirilmiş bir söylem. Unutmamak gerekir ki her ne kadar petrola bağımlı bir hayatımız olsa da, biz kullanıcılar için ham petrolun bir anlamı yoktur. Petrol, benzine, motorine ya da gaza dönüştürüldüğünde bizler için kullanılabilir, bu nedenle de para ödeyeceğimiz bir değere sahip olur.


indianexpress.com/about/brain/
Aynı analojiyi kullanmaya devam edelim; petrol veri ise, benzin-gaz ne? Bilgi bizim benzinimiz, gazımız. Peki bilgi ne? Yorumlanmış, işlenmiş, değer katılmış veridir bilgi. Veriyi işleyebilen, değer katabilen tek bir nesne var dünyada, o da beyin. Veriyi işlemek söz konusu olduğunda tüm insanoğlunun sahip olduğu beyinler üç aşağı beş yukarı aynı. 2 kere 2 dört eder herkes bilir ve söyler fakat iş yorumlamaya geldiğinde durum çok değişiyor. Aynı dersi aynı hocadan dinleyen öğrencilerin anladıkları neden birbirleri ile aynı değildir? Beyinleri farklı yorumlamıştır, farklı yorumlamıştır çünkü beyin duyularımızdan aldığı sinyalleri, kendi haznesinde bulunan önceki veriler ile ilişkilendirip, benzerleştirip veya daha farklı yöntemlerle, bilgiye dönüştürmüş ve daha sonraki durumlarda kullanmak üzere belleğe, haznesine atmıştır.

Beyin ile bilgi ile söylenebilecek daha çok şey varken, sıkmamak adına burada kesip özetliyorum; verilerimizi değerli kılabilmemiz için onları bilgiye dönüştürmeliyiz. Bilgiye dönüştürmeyi yaparken matematik biliminden faydalanıyoruz. Olay sadece toplama çıkarmadan ibaret değil. İş zekası denilince beyninizde rakamlardan oluşan raporlar canlanıyor olabilir, matematik dendiğinde de toplama-çıkarma. Kast edilen asla bunlar değil. 2 kere 2’nin dört ettiğini söyleyen herkese zeki insan diyemeyeceğiz gibi, verileri toplayıp özet rakamlarla rapor sunmaya dün belki iş zekası deniliyordu ama bugün diyemeyiz.

Akıllı diye adlandırdığımız sistemler, yorumlayabilen sistemlerdir. Yorumlarken de matematiksel modelleri kullanırlar. Matematik ile nelerin nasıl  modellendiği görmek gerçekten insanı hayrete düşürüyor. Hafızam beni yanıltmıyorsa, yıllar önce okuduğum kitabında, kaybettiğimiz değerli bilim adamı Oktay Sinanoğlu, yelkenlisiyle pasifikte kaybolduğunda, matematik kullanarak kurtulduğu anlatıyordu. Elbette daha farklı, bir çok enteresan örnekler de vardır.

Image Credit: Erin DeWalt
Son söz, eğer yazılımcı iseniz ve R diline ilgi gösteriyorsanız, en azından temel istatistik kavramlarını biliyor ve algoritmalar hakkında da az çok bilgi sahibi olmanız gerekir. Eğer veri analitiği ile ilgileniyorsanız, hiç kaçarınız yok, istatistik öğrenmelisiniz.