Olasılık ve İstatistik

Veri Biliminin Ardındaki Matematik

Matematik her tür çağdaş bilim disiplininin temel taşıdır. Makine öğrenmesi de dahil olmak üzere modern veri biliminin neredeyse tüm tekniklerinin derin bir matematiksel dayanağı vardır. En iyi veri bilimciler arasında yer almak için veriyle ilgili tüm bilgi birikimine sahip olmanız gerekir. Bunun yanı sıra, programlama yeteneğine, bir miktar ticari zekaya, ve kişiliğinize özgü analitik ve sorgulayıcı bir düşünme biçimine sahip olmanız gerektiğini söylemeye hiç gerek yok.

Ne de olsa, otomobiller hakkında hiçbir şey bilmeden direkt olarak şoför koltuğuna oturmaktansa, kaportanın altındaki düzeneğin nasıl işlediğiyle ilgili fikir sahibi olmak her zaman işe yarar. Dolayısıyla, havalı algoritmaların arkasındaki matematiksel mekanizmayı anlamak sizi akranlarınızdan bir adım öteye taşıyacaktır.

Bu matematik bilgisi, donanım mühendisliği, perakende, kimya endüstrisi, tıp ve sağlık hizmetleri, işletme yönetimi ve benzeri iş kollarından veri bilimi alanına yeni geçen kişiler için özellikle önemlidir. Bu tür iş kolları özel bilgisayar yazılımları, nümerik hesaplamalar, tasarım ile ilgili deneyime sahip olmayı gerektirse de, veri biliminde ihtiyaç duyulan matematik becerileri önemli ölçüde fark gösterebilir.

Veri Hayatımızın Her Yerindedir

Bir web geliştiricisi veya iş analisti düşünün. Bu iki iş kolundan birinde çalışan biri her gün çok fazla veri ve bilgi ile uğraşır. Fakat bu uğraş verinin titiz bir biçimde modellenmesi anlamına gelmeyebilir. Çoğu zaman yapılan iş, derin bilimsel bir inceleme yapmak yerine, veriyi acil bir ihtiyaç için kullanmak ve yola devam etmektir.

Diğer yandan veri bilimi her zaman bilim ile ilgili olmalıdır, veri ile ilgili değil. Bu durumda, belirli araçlar ve teknikler vazgeçilmez hale gelir. Bu araç ve tekniklerin çoğu geçerli bilimsel bir sürecin karakteristik birer özelliğidir.

Veri bilimi, doğası gereği, belirli bir alana bağlı değildir. Kanser teşhisinden sosyal davranış analizine kadar birçok farklı olayla ilgilenebilir. Bu durum, baş döndürücü n-boyutlu matematiksel nesneler, istatistiksel dağılımlar ve optimizasyon amaçlı fonksiyonlarla uğraşmak gibi ihtimaller ortaya çıkarır.

Veri bilimi oyununda ön sıralarda yer almak için bilinmesi gerekenler

Fonksiyonlar, Değişkenler, Denklemler ve Grafikler

Matematiğin bu alanı bir doğru denkleminden binom teoremine ve bu ikisi arasındaki diğer tüm temel konuları kapsar.

⦁ Logaritmik, üstel ve polinom fonksiyonları, rasyonel sayılar
⦁ Temel geometrik teoremler, trigonometrik eşitlikler
⦁ Reel ve kompleks sayılar ve bunların temel özellikleri
⦁ Seriler, toplamlar ve eşitsizlikler
⦁ Grafik çizme, Kartezyen ve kutupsal koordinatlar ve konik kesitler

Nerede işe yarar?

Bir milyon veriden oluşan bir veri tabanında yapılan bir aramanın daha hızlı nasıl yapılabileceğini anlamak isterseniz, “ikili arama” denen bir kavramla karşılaşırsınız. Bu aramanın dinamiğini anlamak için, logaritmayı ve indirgeme bağıntılarını anlamanız gerekir. Veya bir zaman serisini analiz etmek istiyorsanız “periyodik fonksiyonlar” ve “üstel azalma” gibi kavramlarla karşılaşırsınız.

İstatistik

Temel istatistik ve olasılık kavramları ile ilgili sağlam bir anlayışa sahip olmanın önemi azımsanmamalıdır. Bu alandaki birçok uygulamacı klasik makine öğrenmesini istatistiksel öğrenmeden ayrı düşünmez. İstatistik oldukça geniş bir alan olduğundan konuya odaklı bir planlama yapmak en temel kavramları öğrenmek için çok önemlidir:

⦁ Veri özetleri ve tanımlayıcı istatistikler, merkezi eğilim, varyans, kovaryans, korelasyon
⦁ Temel olasılık: temel amaç, beklenti, olasılık hesabı, Bayes teoremi, koşullu olasılık
⦁ Olasılık dağılım fonksiyonları: düzgün, normal, binom, kikare, student t-dağılımı, merkezi limit teoremi
⦁ Örnekleme, ölçüm, hata, rastgele sayı üretimi
⦁ Hipotez testi, A/B testi, güven aralıkları, p değerleri
⦁ ANOVA (iki veya daha fazla yöntemin eş zamanlı karşılaştırılmasında kullanılan istatistiksel bir yöntem), t- testi
⦁ Doğrusal regresyon, düzenlileştirme

Nerede işe yarar?

İş görüşmelerinde. Bu kavramlarda ne kadar ustalaşırsanız, masanın diğer tarafında oturan muhtemel işverenlerinizi etkileme hızınız o kadar artacaktır. Dahası bir veri bilimcisi olarak neredeyse her gün bu kavramlara ihtiyaç duyacaksınız.

Lineer Cebir

Lineer cebir, makine öğrenmesi algoritmalarının öngörü oluşturmak için veri akışı üzerinde nasıl çalıştığını anlamak için kullanılan önemli bir matematik dalıdır. Facebook’taki arkadaş önerilerinden, Spotify’daki şarkı önerilerine, çektiğiniz selfieyi Salvador Dali tarzı bir portreye aktarmaya kadar her şey gücünü matrislerden ve matris cebirinden alan derin aktarım öğrenmesi kullanır. Lineer cebirde öğrenilecek en temel konular aşağıdaki gibi sıralanabilir:

⦁ Matrislerin ve vektörlerin temel özellikleri: skaler çarpma, lineer dönüşümler, bir matrisin transpozu, eşleniği, rankı ve determinantı
⦁ İç ve dış çarpımlar, matris çarpımı ve çeşitli algoritmalar, bir matrisin tersi
⦁ Özel matrisler: kare matris, birim matris, üçgensel matris, seyrek ve yoğun matris kavramı, birim vektörler, simetrik matris, Hermityen matris, skew-Hermityen matris, birim matris
⦁ Bir matrisin çarpanlarına ayrılması / LU ayrıştırması, Gaussian / Gauss-Jordan eliminasyon yöntemi, Ax=B biçimindeki doğrusal denklem sistemlerinin çözümünü bulma
⦁ Vektör uzayı, taban, germe, diklik, ortonormallik kavramları, lineer en küçük kare
⦁ Özdeğerler, özvektörler, köşegenleştirme, singüler değer ayrışımı

Nerede işe yarar?

Tüm sinir ağı algoritmaları, ağ yapılarını ve öğrenme işlemlerini temsil etmek ve işlemek için lineer cebirsel teknikler kullanır.

Matematiksel Analiz

Şimdiye kadar ister sevmiş, ister nefret etmiş olun eğer veri bilimi ve makine öğrenmesinde akranlarınızdan bir adım öne çıkmak istiyorsanız matematiksel analizden kurtuluşunuz yok. Matematiksel analizin doğrusal regresyondaki sıradan en küçük kareler probleminin analitik çözümünün arkasında pusuya yatmış biçimde sizi beklemesi veya sinir ağınızın yeni bir örüntü öğrenmek için yaptığı her geriye yayılıma yerleştirilmiş olması kuvvetle muhtemel. Repertuarınıza eklemeniz için son derece değerli bir beceri olan matematiksel analizde öğrenilecek en temel konular aşağıdaki gibi sıralanabilir:

⦁ Tek değerli fonksiyonlar, limit, süreklilik, türev kavramı
⦁ Ara değer teoremleri, belirsiz şekiller, L’Hospital kuralı
⦁ Maximum ve minimum değer kavramları
⦁ Çarpımın türevi ve zincir kuralı
⦁ Taylor serileri, sonsuz seri toplamları, integrasyon kavramı
⦁ Analizin temel teoremi ve integral için ortalama değer teoremi, belirli ve genelleştirilmiş integraller
⦁ Beta ve Gama fonksiyonları
⦁ Çok değişkenli fonksiyonlar, limit, süreklilik ve kısmi türev kavramı
⦁ Adi ve kısmi türevli diferansiyel denklemlerin temelleri

Nerede işe yarar?

Lojistik regresyon algoritmasının tam olarak nasıl uygulandığını hiç merak ettiniz mi? Bu algoritmanın kayıp fonksiyonun minimumunu bulmak için gradyan azalma yöntemi kullanma olasılığı oldukça yüksektir. Bu yöntemin nasıl çalıştığını anlamak içinse gradyan, limit, türev, ve zincir kuralı gibi az önce bahsini ettiğimiz kavramları kullanmak gerekir.

Ayrık Matematik

Matematiğin bu alt dalı, veri biliminde sık tartışılmaz fakat tüm modern veri bilimi hesaplama sistemlerinin yardımıyla yapılır ve ayrık matematik bu tür sistemlerin kalbinde yer alır. Bu konu ile ilgili öğrenilecek temel kavramlar aşağıdaki gibi sıralanabilir:

⦁ Kümeler, alt kümeler, kuvvet kümeleri
⦁ Sayma fonksiyonları, kombinatorik, sayılabilme kavramı
⦁ Temel ispat teknikleri: tüme varım, olmayana ergi yöntemi
⦁ Tümevarımsal, tümdengelimsel ve önermesel mantığın temelleri
⦁ Temel veri yapıları: yığınlar, sıralar, grafikler, dizilimler, komut tabloları, ağaç şeklindeki diyagramlar
⦁ Graf özellikleri
⦁ İndirgeme bağıntıları ve denklemleri
⦁ Büyüme fonksiyonları ve Büyük O kavramı

Nerede işe yarar?

Herhangi bir sosyal ağ analizinde, ağı aramak ve gezmek için graf ve hızlı algoritma özelliklerini bilmeniz gerekir. Herhangi bir algoritma seçiminde zaman ve mekan karmaşıklığını anlamanız, yani Büyük O kavramını kullanarak, geçen zaman ve mekan gereksiniminin girdi veri boyutuyla birlikte nasıl büyüdüğünü gözlemlemeniz gerekir.

Optimizasyon ve Yöneylem Araştırması Konuları

Optimizasyon ve yöneylem araştırması konuları en çok teorik bilgisayar bilimi, kontrol teorisi veya yöneylem araştırması gibi uzmanlık gerektiren alanlarla ilgilidir. Ancak bu tekniklerin temel olarak anlaşılması makine öğrenmesinde de verimli olabilir. Neredeyse her makine öğrenmesi algoritması, çeşitli kısıtlamaları tabi olan bir tür tahmin hatasını en aza indirmeyi amaçlar, bu ise bir optimizasyon problemidir. Bu konuda işe yarayacak başlıklar aşağıdaki gibi sıralanabilir:
⦁ Optimizasyonun temelleri, problemin formülasyonu
⦁ Maksimum, minimum, konveks fonksiyonlar, global çözümler
⦁ Lineer programlama, simpleks algortiması
⦁ Tamsayı programlama
⦁ Constraint programlama, sırt çantası problemi
⦁ Rastgeleleştirilmiş optimizasyon teknikleri: tepe tırmanma algoritması, benzetimli tavlama algoritması, genetik algoritma

Nerede işe yarar?

En küçük kareler kaybı fonksiyonunu kullanan basit lineer regresyon problemleri genellikle analitik bir tam çözüme sahiptir, fakat lojistik regresyon problemlerinin tam analitik çözümlerinden bahsedilemez. Bu durumun arkasında yatan sebebi anlamak için optimizasyondaki konvekslik kavramına aşina olmak gerekir. Bu ayrıca makine öğrenmesi problemlerinin yaklaşık çözümlerinden neden memnun kalmamız gerektiği konusuna da açıklık getirecektir.

Bunlara da göz atmak isteyebilirsiniz…

Kaynak: Essential Math for Data Science; https://medium.com

Matematiksel

Fatma Ayca Cetinkaya

Matematik alanındaki lisans derecemi Ankara Üniversitesi'nden, yüksek lisans ve doktora derecelerimi Mersin Üniversitesi'nden aldım. Mersin Üniversitesi Matematik bölümünde öğretim üyesi olarak görev yapmaktayım.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.