Uygulamalı Matematik

Yaşamın İçinde Gizemli Bir Yasa: Zipf Yasası

Matematik, ister hayvan türlerinin evrimi, ister virüslerin evrimi, isterse dilin evrimi olsun, evrimi incelemek için sıklıkla kullanılır. İşte böyle bir araştırma esnasında dilbilimci George Kingsley Zipf ilginç bir bulgu ile karşılaştı. Günümüzde elde ettiği sonuçları onun soyadıyla, Zipf yasası olarak biliyoruz.

George Zipf (1902-1950

Zipf yasası bir dil analizinden ortaya çıktı. George Zipf 1932 yılında yazdığı “Selected Studies of the Principle of Relative Frequency in Language” başlıklı makalesinde bu yasayı ortaya koydu. Hangi dilde olursa olsun, belli bir metindeki kelimelerin kullanım sıklığında bir desenin varlığı söz konusuydu. Her kelimenin sıklığı, sıklık tablosundaki sıralamasıyla ters orantılıydı. Bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesinde bir sözcüğün sıra numarası ile o sözcüğün sıklık sayısı her zaman sabit bir sayı oluyordu. Yani, sıra numarası N olan bir sözcük için sıklığın 1/N olması gerekiyordu.

Bu nedenle, en fazla sıklıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılırdı. Kontrol etmek için yapılan tüm incelemeler bütün doğal dillerdeki eserlerin bu yasaya uyduğu gösterdi. Örneğin bir çalışma wikipedia’da kelime kullanımı üzerinde yapıldı. Çalışmanın sonunda da Zipf yasasının ilk 10000 kelime için geçerli olduğu bulundu.

Örnek vermek gerekirse İngilizce’de “the” kelimesi yazılı her şeyin yaklaşık %6’sını oluşturur. Daha sonra da %3′ sıklıkla “of” kelimesi gelir. Bu ilk kelimenin 1/2’si kadardır. Bir sonraki “and” kelimesi de “the” kelimesinin yaklaşık 1/3’ü kadardır. Sonraki “a ” ise yaklaşık 1/4’ü kadardır ve bu biçimde devam etmektedir.

Sıra-sıklık kuralı

Zipf yasası, Pareto ilkesini dillerde uygulamak için başarılı bir girişimdir. Pareto ilkesi, öğelerin bir dağılımı olduğunda, genellikle %20-80’lik bir oranı izlediğini belirten oldukça temel bir istatistiksel işlevdir. Görselde İrlandalı yazar James Joyce’un “Ulyses” adlı İngilizce romanının ana metinindeki sözcüklerin sıklılıklarının sıralanması yer alıyor.

Sıra-sıklık kuralı adını verdiğimiz bu kural, bir çok yerde karşımıza çıkar. Zipf Yasası’nın başka sistemlerde de ortaya çıkması, bu durumu çok daha ilginç kılar. Mesela 2004’te yapılan bir araştırmada, dünyadaki şehirleri nüfusa göre sıraladığımızda, yaklaşık olarak Zipf Yasası’na uyduğu anlaşıldı. Bir ülkedeki en kalabalık şehrin nüfusu, yaklaşık olarak ikinci sıradaki şehrin nüfusunun iki katı kadar çıkıyordu. İnternet siteleri aldıkları trafiğe göre, depremler büyüklüklerine göre, Ay’daki kraterler yarıçaplarına göre, şirketler gelirlerine göre, makaleler aldıkları atıfa göre sıralandıkları zaman da bu yasaya uyum gösteriyordu. Kısaca birbirine bağlı olarak sıralanabilen her şey bir biçimde Zipf Yasası’na uyuyordu. Ortak soru, peki ama neden oldu.

Zipf yasasının şehirlerin nüfusu ile uyumlu olmasının nedeni de aslında tam olarak bilinmiyor. Sonuçta şehir boyutunun göç yoluyla genişlediğini ve göçmenlerin daha fazla fırsat sundukları için en büyük şehirlere akın etme eğiliminde olduklarını biliyoruz. Ayrıca büyük şehirler en fazla zenginliği üretme eğilimindedir. Bu nedenle araştırmacılar bu yasanın ekonomi ile ilişkili olduğunu öne sürüyor. Çünkü yalnızca bir ülkedeki şehirler gibi ekonomik olarak birbirine bağlı şehirleri karşılaştırırsanız yasa işe yarıyor.

Neden Alakasız Şeyler Zipf Yasasına Uyum Gösteriyor?

Nasıl oluyor da birbiri ile alakasız karmaşık yapılar bu kadar basit bir matematiksel yasaya uymaktadır? Kısa cevap tam olarak bilmiyoruz. Ancak yasanın anlamlı bir dilsel özellikten ziyade istatistiksel bir yapı olabileceği düşünülüyor. 2017’de yapılan bir çalışmada Zipf yasasının bir metindeki cümlelerin yapısı (sözdizimi) ve kelimelerin anlamı (anlambilim) arasındaki etkileşimle açıklanabileceğini gösterdi. Bilgisayar simülasyonlarını kullanarak, ne sözdiziminin ne de anlambilimin tek başına bir Zipf dağılımını oluşturmaya yetmediği anlaşıldı. Sözdizim ve anlambilimin bunun için birbirine ‘ihtiyaç duyduğu’ ortaya çıktı. Ancak dilbilimciler bu konuda daha onay vermediler.

İnternet haritası.

Yine de bu kuralın dilbilim dışındaki yapılarda da karşımıza çıkmasının arka planın merak etmiş olabilirsiniz. Zipf, bu durumu aslında “En az çaba ilkesi” ile açıklamaya çalışmıştı. Zipf, çalışmasında, tüm kararlarımızın en kolay görünen veya en az çaba gerektiren yola dayalı olduğunu varsayıyordu. Diller insan kaynaklı olduğu için bir istisna olamazdı.

Zipf yasasının nedenselliğinin bir başka olası açıklaması da tercihli bağlanma kavramıdır. İnternet sitesi sıralamalarını ele alalım. Google, Alexa sıralamasından alınan aylık kullanıcı veya sayfa görüntüleme açısından en üst sırada yer alırken, milyarlarca küçük web sitesi neredeyse hiç trafik almaz. Daha yüksek trafiğe sahip web sitelerinin arama motorları vb. tarafından tavsiye edilme olasılıkları daha yüksek olduğu için daha fazla trafiğe sahip olma eğiliminde olduğunu hepimiz biliriz. Bunun sonucunda da popüler alan adları daha popüler hale gelir. Zenginlerin daha zengin olmasının nedeni durum aynıdır.

Kaynaklar ve İleri okumalar:

Matematiksel

Sibel Çağlar

Merhabalar. Matematik öğretmeni olarak başladığım hayatıma 2016 yılında kurduğum matematiksel.org web sitesinde içerikler üreterek devam ediyorum. Matematiğin aydınlık yüzünü paylaşıyorum. Amacım matematiğin hayattan kopuk olmadığını kanıtlamaktı. Devamında ekip arkadaşlarımın da dahil olması ile kocaman bir aile olduk. Amacımıza da kısmen ulaştık. Yolumuz daha uzun ama kesinlikle çok keyifli.

Bir Yorum

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu