Yaşamın İçinde Bir Gizem: Zipf Yasası ve Sıra Sıklık Kuralı

Her dilde en sık kullanılan kelimenin, en sık kullanılan ikinci kelimenin iki katı sıklıkta geçtiğini biliyor muydunuz? Bu durum ilk olarak dilbilimci George Kingsley Zipf tarafından fark edildi. Bu nedenle de günümüzde onun adını taşımakta ve Zipf yasası olarak bilinmektedir.

George Zipf (1902-1950

Zipf yasası tahmin ettiğiniz gibi bir dil analizinden ortaya çıktı. George Zipf 1932 yılında yazdığı “Selected Studies of the Principle of Relative Frequency in Language” başlıklı makalesinde bu yasayı ortaya koydu. Hangi dilde olursa olsun, belli bir metindeki kelimelerin kullanım sıklığında bir desenin varlığı söz konusuydu. Her kelimenin sıklığı, sıklık tablosundaki sıralamasıyla ters orantılıydı.

Bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesinde bir sözcüğün sıra numarası ile o sözcüğün sıklık sayısı her zaman sabit bir sayı oluyordu. Yani, sıra numarası N olan bir sözcük için sıklığın 1/N olması gerekiyordu.

Bu nedenle, en fazla sıklıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla kullanılır. Aynı biçimde, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılır. Kontrol etmek için yapılan tüm incelemeler bütün doğal dillerdeki eserlerin bu yasaya uyduğu gösterdi. Örneğin wikipedia’da yapılan bir çalışmada Zipf yasasının ilk 10000 kelime için geçerli olduğu ortaya çıktı.

Örnek vermek gerekirse İngilizce’de “the” kelimesi yazılı her şeyin yaklaşık %6’sını oluşturur. Daha sonra da %3′ sıklıkla “of” kelimesi gelir. Bu ilk kelimenin 1/2’si kadardır. Bir sonraki “and” kelimesi de “the” kelimesinin yaklaşık 1/3’ü kadardır. Sonraki “a ” ise yaklaşık 1/4’ü kadardır ve bu biçimde devam etmektedir.

Sıra-sıklık kuralı

Zipf yasası, Pareto ilkesini dillerde uygulamak için başarılı bir girişimdir. Pareto ilkesi, öğelerin bir dağılımı olduğunda, genellikle %20-80’lik bir oranı izlediğini belirten oldukça temel bir istatistiksel işlevdir. Görselde İrlandalı yazar James Joyce’un “Ulyses” adlı İngilizce romanının ana metinindeki sözcüklerin sıklılıklarının sıralanması yer alıyor.

Sıra-sıklık kuralı adını verdiğimiz bu kural, bir çok yerde karşımıza çıkar. Zipf Yasası’nın başka sistemlerde de ortaya çıkması, bu durumu çok daha ilginç kılar. Mesela 2004’te yapılan bir araştırmada, dünyadaki şehirleri nüfusa göre sıralandı. Bunun sonucunda da sıralamanınz, yaklaşık olarak Zipf Yasası’na uyduğu ortaya çıktı. Bir ülkedeki en kalabalık şehrin nüfusu, yaklaşık olarak ikinci sıradaki şehrin nüfusunun iki katı kadar çıkıyordu.

İnternet siteleri aldıkları trafiğe göre, depremler büyüklüklerine göre, Ay’daki kraterler yarıçaplarına göre, şirketler gelirlerine göre, makaleler aldıkları atıfa göre sıralandıkları zaman da bu yasaya uyum gösteriyordu. Kısaca birbirine bağlı olarak sıralanabilen her şey bir biçimde Zipf Yasası’na uyuyordu. Ortak soru, peki ama neden oldu.

Zipf yasasının şehirlerin nüfusu ile uyumlu olmasının nedeni de aslında tam olarak bilinmiyor. Sonuçta şehir boyutunun göç yoluyla genişlediğini ve göçmenlerin daha fazla fırsat sundukları için en büyük şehirlere akın etme eğiliminde olduklarını biliyoruz. Ayrıca büyük şehirler en fazla zenginliği üretme eğilimindedir. Bu nedenle araştırmacılar bu yasanın ekonomi ile ilişkili olduğunu öne sürüyor. Çünkü yalnızca bir ülkedeki şehirler gibi ekonomik olarak birbirine bağlı şehirleri karşılaştırırsanız yasa işe yarıyor.

Neden Alakasız Şeyler Zipf Yasası ile Uyum Gösteriyor?

Nasıl oluyor da birbiri ile alakasız karmaşık yapılar bu kadar basit bir matematiksel yasaya uymaktadır? Kısa cevap tam olarak bilmiyoruz. 2017’de yapılan bir çalışmada Zipf yasasının bir metindeki cümlelerin yapısı (sözdizimi) ve kelimelerin anlamı (anlambilim) arasındaki etkileşimle açıklanabileceğini gösterdi. Sözdizim ve anlambilimin bunun için birbirine ‘ihtiyaç duyduğu’ ortaya çıktı. Ancak dilbilimciler bu konuda daha onay vermediler.

İnternet haritası.

Yine de bu kuralın dilbilim dışındaki yapılarda da karşımıza çıkmasının arka planın merak etmiş olabilirsiniz. Zipf, bu durumu aslında “En az çaba ilkesi” ile açıklamaya çalışmıştı. Zipf, çalışmasında, tüm kararlarımızın en kolay görünen veya en az çaba gerektiren yola dayalı olduğunu varsayıyordu. Diller insan kaynaklı olduğu için bir istisna olamazdı.

Zipf yasasının nedenselliğinin bir başka olası açıklaması da tercihli bağlanma kavramıdır. İnternet sitesi sıralamalarını ele alalım. Google, Alexa sıralamasından alınan aylık kullanıcı veya sayfa görüntüleme açısından en üst sırada yer alırken, milyarlarca küçük web sitesi neredeyse hiç trafik almaz. Daha yüksek trafiğe sahip web sitelerinin arama motorları vb. tarafından tavsiye edilme olasılıkları daha yüksek olduğu için daha fazla trafiğe sahip olma eğiliminde olduğunu hepimiz biliriz. Bunun sonucunda da popüler alan adları daha popüler hale gelir. Zenginlerin daha zengin olmasının nedeni durum aynıdır.



Kaynaklar ve İleri okumalar:


Dip Not:

Matematiksel, 2015 yılından beri yayında olan ve Türkiye’de matematiğe karşı duyulan önyargıyı azaltmak ve ilgiyi arttırmak amacıyla kurulmuş bir platformdur. Sitemizde, öncelikli olarak matematik ile ilgili yazılar yer almaktadır. Ancak bilimin bütünsel yapısı itibari ile diğer bilim dalları ile ilgili konular da ilerleyen yıllarda sitemize dahil edilmiştir. Bu sitenin tek kazancı sizlere göstermek zorunda kaldığımız reklamlardır. Yüksek okunurluk düzeyine sahip bir web sitesi barındırmak ne yazık ki günümüzde oldukça masraflıdır. Bu konuda bizi anlayacağınızı umuyoruz. Ayrıca yazımızı paylaşarak da büyümemize destek olabilirsiniz. Matematik ile kalalım, bilim ile kalalım

Matematiksel

Sibel Çağlar

Merhabalar. Matematik öğretmeni olarak başladığım hayatıma 2016 yılında kurduğum matematiksel.org web sitesinde içerikler üreterek devam ediyorum. Matematiğin aydınlık yüzünü paylaşıyorum. Amacım matematiğin hayattan kopuk olmadığını kanıtlamaktı. Devamında ekip arkadaşlarımın da dahil olması ile kocaman bir aile olduk. Amacımıza da kısmen ulaştık. Yolumuz daha uzun ama kesinlikle çok keyifli.

Bu Yazılarımıza da Göz Atınız

Bir Yorum

  1. Yazılımda yaşıyoruz:) Benford yasası ile bu yasa kanıtı:)

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu