Benford yasası - Benford's law

Açık gri ızgara arka planına karşı azalan mavi çubuklar dizisi
Benford yasasına göre ilk rakamların dağılımı. Her çubuk bir rakamı temsil eder ve çubuğun yüksekliği o rakamla başlayan sayıların yüzdesidir.
Benford yasasına karşı çizilen fiziksel sabitlerin ilk anlamlı basamağının sıklığı

Benford'un yasası olarak da adlandırılan, Newcomb-Benford yasası , anormal sayılar yasası veya birinci haneli hukuk , sayısal birçok gerçek yaşam setlerinde olduğu bir gözlem verileri , lider haneli olasılıkla küçük olmaktır. Yasaya uyan kümelerde, 1 sayısı zamanın yaklaşık %30'unda baştaki anlamlı basamak olarak görünürken, 9, zamanın %5'inden daha azında önde gelen anlamlı basamak olarak görünür. Rakamlar eşit olarak dağıtılsaydı, her biri zamanın yaklaşık %11,1'inde meydana gelirdi. Benford yasası ayrıca ikinci basamakların, üçüncü basamakların, basamak kombinasyonlarının vb. dağılımı hakkında tahminlerde bulunur.

Sağdaki grafik , keyfi (tamsayı) tabanlarda ifade edilen sayılarla ilgili genelleştirilmiş bir yasanın sonsuz sayıda örneğinden biri olan ve fenomenin taban 10 sayı sisteminin bir eseri olma olasılığını dışlayan Benford'un 10 tabanı için yasasını göstermektedir . 1995'te, hem n'inci basamak için benzer ifadeler hem de baştaki n basamakların ortak dağılımı için benzer ifadeler dahil olmak üzere daha fazla genelleme yayınlandı ; bunlardan ikincisi, anlamlı basamakların istatistiksel olarak bağımlı bir miktar olduğu gösterildiği bir sonuca yol açar .

Bu sonucun, elektrik faturaları, sokak adresleri, hisse senedi fiyatları, ev fiyatları, nüfus sayıları, ölüm oranları, nehir uzunlukları ve fiziksel ve matematiksel sabitler dahil olmak üzere çok çeşitli veri kümeleri için geçerli olduğu gösterilmiştir . Doğal verilerle ilgili diğer genel ilkeler gibi - örneğin birçok veri kümesinin normal bir dağılımla iyi bir şekilde yaklaştırılması gerçeği - Benford yasasının geçerli olduğu birçok durumu kapsayan açıklayıcı örnekler ve açıklamalar vardır, ancak Benford yasasının geçerli olduğu birçok başka durum vardır. basit bir açıklamaya direnen uygulamalardır. Özellikle sayıları üreten süreç bir güç yasasıyla (doğada yaygın olan) tanımlanıyorsa , değerler birden fazla büyüklük sırasına dağıtıldığında en doğru olma eğilimindedir .

Yasa, daha önce 1881'de Simon Newcomb tarafından belirtilmiş olmasına rağmen, 1938'de "Anormal Sayılar Yasası" başlıklı bir makalede ifade eden fizikçi Frank Benford'un adını almıştır .

Yasa, dağıtım açısından aynı olmasa da kavram olarak Zipf yasasına benzer .

Tanım

Sol altta ofset kalın eksenli ve logaritmaları temsil eden açık gri çizgili dikdörtgen
Bir logaritmik ölçek çubuğu. Bu sayı doğrusunda rastgele bir x konumu tekdüze olarak seçildiğinde , sayının ilk basamağının kabaca %30'u 1 olacaktır.

Baştaki basamak d ( d  ∈ {1, ..., 9} ) olasılıkla ortaya çıkarsa, bir dizi sayının Benford yasasını sağladığı söylenir. 

Böyle bir kümedeki önde gelen rakamlar aşağıdaki dağılıma sahiptir:

NS göreli boyutu
1 %30,1 30.1
 
2 %17.6 17.6
 
3 %12,5 12.5
 
4 %9,7 9.7
 
5 %7,9 7.9
 
6 %6.7 6.7
 
7 %5,8 5.8
 
8 %5,1 5.1
 
9 %4,6 4.6
 

Miktarı arasındaki boşluk ile orantılıdır d ve d  + 1 , bir ile logaritmik ölçek . Bu nedenle, sayıların logaritmaları (sayıların kendileri değil) düzgün ve rastgele dağılmışsa bu beklenen dağılımdır .

Örneğin, 1 ile 10 arasında olması sınırlandırılmış bir x sayısı , 1 ≤ x  < 2 ise rakamı ile başlar ve 9 ≤ x  < 10 ise rakamı ile başlar . Bu nedenle, x ise basamak 1 ile başlar günlük 1 ≤ günlük  x  <2 log 9 ise ile ya da başlar günlük ≤ 9 günlük  x  <10 log . Aralık [2 log, 1 log] aralığı çok daha geniş [10 log 9, log] (0.30 ve 0.05); bu nedenle log x düzgün ve rastgele dağılmışsa, dar aralıktan daha geniş aralığa düşme olasılığı çok daha yüksektir, yani 9'dan ziyade 1 ile başlama olasılığı daha yüksektir; olasılıklar, yukarıdaki denklemi veren aralık genişlikleriyle orantılıdır (ve ondalık sayının yanı sıra diğer tabanlara genelleme).

Benford yasası bazen daha güçlü bir biçimde ifade edilir ve verilerin logaritmasının kesirli kısmının tipik olarak 0 ile 1 arasında düzgün bir şekilde dağıldığına yakın olduğunu iddia eder ; bundan, ilk hanelerin dağılımına ilişkin ana iddia türetilebilir.

Diğer bazlarda

Çeşitli bazlarda  ilk basamak d için P  ( d ) grafikleri . Noktalı çizgi, P  ( d  )'nin dağıtım üniforması olduğunu gösterir. Olarak SVG resmi , bir grafiğin üzerine gelme her bir nokta için değeri gösterir.

Benford yasasının bir uzantısı, ilk rakamların ondalık sayının yanı sıra diğer tabanlardaki dağılımını öngörür ; aslında, herhangi bir baz b  ≥ 2 . Genel formu şudur:

For b  = 2,1 ( ikili ve tekli ) sayı sistemleri, Benford yasası doğrudur ama önemsiz: Tüm ikili ve (0 veya boş seti hariç) tekli sayılar, diğer taraftan (basamak 1 ile başlaması genelleme Benford yasasının ikinci ve sonraki basamaklara dönüştürülmesi , ikili sayılar için bile önemsiz değildir.)

Örnekler

Temmuz 2010 itibariyle dünyanın 237 ülkesinin nüfusunda ilk hanelerin dağılımı (% olarak, kırmızı çubuklar) . Siyah noktalar, Benford yasasının öngördüğü dağılımı göstermektedir.

Kategoriye göre dünyanın en yüksek 58 yapısının yüksekliklerinin bir listesini incelemek , ölçü biriminden bağımsız olarak 1'in açık ara en yaygın ön basamak olduğunu göstermektedir (aşağıda "ölçek değişmezliği" ile karşılaştırınız):

Baştaki rakam m ft Benford yasasına göre
Saymak % Saymak %
1 24 %41,4 16 27.6 % %30,1
2 9 %15,5 8 13,8 % %17.6
3 7 %12.1 5 %8,6 %12,5
4 6 %10,3 7 %12.1 %9,7
5 1 %1,7 10 %17,2 %7,9
6 5 %8,6 4 %6,9 %6.7
7 1 %1,7 2 %3.4 %5,8
8 4 %6,9 5 %8,6 %5,1
9 1 %1,7 1 %1,7 %4,6

Başka bir örnek, 2 n'nin baştaki basamağıdır . İlk 96 baştaki basamağın sırası (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1... (sıra A008952) içinde OEIS bir geometrik dizisinden, rastgele olmayan türetilmiş olduğu için)), kendi uzunluktaki sekanslar için beklenenden daha Benford'un yasasına yakın yapışmasını sergiler; 1 rakamı her zaman her üç veya dört basamakta bir görünür ve yalnızca 9 rakamı arka arkaya iki kez görünebilir.

Baştaki rakam oluşum Benford yasasına göre
Saymak %
1 29 %30,2 %30,1
2 17 %17.7 %17.6
3 12 %12,5 %12,5
4 10 %10,4 %9,7
5 7 %7,3 %7,9
6 6 %6,3 %6.7
7 5 %5,2 %5,8
8 5 %5,2 %5,1
9 5 %5,2 %4,6

Tarih

Benford yasasının keşfi, Kanadalı-Amerikalı astronom Simon Newcomb'un logaritma tablolarında (1 ile başlayan) önceki sayfaların diğer sayfalardan çok daha yıpranmış olduğunu fark ettiği 1881 yılına kadar gider . Newcomb'un yayınlanan sonucu, bu gözlemin bilinen ilk örneğidir ve ikinci basamakta bir dağılım da içerir. Newcomb, tek bir N sayısının bir sayının ilk basamağı olma olasılığının log( N  + 1) − log( N ) değerine eşit olduğu bir yasa önerdi .

Fenomen, 1938'de , onu 20 farklı alandaki veriler üzerinde test eden ve bunun için kredilendirilen fizikçi Frank Benford tarafından tekrar kaydedildi . Veri seti, 335 nehrin yüzey alanlarını, 3259 ABD popülasyonunun boyutunu, 104 fiziksel sabiti , 1800 moleküler ağırlığı , bir matematik el kitabından 5000 girdiyi, Reader's Digest'in bir sayısında yer alan 308 rakamı , ilk 342'nin sokak adreslerini içeriyordu. American Men of Science'da listelenen kişiler ve 418 ölüm oranı. Makalede kullanılan toplam gözlem sayısı 20.229'du. Bu keşif daha sonra Benford'un adını aldı (bunu Stigler yasasının bir örneği haline getirdi ).

1995 yılında Ted Hill , aşağıda belirtilen karışık dağılımlarla ilgili sonucu kanıtladı .

Açıklamalar

Benford yasası, en doğru şekilde birkaç büyüklük derecesini kapsayan verilere uygulanma eğilimindedir. Genel bir kural olarak, verilerin eşit olarak kapsadığı büyüklük sırası ne kadar fazlaysa, Benford yasası o kadar doğru uygulanır. Örneğin, Benford yasasının Birleşik Krallık yerleşim yerlerinin nüfusunu temsil eden bir sayı listesine uygulanması beklenebilir. Ancak bir "yerleşim" nüfusu 300 ile 999 arasında olan bir köy olarak tanımlanırsa, Benford yasası geçerli olmayacaktır.

Aşağıda gösterilen, bir günlük ölçeğine atıfta bulunulan olasılık dağılımlarını göz önünde bulundurun . Her durumda, kırmızı toplam alan, ilk basamağın 1 olma nispi olasılığıdır ve mavi toplam alan, ilk hanenin 8 olma nispi olasılığıdır. İlk dağılım için, kırmızı ve kırmızı alanların boyutu. mavi, her bir kırmızı ve mavi çubuğun genişliğiyle yaklaşık olarak orantılıdır. Bu nedenle, bu dağılımdan elde edilen sayılar yaklaşık olarak Benford yasasını izleyecektir. Öte yandan, ikinci dağılım için, kırmızı ve mavi alanların oranı, her bir kırmızı ve mavi çubuğun genişliklerinin oranından çok farklıdır. Bunun yerine, kırmızı ve mavinin göreli alanları, genişliklerden çok çubukların yüksekliği tarafından belirlenir. Buna göre, bu dağılımdaki ilk rakamlar Benford yasasını hiç karşılamamaktadır.

Günlük ölçeğinde gösterilen, bir değişkenin günlüğünün geniş olasılık dağılımı. Benford yasası, mavi (birinci basamak 8) gölgeleme ile karşılaştırıldığında kırmızı (birinci basamak bir) tarafından kapsanan daha geniş alanda görülebilir.
Günlük ölçeğinde gösterilen, bir değişkenin günlüğünün dar olasılık dağılımı. Benford yasasına uyulmaz, çünkü dar dağılım Benford yasasının kriterlerini karşılamaz.

Bu nedenle, birkaç büyüklük sırasını oldukça tekdüze bir şekilde ( örneğin , köylerin/kasabaların/şehirlerin nüfusları, borsa fiyatları) kapsayan gerçek dünya dağılımlarının, Benford yasasını çok yüksek bir doğrulukla karşılaması muhtemeldir. Öte yandan, çoğunlukla veya tamamen bir büyüklük sırası içinde olan bir dağılımın ( örneğin , yetişkinlerin boyları veya IQ puanları) Benford yasasını çok doğru bir şekilde veya hiç karşılaması olası değildir. Ancak, uygulanabilir ve uygulanamaz rejimler arasındaki fark keskin bir sınır değildir: dağılım daraldıkça, Benford yasasından sapmalar kademeli olarak artar.

(Bu tartışma, Benford yasasının tam bir açıklaması değildir, çünkü veri kümeleriyle, değişkenin logaritmasının bir olasılık dağılımı olarak çizildiğinde, birkaç büyüklük mertebesinde nispeten tekdüze olan veri kümeleriyle neden bu kadar sık ​​karşılaşıldığını açıklamamıştır.)

Krieger-Kafri entropi açıklaması

1970 yılında Wolfgang Krieger , şimdi Krieger Jeneratör Teoremi olarak adlandırılan şeyi kanıtladı . Krieger Jeneratör Teoremi, Kafri top-ve-kutu modelinde, sabit sayıda 0, 1, ... n , ..., , n rakamı olan belirli bir tabanda varsayım için bir gerekçe olarak görülebilir. etkileşime girmeyen n tane top içeren bir Kafri kutusuna eşdeğerdir . Bir dizi başka bilim adamı ve istatistikçi, Benford yasası için entropi ile ilgili açıklamalar önerdi.

çarpımsal dalgalanmalar

Benford yasasının birçok gerçek dünya örneği, çarpımsal dalgalanmalardan kaynaklanmaktadır. Örneğin, bir hisse senedi fiyatı 100 dolardan başlıyorsa ve ardından her gün 0,99 ile 1,01 arasında rastgele seçilen bir faktörle çarpılıyorsa, o zaman uzun bir süre boyunca fiyatının olasılık dağılımı Benford yasasını daha yüksek ve daha yüksek doğrulukla karşılar.

Bunun nedeni, hisse senedi fiyatının logaritmasının rastgele bir yürüyüş yapmasıdır , bu nedenle zaman içinde olasılık dağılımı giderek daha geniş ve pürüzsüz hale gelecektir (yukarıya bakınız ). (Daha teknik olarak, merkezi limit teoremi , gitgide daha fazla rasgele değişkeni çarpmanın daha büyük ve daha büyük varyanslı bir log-normal dağılım yaratacağını söyler , bu nedenle sonunda birçok büyüklük derecesini neredeyse tekdüze olarak kapsar.) Benford yasasıyla yaklaşık olarak uyuşmadığından emin olmak için , dağıtım, 10'a kadar herhangi bir faktör tarafından büyütüldüğünde yaklaşık olarak değişmez olmalıdır; Bir lognormally geniş dağılımı ile belirlenen dağıtık veri bu yaklaşık özelliği olurdu.

Çarpımsal dalgalanmalardan farklı olarak, toplamsal dalgalanmalar Benford yasasına yol açmaz: Bunun yerine , Benford yasasını karşılamayan normal olasılık dağılımlarına (yine merkezi limit teoremi ile ) yol açarlar. Örneğin, "belirli bir günde yaşadığım kalp atışlarının sayısı" birçok rastgele değişkenin toplamı olarak yazılabilir (örneğin, günün tüm dakikalarında dakikadaki kalp atışlarının toplamı), bu nedenle bu miktarın takip etmesi olası değildir . Benford yasası. Buna karşılık, yukarıda açıklanan varsayımsal hisse senedi fiyatı , birçok rastgele değişkenin (yani her gün için fiyat değişim faktörü) ürünü olarak yazılabilir , bu nedenle Benford yasasını oldukça iyi takip etmesi muhtemeldir .

Çoklu olasılık dağılımları

Anton Formann arasındaki karşılıklı ilişki dikkat yönlendirerek alternatif bir açıklama dağıtım anlamlı basamak ve dağıtımı gözlenen değişken . Bir simülasyon çalışmasında, bir rastgele değişkenin uzun sağ kuyruklu dağılımlarının Newcomb-Benford yasasıyla uyumlu olduğunu ve iki rastgele değişkenin oranının dağılımları için uyumun genellikle iyileştiğini gösterdi. Belirli dağılımlardan elde edilen sayılar için (IQ puanları, insan boyları) Benford yasası geçerli değildir, çünkü bu değişkenler Benford yasasını karşılamadığı bilinen bir normal dağılıma uyar, çünkü normal dağılımlar birkaç büyüklük derecesini ve mantisleri kapsayamaz . logaritmaları (yaklaşık olarak bile) eşit olarak dağılmayacaktır. Bununla birlikte, örneğin gazete makalelerinden sayılar alarak bu dağılımlardan sayılar "karıştırılırsa", Benford yasası yeniden ortaya çıkar. Bu aynı zamanda matematiksel olarak da kanıtlanabilir: tekrar tekrar "rastgele" bir olasılık dağılımı seçerse (ilişkisiz bir kümeden) ve daha sonra bu dağılıma göre rastgele bir sayı seçerse, ortaya çıkan sayı listesi Benford yasasına uyacaktır. Benford yasasının günlük hayattaki sayılardaki görünümü için benzer bir olasılıksal açıklama, bunun tekdüze dağılımların karışımları göz önüne alındığında doğal olarak ortaya çıktığını göstererek geliştirildi.

değişmezlik

Bir uzunluk listesi varsa, listedeki sayıların ilk hanelerinin dağılımı, tüm uzunlukların metre, yarda, fit veya inç vb. olarak ifade edilip edilmediğine bakılmaksızın genel olarak benzer olabilir. Aynı şey para birimleri için de geçerlidir. .

Bu her zaman böyle değildir . Örneğin, yetişkin insanların boyu metre olarak ölçüldüğünde hemen hemen her zaman 1 veya 2 ile başlar ve fit olarak ölçüldüğünde hemen hemen her zaman 4, 5, 6 veya 7 ile başlar.

Ancak, birçok büyüklük sırasına eşit olarak yayılmış bir uzunluk listesi düşünün. Örneğin, bilimsel makalelerde bahsedilen 1000 uzunluktan oluşan bir liste, moleküllerin, bakterilerin, bitkilerin ve galaksilerin ölçümlerini içerecektir. Tüm bu uzunluklar metre cinsinden yazılırsa veya hepsi fit olarak yazılırsa, ilk rakamların dağılımının iki listede de aynı olmasını beklemek mantıklıdır.

Bir veri kümesinin ilk basamaklarının dağılımının ölçekte değişmez (veya verilerin ifade edildiği birimlerden bağımsız) olduğu bu durumlarda, ilk basamakların dağılımı her zaman Benford yasası tarafından verilir.

Örneğin, bu uzunluk listesindeki ilk (sıfır olmayan) basamak, ölçü birimi fit veya yarda olsun, aynı dağılıma sahip olmalıdır. Ancak bir yarda üç ayak vardır, bu nedenle bir uzunluğun yarda cinsinden ilk basamağının 1 olma olasılığı, bir uzunluğun ilk basamağının fit cinsinden 3, 4 veya 5 olma olasılığıyla aynı olmalıdır; benzer şekilde, bir uzunluğun yarda cinsinden ilk basamağının 2 olma olasılığı, fit cinsinden bir uzunluğun ilk basamağının 6, 7 veya 8 olma olasılığıyla aynı olmalıdır. Bunu tüm olası ölçüm ölçeklerine uygulamak, logaritmik dağılımı verir. Benford yasası.

İlk basamaklar için Benford Yasası , sayı sistemleri için temel değişmezdir. Toplam değişmezlik, ters değişmezlik, toplama ve çıkarma değişmezliğinin koşulları ve kanıtları vardır.

Uygulamalar

Muhasebe sahtekarlığı tespiti

1972'de Hal Varian , yasanın , kamu planlama kararlarını desteklemek için sunulan sosyo-ekonomik veri listelerindeki olası sahtekarlığı tespit etmek için kullanılabileceğini öne sürdü . Rakamlar üreten insanların rakamlarını oldukça düzgün bir şekilde dağıtma eğiliminde olduklarına dair makul varsayıma dayanarak, verilerden elde edilen birinci basamak frekans dağılımının Benford yasasına göre beklenen dağılımla basit bir karşılaştırması herhangi bir anormal sonuç göstermelidir.

ceza davalarında kullanın

Amerika Birleşik Devletleri'nde, federal, eyalet ve yerel düzeylerdeki ceza davalarında Benford yasasına dayalı kanıtlar kabul edilmiştir.

Seçim verileri

Michigan Üniversitesi'nde siyaset bilimci ve istatistikçi olan Walter Mebane , ikinci basamaklı Benford yasa testini (2BL testi) seçim adli tıp alanında ilk uygulayan kişi oldu . Bu tür analizler, seçim sonuçlarındaki usulsüzlükleri tespit etmek ve seçim sahtekarlığını tespit etmeye yardımcı olmak için kusursuz olmasa da basit bir yöntem olarak kabul edilir . Siyaset bilimciler Joseph Deckert, Mikhail Myagkov ve Peter C. Ordeshook tarafından 2011 yılında yapılan bir araştırma , Benford yasasının sorunlu ve seçim sahtekarlığının istatistiksel bir göstergesi olarak yanıltıcı olduğunu savundu. Yöntemleri bir yanıt olarak Mebane tarafından eleştirildi, ancak Benford yasasının seçim verilerine uygulanmasına ilişkin birçok uyarı olduğunu kabul etti.

Benford'un yasası dolandırıcılık delil olarak kullanılmıştır içinde 2009 İran seçimlerinden . Mebane tarafından yapılan bir analiz , seçimin galibi olan Cumhurbaşkanı Mahmud Ahmedinejad'ın oy sayımlarındaki ikinci hanelerin Benford yasasının beklentilerinden önemli ölçüde farklı olma eğiliminde olduğunu ve çok az sayıda geçersiz oy içeren sandıkların seçimler üzerinde daha büyük bir etkiye sahip olduğunu buldu. yaygın oy pusulası doldurma düşündüren sonuçlar . Başka bir çalışmada kullanılan önyükleme aday bulmak için simülasyonlar Mehdi Kerrubi bir analiz ederken, hane 7 Benford'un kanuna göre beklenir gibi ile başlayan birçok oyun önemli neredeyse iki alınan Columbia Üniversitesi'nden olasılık adil bir seçim hem üreteceği sonucuna varmıştır çok az sayıda bitişik olmayan rakam ve 2009 İran cumhurbaşkanlığı seçimlerinde olduğu gibi son rakam frekanslarındaki şüpheli sapmalar yüzde 0,5'ten azdır. Benford yasası ayrıca 2003 Kaliforniya valilik seçimleri , 2000 ve 2004 Amerika Birleşik Devletleri başkanlık seçimleri ve 2009 Almanya federal seçimlerinden elde edilen veriler üzerinde adli denetim ve sahtekarlık tespiti için de uygulanmıştır ; Benford'un Hukuk Testi, "birçok oyu önemli ölçüde etkilediğini bildiğimiz çarpıtmalara duyarlı olmasa da", "dolandırıcılık için istatistiksel bir test olarak ciddiye alınmaya değer" bulundu.

Benford yasası da seçim sahtekarlığı iddiasında yanlış uygulandı. Yasayı Joe Biden'ın 2020 Amerika Birleşik Devletleri başkanlık seçimlerinde Chicago , Milwaukee ve diğer yerleşim yerlerindeki seçim iadelerine uygularken, ilk hanenin dağılımı Benford'un yasasına uymuyordu. Yanlış uygulama, aralıkta sıkı sıkıya bağlı verilere bakmanın bir sonucuydu; bu, Benford'un yasasında bulunan veri aralığının geniş olduğu varsayımını ihlal ediyor. Mebane'ye göre, "Seçim oylarının ilk hanelerinin seçim hilelerini teşhis etmeye çalışmak için yararlı olmadığı yaygın olarak biliniyor."

makroekonomik veriler

Benzer şekilde, Yunan hükümetinin avro bölgesine girmeden önce Avrupa Birliği'ne bildirdiği makroekonomik verilerin , ülkenin katılmasından yıllar sonra da olsa, Benford yasasını kullanarak muhtemelen sahte olduğu gösterildi.

Fiyat hanesi analizi

Benford yasası, fiyat basamaklarının araştırılması için bir kriter olarak, fiyatlandırma araştırması bağlamına başarılı bir şekilde dahil edilmiştir. Fiyatlardaki usulsüzlükleri tespit etmek için bu kriterin önemi ilk olarak, fiyat ayarlamaları için euro'nun piyasaya sürülmesinden önce ve sonra tüketici fiyat rakamlarını araştıran Avrupa çapında bir çalışmada gösterildi. 2002'de çeşitli döviz kurlarıyla euro'nun piyasaya sürülmesi, gerçek fiyatları korurken aynı zamanda mevcut nominal fiyat modellerini bozdu. Nominal fiyatların ilk haneleri Benford yasasına göre dağıtılırken, çalışma, nominal piyasa fiyatlarındaki ikinci ve üçüncü haneler için bu kıyaslamadan net bir sapma gösterdi ve euroya geçişin nominal şokundan sonra psikolojik fiyatlandırmaya yönelik net bir eğilim gösterdi.

genom verileri

Açık okuma çerçevelerinin sayısı ve bunların genom boyutuyla ilişkisi, ökaryotlar ve prokaryotlar arasında farklılık gösterir ; birincisi log-doğrusal bir ilişki, ikincisi ise doğrusal bir ilişki gösterir. Benford yasası, her iki durumda da verilere mükemmel bir uyumla bu gözlemi test etmek için kullanılmıştır.

Bilimsel dolandırıcılık tespiti

Yayınlanmış makalelerdeki bir regresyon katsayıları testi, Benford yasasıyla uyum gösterdi. Bir karşılaştırma grubu olarak deneklerden istatistiksel tahminler üretmeleri istendi. Üretilen sonuçlar, Benford'un ilk haneler yasasına uygundu, ancak Benford'un ikinci haneler yasasına uymadı.

istatistiksel testler

Ki-kare testi , Benford yasasına uygunluğu test etmek için kullanılmış olmasına rağmen, küçük örneklerle kullanıldığında istatistiksel gücü düşüktür.

Kolmogorov-Smirnov testi ve Kuiper testi numune boyutu Stephens düzeltici bir faktör kullanıldığında özellikle küçük olduğu zaman, daha güçlüdür. Bu testler, ayrık dağılımlara uygulandığında aşırı derecede tutucu olabilir. Benford testi için değerler Morrow tarafından oluşturulmuştur. Test istatistiklerinin kritik değerleri aşağıda gösterilmiştir:

α
Ölçek
0.10 0.05 0.01
Kuiper 1.191 1.321 1.579
Kolmogorov-Smirnov 1.012 1.148 1.420

Bu kritik değerler, verilen önem düzeylerinde Benford yasasına uygunluk hipotezini reddetmek için gereken minimum test istatistik değerlerini sağlar .

Bu yasaya özel iki alternatif test yayınlanmıştır: ilk olarak max ( m ) istatistiği ile verilir.

ve ikinci olarak, mesafe ( d ) istatistiği şu şekilde verilir:

burada FSD ilk anlamlı basamaktır ve N örnek boyutudur. Morrow, her iki istatistik için de aşağıda gösterilen kritik değerleri belirlemiştir:

istatistik
0.10 0.05 0.01
Leemis en m 0.851 0.967 1.212
Cho–Gaines'in d'si 1.212 1.330 1.569

Morrow ayrıca, herhangi bir rastgele değişken X için (sürekli bir pdf ile) standart sapmasına ( σ ) bölünen bir A değerinin , rastgele değişkenin ilk anlamlı basamağının (x/σ) A , Benford yasasından ε > 0'dan daha az farklı olacaktır . A'nın değeri, ε değerine ve rastgele değişkenin dağılımına bağlıdır .

Önyükleme ve regresyona dayalı bir muhasebe sahtekarlığı tespiti yöntemi önerilmiştir.

Amaç, anlaşmazlık yerine Benford yasası ile anlaşma yapmaksa, yukarıda belirtilen uyum iyiliği testleri uygun değildir. Bu durumda denklik için özel testler uygulanmalıdır. Olasılık kütle fonksiyonları arasındaki bir mesafe (örneğin toplam varyasyon mesafesi veya olağan Öklid mesafesi) yeterince küçükse, ampirik bir dağılıma Benford yasasına eşdeğer denir. Benford yasasına uygulama ile bu test yöntemi Ostrovski'de (2017) açıklanmıştır.

Uygulanabilirlik aralığı

Benford yasasına uyduğu bilinen dağılımlar

Bazı iyi bilinen sonsuz tamsayı dizileri, kanıtlanabilir bir şekilde Benford yasasını tam olarak karşılamaktadır ( dizinin gittikçe daha fazla terimi dahil edildiğinden asimptotik limitte ). Bunlar arasında Fibonacci sayıları , faktöriyeller , 2'nin kuvvetleri ve hemen hemen tüm diğer sayıların kuvvetleri bulunur .

Benzer şekilde, bazı sürekli süreçler Benford yasasını tam olarak karşılar (süreç zaman içinde devam ederken asimptotik sınırda). Biri üstel bir büyüme veya azalma sürecidir: Eğer bir miktar zaman içinde üssel olarak artıyor veya azalıyorsa, o zaman her bir ilk basamağa sahip olduğu zamanın yüzdesi Benford yasasını asimptotik olarak karşılar (yani süreç zaman içinde devam ettikçe artan doğruluk).

Benford yasasına uymadığı bilinen dağıtımlar

Karekök ve tanıma değerleri ardışık doğal sayıların bu kanunu itaat yoktur. Kuzey Amerika'daki yerel telefon numaralarının listesi (7 haneli uzunluk) Benford yasasını ihlal eder, çünkü 1 rakamının uzun mesafe önekiyle başlamalarına izin verilmez . 1960 ve 1970 nüfus sayımlarına göre beş ABD eyaletinden en az 2500 kişi, burada sadece %19'u rakam 1 ile başladı, ancak %20'si rakam 2 ile başladı, çünkü 2500'de kısaltma istatistiksel yanlılık getiriyor. Patoloji raporlarındaki son rakamlar, yuvarlama nedeniyle Benford yasasını ihlal ediyor.

Birkaç büyüklük sırasını kapsamayan dağılımlar Benford yasasına uymaz. Örnekler boy, kilo ve IQ puanlarını içerir.

Benford yasasına uyması beklenen ve beklenmeyen dağılımlar için kriterler

Benford yasasının uygulanmasının beklenebileceği durumlarda, özellikle muhasebe verilerine uygulanabilir bir dizi kriter önerilmiştir.

Benford yasasına uyması beklenebilecek dağılımlar
  • Ortalama, medyandan büyük olduğunda ve çarpıklık pozitif olduğunda
  • Sayıların matematiksel birleşiminden elde edilen sayılar: örneğin miktar × fiyat
  • İşlem seviyesi verileri: örneğin ödemeler, satışlar
Benford yasasına uyması beklenmeyen dağılımlar
  • Numaraların sıralı olarak atandığı yerler: örneğin çek numaraları, fatura numaraları
  • Rakamların insan düşüncesinden etkilendiği yerler: örneğin psikolojik eşikler tarafından belirlenen fiyatlar (1,99$)
  • Çok sayıda firmaya özel numaraya sahip hesaplar: ör. 100$'lık geri ödeme kaydetmek üzere ayarlanmış hesaplar
  • Yerleşik minimum veya maksimum olan hesaplar
  • Sayıların büyüklük sırasını yaymayan dağılımlar.

Benford Yasası uyum teoremi

Matematiksel olarak, test edilen dağıtım "Benford Yasası Uyum Teoremi"ne uyuyorsa Benford yasası geçerlidir. Türetme, olasılık yoğunluk fonksiyonunun logaritmasının Fourier dönüşümünün tüm tamsayı değerleri için sıfır olması durumunda Benford yasasının takip edildiğini söylüyor. En önemlisi, n≥1 için Fourier dönüşümü sıfır (veya ihmal edilebilir) ise bu sağlanır. Bu, dağılım genişse sağlanır (çünkü geniş dağılım küçük bir Fourier dönüşümü anlamına gelir). Smith şöyle özetler (s. 716):

“Benford yasasını, logaritmik ölçek boyunca birim mesafeye kıyasla geniş dağılımlar takip eder. Aynı şekilde, yasaya, birim mesafeye göre dar olan dağılımlar da uymuyor…. “Log eksenindeki birim uzaklığa kıyasla dağılım genişse, incelenen sayı kümesindeki yayılım ondan çok daha büyük demektir.”

Kısacası, Benford yasası, ölçülmekte olan dağılımdaki sayıların en azından bir büyüklük sırasına yayılmış olmasını gerektirir.

Ortak dağılımlara sahip testler

Benford yasası, tek tip dağılım , üstel dağılım , normal dağılım ve diğerleri dahil olmak üzere bir dizi önemli dağılım tarafından üretilen sayılara (10. basamağa kadar) karşı ampirik olarak test edildi .

Tekdüze dağılım, beklenebileceği gibi, Benford yasasına uymuyor. Buna karşılık, iki tekdüze dağılımın oran dağılımı , Benford yasası ile iyi tanımlanmıştır.

İki normal dağılımın ( Cauchy dağılımı ) ne normal dağılımı ne de oran dağılımı Benford yasasına uymaz. Her ne kadar yarım normal dağılım Benford'un yasasını uymayanlar, iki yarım Normal dağılımlar oranı dağılımı yapar. Ne sağa-kesik normal dağılım ne de iki sağa-kesik normal dağılımın oran dağılımı Benford kanunu tarafından iyi tanımlanmamıştır. Bu dağılım daha büyük sayılara göre ağırlıklandırıldığı için bu şaşırtıcı değildir.

Benford yasası ayrıca iki üstel dağılımın üstel dağılımını ve oran dağılımını da iyi tanımlar. Ki-kare dağılımının uyumu, df = 1 ile iyi uyum ve df arttıkça azalan uyum ile serbestlik derecelerine (df) bağlıdır . F -Dağıtım serbestlik düşük dereceleri için de takılmıştır. Artan dfs ile uyum azalır, ancak ki-kare dağılımından çok daha yavaştır. Log-normal dağılımın uyumu, dağılımın ortalamasına ve varyansına bağlıdır . Varyans, uyum üzerinde ortalamadan çok daha büyük bir etkiye sahiptir. Her iki parametrenin daha büyük değerleri kanunla daha iyi uyum sağlar. İki log normal dağılımın oranı bir log normal olduğundan bu dağılım incelenmemiştir.

İncelenen diğer dağılımlar arasında Muth dağılımı , Gompertz dağılımı , Weibull dağılımı , gama dağılımı , log-lojistik dağıtım ve üstel güç dağılımı yer almaktadır ve bunların tümü kanunla makul bir uyum göstermektedir. Gumbel dağılımı - Rastgele değişkenin değerini artırarak bir yoğunluk artar - Bu yasa ile anlaşma göstermez.

Birincinin ötesindeki rakamlara genelleme

Benford yasasını karşılayan bir dağılım için bir sayının n rakamıyla başlama olasılığının log-log grafiği . Noktalar tam formülü gösterir, P(n)=log 10 (1+1/n). Grafik , log-log ölçeğinde eğim -1 ile (1, log 10  e ) içinden geçen kesikli asimptota doğru eğilim gösterir . Sarı renkli örnek, bir sayının 314 ile başlama olasılığının 0,00138 civarında olduğunu göstermektedir. Noktalı çizgiler, karşılaştırma için tek tip dağılım olasılıklarını gösterir. In SVG resmi, bir nokta üzerine vurgulu değerlerini göstermek için.

Yasayı birincinin ötesindeki rakamlara genişletmek mümkündür. Özellikle, verilen herhangi bir basamak sayısı için , o uzunluktaki n basamak dizisiyle başlayan bir sayıyla karşılaşma olasılığı - baştaki sıfırlar atılırsa - şu şekilde verilir:

Örneğin, bir sayının 3, 1, 4 rakamlarıyla başlama olasılığı, sağdaki şekilde olduğu gibi log 10 (1 + 1/314) ≈ 0,00138'dir . Bunu karşılayan sayılar arasında 3.14159..., 314285.7... ve 0.00314465... bulunur.

Bu sonuç, belirli bir rakamın bir sayı içinde belirli bir konumda meydana gelme olasılığını bulmak için kullanılabilir. Örneğin, ikinci basamak olarak bir "2" ile karşılaşılma olasılığı

Ve n -inci ( n  > 1) basamak olarak d ( d  = 0, 1, ..., 9) ile karşılaşılma olasılığı

Dağılımı , n -inci basamak olarak , n , aşağıda gösterildiği gibi artar, hızlı bir şekilde, on, her basamak için% 10 olan bir düzgün dağılımını yaklaşır. '0' dördüncü basamakta zamanın %10.0176'sında, '9' ise zamanın %9.9824'ünde göründüğünden, dört basamak genellikle %10'luk tek tip bir dağılım varsaymak için yeterlidir.

Hane 0 1 2 3 4 5 6 7 8 9
1 inci Yok %30,1 %17.6 %12,5 %9,7 %7,9 %6.7 %5,8 %5,1 %4,6
2. %12.0 %11,4 %10,9 %10,4 10.0 % %9,7 %9,3 %9.0 %8,8 %8.5
3 üncü %10,2 %10,1 %10,1 %10,1 10.0 % 10.0 % %9,9 %9,9 %9,9 %9,8

anlar

Bu yasaya göre 1'den 9'a kadar olan rakamlar için rastgele değişkenlerin ortalamaları ve momentleri hesaplanmıştır:

Benford yasasına göre iki basamaklı dağılım için şu değerler de bilinir:

Benford yasasına göre ilk iki hanenin ortak oluşumu için kesin olasılıkların bir tablosu ve birinci ve ikinci haneler arasındaki popülasyon korelasyonu mevcuttur: ρ = 0.0561 .

popüler kültürde

Son yıllarda Benford yasası kavramı, aşağıdakiler de dahil olmak üzere bazı popüler eğlencelerde bir komplo aracı olarak kullanılmak üzere yeterince iyi bilinir hale geldi:

  • Benford yasası, televizyon suç draması NUMB3RS'nin "The Running Man" bölümünde (2006) bir dizi yüksek hırsızlığın çözülmesine yardımcı olmak için kullanıldı .
  • Benford yasası, 2016 tarihli The Accountant filminde bir robotik şirketinden para çalındığını ortaya çıkarmak için kullanılıyor .
  • Benford'un yasası kartel üyenin mali tablolarını analiz etmek ve bunun içinde dolandırıldığı koyulduğunu tespit etmek için kullanılır Netflix serisi Ozark .
  • Benford yasası, Jeremy Robinson'ın Infinite 2 adlı romanında karakterlerin bir simülasyonda mı yoksa gerçeklikte mi olduğunu test etmek için kullanılıyor .

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar