벤포드의 법칙
이 항목의 스프링노트 원문주소
개요
- 수로 구성된 많은 데이터에서, 첫째 자리에 오는 숫자가 고르게 분포되어 있지 않은 현상
-
다음과 같은 가정들로 설명됨.
- 단위불변성(scale invariance)
- base-invariance
발견
-
미국의 수학자이자 천문학자인 사이먼 뉴컴(Simon Newcomb)은, 다른 사람과 함께 쓰던 로그책에서 책의 앞부분이 훨씬 낡아 있는 것을 발견
-
로그표는 수가 커지는 순서대로 배열되어 있다. 그러므로 위 결과는, 실제 계산에서는 맨 앞자리수가 큰 숫자보다, 맨 앞자리수가 작은 수가 더 많이 쓰인다는 사실을 말해 준다.
-
통상의 계산에서, 계산량이 많아지면 모든 크기의 수가 고르게 사용될텐데, 왜 이 수들의 최대 유효숫자는 이렇지 않을까?
-
뉴컴은 다음과 같은 경험법칙을 얻는다.
-
첫 유효숫자
로 시작하는 수의 비율은, (10진법에서) 1/9 가 아니라
와 같이 나타난다
-
-
이 사실을 그는 American Journal of Mathematics 에 간략하게 실었으나, 수학적 분석이 없었으므로 별 주목을 받지 못했음. (1881)
| 직관적 확률 | 경험적 확률 | |
|---|---|---|
[2]
1938 년 미국 GE 의 물리학자 프랭크 벤포드(Frank Benford)가, 위의 뉴컴(Newcomb이 발견한 것과 정확히 같은 양상 - 즉 곧 첫 유효숫자의 분포는 와 같이 나타난다 - 을 재발견했다.
벤포드는 경험적 검증을 위해, 강의 넓이, 사망률, 야구 통계 등 전혀 무관한 임의의 20000 여개의 숫자들를 분석했다. 결과는 경험 법칙을 지지하는 방향으로 나타났다. (출처 필요)
[3]
많은 숫자의 나열이 벤포드 법칙을 따르지는 않는다. 극도로 임의적이거나, 정규분포나 균일 분포를 따르는 숫자의 나열이 그러하다.
자료가 벤포드 법칙을 따르려면 꼭 들어맞는 구조를 갖추어야 할 것으로 보인다.
어떤 분포를 임의로 골라서, 이 분포들에서 임의로 자료를 모으면, 각 분포들 자체는 그렇지 않더라도, 이렇게 결합된 자료는 벤포드 법칙을 따른다는 것을 1996년 힐이 보였다. (출처 필요)
[4]
단위 불변성은 벤포드 법칙을 함축한다.
단위불변성은, 임의의 환산 인자 를 곱했을 때도 자료에 남아 있는 성질이다.
관찰
고르게 선택된 숫자들에 2를 곱한 자료를 생각해 보자.
| [1, 1.5) | 2 |
| [1.5, 2) | 3 |
| [2, 2.5) | 4 |
| [2.5, 3) | 5 |
| [3, 3.5) | 6 |
| [3.5, 4) | 7 |
| [4, 4.5) | 8 |
| [4.5, 5) | 9 |
| [5, 10) | 1 |
위를 보면 알 수 있듯이, 첫 유효숫자의 분포는 고르지 않다. 첫자리에 1 이 올 확률은 나머지 2~9 가 올 확률의 합과 같다.
여기에서, 고르게 선택된 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.
단위불변성(scale invariance)
- 측정의 단위가 변해도, 분포가 변하지 않는 것을 일컫는다.
- 확률변수
에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성(Scale invariance)을 가진다고 하자.
정리
단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다.
(증명)
확률변수 에 대한 확률밀도함수
를,
와 같이 정의하고, 누적밀도함수
를
와 같이 정의하자.
그렇다면 확률변수 는
와 같은 성질을 만족한다. 여기서
는 고정된 상수이고,
는 변수,
는 환산인자이다.
그러므로, 우리는 를 얻고, 미분하면
를 얻는다.
확률변수 에 대해, 다시 확률변수
를 정의하자. 그리고
에 대해,
와
를 위의 확률변수
에서와 같이 정의하자.
그러면 이므로,
이다. 여기에서
를 얻고, 따라서 조금 정리하면
를 얻을 수 있다
에서,
이므로, 결국
는 상수함수임을 알 수 있다. ■
단위불변성을 통한 벤포드 법칙의 유도
여기에서 벤포드 법칙을 이끌어낼 수 있다.
수 의 맨 왼쪽 수를
라 하자. 환산 인자를
에 곱할 때마다 첫 유효 숫자는 법 10 에서 변한다.
로그의 밑 를
으로 삼으면,
는
에서, 상수 1 의 확률밀도함수를 가질 것이다.
그러므로 단위불변성을 가정하면, 에 대해
를 얻고, 이것은 벤포드 법칙과 같다.
여기에서, 단위불변성을 가지는 자료는 벤포드 법칙을 만족함을 알 수 있다.
더 일반적인 significant digit law
-
동일한 접근 방식으로 둘째 유효숫자에 대한 분석을 할 수도 있다. 둘째 유효숫자에서 가장 많이 나타나는 수는 0 인데, 빈도는 11.97% 정도 된다.
-
참고할만한 자료의 Base-invariance implies Benford's law 참조.
-
벤포드 법칙의 응용
-
여러 회계 자료들도 벤포드 법칙을 잘 따른다. 이것을 이용하여, 벤포드 법칙을 통해 숫자들의 패턴을 분석해서, 숫자 조작, 사기, 오류, 자료에 내재된 편견 등을 검증할수는 방법도 제안되었다.
-
Nigrini의 논문 참조.
-
-
알파 붕괴의 반감기는 이론과 관측에서 벤포드 법칙을 따른다는 것이 확인되었다.
거듭제곱과 벤포드 법칙
-
2부터, 2의 제곱, 2의 세제곱, …, 2의 100000제곱까지, 100000의 숫자에 대해 따져보면, 첫째 자리수가 {1,2,3,4,5,6,7,8,9} 인 숫자는 각각 {30103, 17610, 12493, 9691, 7919, 6695, 5797, 5116, 4576} (확인필요) 개씩 있다.
-
2의 거듭제곱뿐 아니라, 대부분의 경우에도 성립.(10의 거듭제곱과 같은 경우는 제외)
-
여기서 사용하는
는 상용로그임
-
가령 여섯자리수인 2의 거듭제곱의 첫째자리가 1인 경우는 자연수n에 대한 다음 부등식을 풀면 얻어진다
-
마찬가지 방법으로 여섯자리수인 2의 거듭제곱의 첫째자리수가 p인 경우는 다음 부등식을 풀면 얻을 수 있다.
-
여섯자리수인 2의 거듭제곱의 첫째자리수가 p의 경우는 길이가
인 구간에 있는 자연수의 개수라고 생각할 수 있음.
-
따라서 여섯자리수인 2의 거듭제곱 중에서 첫째자리수가 p의 비율은 다음과 같음.
-
여섯자리수뿐 아니라 더 일반적인 경우에도 첫째자리가 p의 경우에도 그 비율은 위와 똑같다는 것을 알 수 있음.
-
따라서 2의 거듭제곱의 첫째자리수는 벤포드의 법칙을 따르게 됨.
-
2의 거듭제곱뿐 아니라 일반적인 수
의 거듭제곱
가 무리수이면 벤포드의 법칙을 따르게 됨.
피보나치 수열과 벤포드의 법칙
-
피보나치 수열도 벤포드 법칙을 따름
-
일반항은 다음과 같이 주어짐 (피보나치 수열의 여러가지 성질 참조)
-
따라서 n번째 피보나치 수열은 근사적으로
와 같으므로, 그 첫째자리의 분포 역시 등비수열과 마찬가지로 설명됨.
-
http://www.mcs.surrey.ac.uk/Personal/R.Knott/Fibonacci/fibmaths.html#msds
-
http://www.mcs.surrey.ac.uk/Personal/R.Knott/Fibonacci/fibCalcX.html
Initial digit frequencies of fib(i) for i from 1 to 100000: Digit: 1 2 3 4 5 6 7 8 9 Frequency: 30103 17610 12494 9690 7918 6695 5798 5117 4575 100000 values Percent: 30 18 12 10 8 7 6 5 5
-
-
Benford's Law for Fibonacci and Lucas Numbers
-
L. C. Washington
-
The Fibonacci Quarterly vol. 19, 1981, pages 175-177
-
재미있는 사실
-
미드 numb3rs의 두번째 시즌 15번째 에피소드에 등장
-
Mark J. Nigrini 박사의 수학적으로 면밀하진 않지만, 좀 더 쉽게 이해되는 설명
주식시장을 생각해 봅시다. 우리가 1,000로 다우존스 평균을 생각하는 경우에, 우리의 첫번째 자릿수는 1입니다. 첫 번째 자리수가 2가 되려면 평균은 2천이 되야하고 100%가 증가해야합니다.일년에 20%씩 증가한다고 해도 5년이 소요됩니다. 그런데 만약 첫번째 자리가 5라면, 20% 증가라면 6이 되는데 단지 1년이 필요하죠. 9000천 이라면 11% 만으로 다시 첫번째 자리가 1이 됩니다. 다시 10000에서 20000이 되는데는 5년이 필요합니다. 고로 1이 주로 나타나게 됩니다.
역사
- 1881년 사이먼뉴컴
- 1938년 프랭크 벤포드
- 수학사연표
메모
- Kronecker theorem on ergodicity
매스매티카 파일 및 계산 리소스
- https://docs.google.com/file/d/0B8XXo8Tve1cxSFdvZldtajVXaUk/edit
- http://www.wolframalpha.com/input/?i=
- http://functions.wolfram.com/
- NIST Digital Library of Mathematical Functions
- Abramowitz and Stegun Handbook of mathematical functions
- The On-Line Encyclopedia of Integer Sequences
- Numbers, constants and computation
- 매스매티카 파일 목록
관련된 항목들
관련도서
-
The Art of Computer Programming volume 2
- D. E. Knuth
- Seminumerical algorithms, 3rd edition,
- Digital Analysis Using Benford's Law: Tests and Statistics for Auditors
-
도서내검색
-
도서검색
- http://www.amazon.com/s/ref=nb_ss_gw?url=search-alias%3Dstripbooks&field-keywords=
- http://book.daum.net/search/mainSearch.do?query=
-
한 기업의 회계관이 디지털분석법을 사용하여 의료부서의 책임자가 제출한 청구서를 점검한 결과 뭔가 이상한 점을 발견했다. 의료 관련 지출서의 첫 두 유효숫자가 벤포드법칙을 따르는지 조사했더니 65로 시작되는 숫자들이 특별히 높은 값을 보였다. 그래서 6500달러에서 6599달러 사이의 수표들에 대한 회계감사를 실시한 결과, 책임자가 처리한 심장수술 청구서가 허위였으며 그 돈은 책임자가 착복한 것으로 밝혀졌다.
- 14장 로그가 넘치는 세상, 244쪽
리뷰논문, 에세이, 강의노트
관련논문
-
Note on the frequency of use of the different digits in natural numbers
-
- Frank Benford (March 1938)
- Proceedings of the American Philosophical Society 78 (4): 551–572
-
A Statistical Derivation of the Significant-Digit Law
- Theodore P. Hill (1995)
- Statistical Science, Vol. 10, No. 4 (Nov., 1995), pp. 354-363
-
The Significant-Digit Phenomenon
- Theodore P. Hill
- The American Mathematical Monthly, Vol. 102, No. 4, (Apr., 1995), pp. 322–327
-
Base-invariance implies Benford's law
- Theodore P. Hill
- Proc. Amer. Math. Soc., 123:3 (March 1995) 887-895
-
A Simple Explanation of Benford's Law
- R. M. Fewster.
- The American Statistician. February 1, 2009, 63(1): 26-32. doi:10.1198/tast.2009.0005.
-
Breaking the (Benford) law: Statistical fraud detection in campaign finance.
- CHO, W.K.T. - GAINES, B.J
- In AMERICAN STATISTICIAN. ISSN 0003-1305, AUG 2007, vol. 61, no. 3, p. 218-223
-
- R. Matthews, New Scientist, (1999) 26--30. 10 July.
- M. Nigrini, "The detection of income evasion through an analysis of digital distributions," Ph.D. thesis, Dept. of Accounting, Univ. Cincinnati, Cincinnati OH, (1992)
- M. Nigrini, "A taxpayer compliance application of Benford's law," J. Amer. Taxation Assoc., 18 (1996) 72--91.
- R. A. Raimi, "The first digit problem," Amer. Math. Monthly, 83:7 (1976) 521--538. MR 53:14593
- http://people.math.gatech.edu/~hill/publications/BENFORD%20PAPERS/TheFirstDigitPhenomenonAmericanScientist1996.pdf
- http://ko.wikipedia.org/wiki/벤포드법칙
- http://en.wikipedia.org/wiki/Benford's_law
- http://www.wolframalpha.com/input/?i=Benford's+law
관련링크 및 웹페이지
-
- Wolfram Demonstrations Project
관련기사
-
-
과학에서 최초의 발견자와 크레딧 논쟁 사례
-
한겨레, 2008-10-10
-
-
-
문화일보
-
-
네이버 뉴스 검색 (키워드 수정)
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=벤포드법칙
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=확률법칙으로탈세적발한다
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
블로그
-
Benford’s law, Zipf’s law, and the Pareto distribution
- 터렌스 타오, 2009-7-3
History
Last edited on 04/14/2012 09:51 by 피타고라스
Comments (3)
블로그로 내보냈으면 그냥 공개해도 무방할듯
07/08/2009 00:47앗;; 이것은 블로그 발행이 되는지 테스트하기 위한 것이었습니다 ㅜㅜ 내용들을 더 붙여야 하고 손보고 싶어서 그런데, 블로그로 보낸 글은 일단 비공개하거나 삭제하면 안될까요? ;;;
07/08/2009 00:51OK 알겠음. 그런데 뭐 여기 있는 다른 것들과 비교한다면 그냥 공개해도 될것 같은데 ㅋㅋ
07/08/2009 02:26