- 책을 읽으며

ena
- 공개여부
- 작성일
- 2014.6.20
전에 어디엔가 쓴 것 같기도 한 '지프의 법칙'(여기서 지프는 George Kingsley Zipf라는 언어학자의 이름이다)은 이런 것이다.
"지프의 법칙은 어떤 언어에서 가장 많이 쓰이는 단어는 두 번째로 많이 쓰이는 단어보다 대략 두 배 정도 많이 쓰이고, 세 번째로 많이 쓰이는 단어보다 세 배 정도, 백 번째로 많이 쓰이는 단어보다 백 배 정도 많이 쓰인다" (샘 킨, <바이올리니스트의 엄지>, 101쪽)
영어에서 가장 많이 쓰이는 단어는 the인데, 이 the는 대체로 7% 정도 쓰인다고 한다.
그 다음으로 많이 쓰이는 단어는 of인데, 이 단어는 the의 절반 정도, 그 다음인 and는 the의 3분의 1 정도가 쓰인다는 게 바로 지프의 법칙이다.
이 지프의 법칙은 영어뿐만 아니라 다른 언어에서도 거의 동일하게 적용된다는 것도 재미있다(우리말, 한국어에서도 적용되는지 조사해본 사람이 있는지 궁금하다).
그런데, 더 재미있는 것은, 이 지프의 법칙을 DNA에 적용할 수 있다는 것이다. (샘 킨이 이 법칙을 소개한 이유다)
그렇지만 A, C, G, T라고 하는 네 개의 문자(염기)에 적용할 수는 없을 것이고(겨우 네 개인데, 이것의 빈도를 비교해봤자일 것이고, 비교해도 지프의 법칙은 적용되지 않을 게 뻔하다), 연속되는 문자를 가지고 조사를 해봐야할 것이다. 그래서 조사해봤더니 , 바로 12개의 염기로 끊어서 계산해봤을 때 지프의 법칙을 만족하는 것으로 나타났다고 한다.
그래서 샘 킨은 이런 내용을 쓰면서 DNA가 언어처럼 행동한다고 하며 호들갑을 떨고 있다. 사실은 DNA 자체가 인간의 언어보다 수십 억년 먼저 나타난 '언어'인데, 그게 언어처럼 행동한다는 건 앞뒤가 바뀐 얘기인지도 모른다. 그리고 사실 연속되는 염기 몇 개가 지프의 법칙을 만족할 것인지, 왜 조사해봐야하는지, 그 이유를 잘 모르겠다. 역시 12개의 연속되게 끊었을 때 지프의 법칙을 만족한다는 게 무슨 의미를 갖는지는 더더욱 모르겠다.
물론 신기한 일이긴 하다.
- 좋아요
- 6
- 댓글
- 2
- 작성일
- 2023.04.26