ena
  1. 책을 읽으며

이미지

전에 어디엔가 쓴 것 같기도 한 '지프의 법칙'(여기서 지프는 George Kingsley Zipf라는 언어학자의 이름이다)은 이런 것이다. 


"지프의 법칙은 어떤 언어에서 가장 많이 쓰이는 단어는 두 번째로 많이 쓰이는 단어보다 대략 두 배 정도 많이 쓰이고, 세 번째로 많이 쓰이는 단어보다 세 배 정도, 백 번째로 많이 쓰이는 단어보다 백 배 정도 많이 쓰인다" (샘 킨, <바이올리니스트의 엄지>, 101쪽)


영어에서 가장 많이 쓰이는 단어는 the인데, 이 the는 대체로 7% 정도 쓰인다고 한다. 

그 다음으로 많이 쓰이는 단어는 of인데, 이 단어는 the의 절반 정도, 그 다음인 and는 the의 3분의 1 정도가 쓰인다는 게 바로 지프의 법칙이다. 

이 지프의 법칙은 영어뿐만 아니라 다른 언어에서도 거의 동일하게 적용된다는 것도 재미있다(우리말, 한국어에서도 적용되는지 조사해본 사람이 있는지 궁금하다). 


그런데, 더 재미있는 것은, 이 지프의 법칙을 DNA에 적용할 수 있다는 것이다. (샘 킨이 이 법칙을 소개한 이유다)

그렇지만 A, C, G, T라고 하는 네 개의 문자(염기)에 적용할 수는 없을 것이고(겨우 네 개인데, 이것의 빈도를 비교해봤자일 것이고, 비교해도 지프의 법칙은 적용되지 않을 게 뻔하다), 연속되는 문자를 가지고 조사를 해봐야할 것이다. 그래서 조사해봤더니 , 바로 12개의 염기로 끊어서 계산해봤을 때 지프의 법칙을 만족하는 것으로 나타났다고 한다. 

그래서 샘 킨은 이런 내용을 쓰면서 DNA가 언어처럼 행동한다고 하며 호들갑을 떨고 있다. 사실은 DNA 자체가 인간의 언어보다 수십 억년 먼저 나타난 '언어'인데, 그게 언어처럼 행동한다는 건 앞뒤가 바뀐 얘기인지도 모른다. 그리고 사실 연속되는 염기 몇 개가 지프의 법칙을 만족할 것인지, 왜 조사해봐야하는지, 그 이유를 잘 모르겠다. 역시 12개의 연속되게 끊었을 때 지프의 법칙을 만족한다는 게 무슨 의미를 갖는지는 더더욱 모르겠다. 


물론 신기한 일이긴 하다. 


  




< width="100%" src="http://api.v.daum.net/widget1?nid=55202690" frameborder="no" height="90">
좋아요
댓글
2
작성일
2023.04.26

댓글 2

  1. 대표사진

    만병통치약

    작성일
    2014. 6. 20.

  2. 대표사진

    ena

    작성일
    2014. 6. 20.

    @만병통치약

ena님의 최신글

  1. 작성일
    20시간 전

    좋아요
    댓글
    0
    작성일
    20시간 전
    첨부된 사진
    첨부된 사진
    20
  2. 작성일
    2025.6.5

    좋아요
    댓글
    0
    작성일
    2025.6.5
    첨부된 사진
    첨부된 사진
    20
  3. 작성일
    2025.6.4

    좋아요
    댓글
    0
    작성일
    2025.6.4
    첨부된 사진
    첨부된 사진
    20

사락 인기글

  1. 별명
    리뷰어클럽공식계정
    작성일
    2025.6.2
    좋아요
    댓글
    123
    작성일
    2025.6.2
    첨부된 사진
    첨부된 사진
    20
  2. 별명
    리뷰어클럽공식계정
    작성일
    2025.6.5
    좋아요
    댓글
    73
    작성일
    2025.6.5
    첨부된 사진
    첨부된 사진
    20
  3. 별명
    리뷰어클럽공식계정
    작성일
    2025.6.4
    좋아요
    댓글
    52
    작성일
    2025.6.4
    첨부된 사진
    첨부된 사진
    20
예스이십사 ㈜
사업자 정보