- Science

ena
- 공개여부
- 작성일
- 2017.9.20
[바이오토픽]
P값 하향조정 요구에 반발하는 과학자들: 일률적인 문턱값은 안 된다

연구자들은 "하나의 발견을 '유의하다'고 불러야 할 때가 언제인가"라는 문제를 놓고 다투고 있다. 지난 7월, 한 무리의 연구자들은 P값을 겨냥하며(참고 1), "유명하지만 공개적으로 비난받고 있는 통계량에 대한 문턱값을 낮추라"고 요구했다. 이에 대응하여, 또 다른 연구자들은 9월 18일 발표한 논문에서(참고 2), "임의적 문턱값(arbitrary threshold)을 새로 들이대는 것보다, 학자들로 하여금 특이적 P값(specific P value) 사용의 정당성을 입증하도록 요구하는 게 더 좋은 방법이다"라고 주장했다.
P값은 지난 수십 년 동안 유의성(significance)의 척도로 사용되어 왔지만, 학계에서는 그 단점과 남용의 가능성을 점점 더 의식해 왔다(참고 3). 심지어 2015년에는 한 심리학 저널이 P값을 완전히 금지하기에 이르렀다(참고 4).
P값은 영가설(null hypothesis)을 검증하는 데 사용되며, 영가설이란 '측정된 현상들 사이에 관련성이 전혀 없음'을 상정하는 초기상태(default state)를 말한다. P값이 낮으면 낮을수록 결과는 우연 때문일 가능성이 높으므로, 영가설이 참이라고 추정하게 된다. 지금껏 P값이 0.05 미만일 때 결과는 '통계적으로 유의'하다고 여겨져, 영가설을 기각하는 계 통례였다.
지금은 《Nature Human Behaviour》에 출판되었지만 지난 7월 출판전 서버에 업로드된 논문에서(참고 5), '재현성 향상 운동'의 지도자들이 포함된 연구자들은 "사회과학과 생의학 문헌에 위양성(false positive)이 슬그머니 끼어드는 것을 막기 위해, P값을 0.005로 낮춰야 한다"고 요구했었다.
그러나 이번에 《PsyArXiv》 출판전 서버에 업로드된 논문에서, 네덜란드 아인트호벤 공과대학의 다니엘 라컨스 박사(실험심리학)가 이끄는 연구자들은 "하나의 문턱값을 모든 과학에 일률적으로 적용하는 것은 너무 극단적이다"라고 맞대응했다. 그리고는 다음과 같이 덧붙였다. "우리가 연구자들에게 '당신이 하고 있는 일의 정당성을 입증하라'고 요구하는 순간 과학은 향상된다."
의도하지 않은 결과
일부 연구자들은 "P값의 컷오프를 낮추면 파일서랍 문제(file-drawer problem)가 악화된다"고 우려하고 있다. 파일서랍 문제란 부정적 결과가 포함된 연구가 출판되지 않는 경향을 말한다. 또한 까다로운 P 문턱값은 위음성(false negative)의 가능성을 높여, 사실은 효과가 있는데도 없다고 주장하는 경우가 많아지게 된다. "어떤 정책을 시행할 때, 당신은 의도치 않은 부정적 결과가 발생하지 않을 거라고 확신하고 싶을 것이다"라고 라컨스 박사는 말했다.
이번 논문에서 라컨스 박사와 동료들이 제시한 대안은 다음과 같다. "연구자들은 모든 데이터를 수집하기에 앞서서, 자신의 실험에 대한 P값을 선택하여 정당화해야 한다. P값의 수준은 '발견의 잠재적 영향력' 또는 '발견의 의외성' 등의 요인들을 고려하여 결정될 것이다. 그 다음으로, 그러한 문턱값은 등록된 보고서를 통해 평가될 수 있다. 그것은 일종의 과학논문으로, 모든 실험 방법과 분석기법들이 그 논문에 대한 동료평가를 통해 사전에 검증된다."
이에 대해, 지난 7월 논문의 공저자인 텍사스 A&M 대학교의 밸런 존슨 박사(통계학)는 다음과 같이 반박했다. "'좀 더 까다로운 문턱값이 필요하다'고 말해서 득이 될 거라고 생각하는 연구자는 아무도 없을 것이다. 또 한 명의 공저자인 UCLA의 대니얼 벤저민 박사(행동경제학)는 이렇게 말했다. "많은 과학자들은 자신의 연구에 대해서만은 관대함을 베풀어, 쉽게 쉽게 가려고 할 것이다."
그러나 라컨스 박사의 입장은 단호하다. '연구자들이 내세우는 정당화의 이유를 살펴보면, P값을 조작하려는 어떠한 시도도 백일하에 드러날 것'이라는 게 그의 생각이다. "모든 사람들이 '0.05를 맹목적으로 사용하는 관행을 바꿔야 한다'는 주장에 동의한다는 건 분명한 사실이다. 그렇다면 문턱값을 일률적으로 하향조정하는 대신, 실험의 성격에 따라 특이적 문턱값을 인정하는 것도 한 가지 방법이 될 수 있다"라고 그는 말했다.
그렇다면 미국통계학회(ASA: American Statistical Association)의 입장은 어떨까? "특이적 문턱값을 증거에 대한 기준으로 삼는 것은 과학에 해롭다"라고 미국통계학회의 로널드 바서스타인 회장은 말했다. 그는 작년에 ASA의 177년 역사상 처음으로 P값의 사용에 대한 명백한 권고안을 발표하는 강수를 뒀던 인물이다(참고 6). 다음 달 미국통계학회에서는 작년에 발표한 권고안을 기반으로, 통계적 추론에 대한 심포지엄(symposium on statistical inference)을 개최할 예정이다(참고 7).
"나는 현재 진행되고 있는 P 문턱값에 대한 논쟁에서 뚜렷한 입장을 아직 정하지 않았다. 그러나 '하나의 매직 넘버가 없다'는 말에 놀랄 내가 아니다"라고 바서스타인은 말했다.
※ 참고문헌
1. https://www.nature.com/articles/d41586-017-02190-5 (한글번역 http://www.ibric.org/myboard/read.php?Board=news&id=285403)
2. Lakens, D. et al., “Justify Your Alpha: A Response to “Redefine Statistical Significance”, (2017); https://psyarxiv.com/9s3y6
3. http://www.nature.com/news/scientific-method-statistical-errors-1.14700
4. http://www.nature.com/news/psychology-journal-bans-p-values-1.17001
5. Benjamin, D. J. et al., “Redefine statistical significance”, Nature Hum. Behav. (2017); http://dx.doi.org/10.1038/s41562-017-0189-z
6. http://www.nature.com/news/statisticians-issue-warning-over-misuse-of-p-values-1.19503 (한글번역 http://www.ibric.org/myboard/read.php?Board=news&id=270293)
7. http://ww2.amstat.org/meetings/ssi/2017/index.cfm
※ 출처: Nature http://www.nature.com/news/one-size-fits-all-threshold-for-p-values-under-fire-1.22625
- 좋아요
- 6
- 댓글
- 0
- 작성일
- 2023.04.26
댓글 0
댓글이 없습니다.
첫 번째 댓글을 남겨보세요.