데이터분석 민감도 특이도 그리고 진단키트
평가 지표 정의
코로나 진단키트 이야기를 하다가 민감도 특이도 이야기가 나왔다. 매번 헷갈리던 내용이라 다시 찾아봤다.
평가 지표 해석
위의 표는 다음과 같이 해석하면 된다.
- “Disease”의 구분이 정답값
- ”+”: 실제 Positive
- ”-“: 실제 Negative
- “Test”의 구분은 예측값
- ”+”: 예측 Positive
- ”-“: 예측 Negative
그러므로 민감도(Sensitivity)와 특이도(Specificity)는 다음과 같은 의미다.
- 민감도: 실제 Positive Set 중에서 예측을 Positive로 잘 한 비율
- 특이도: 실제 Negative Set 중에서 예측을 Negative로 잘 한 비율
진단키트 사례
그렇다면 진단키트는 어떤 지표가 중요할까?
- 감염병 전파를 막기위한 보수적 스탠스라면, 양성인 사람을 하나라도 놓치면 안 된다.
- 그러므로 민감도가 100%에 가까워야 한다.
정확도(Accuracy)는 왜 사례에 어울리지 않을까?
- 정확도는 Positive, Negative를 구분하지 않고 정답을 많이 맞출수록 값이 커진다.
- 그러므로 정확도는 양성인 사람을 조금 놓치더라도 음성인 사람을 잘 맞추기만 하면 좋게 나타날 수 있다.
- 진단키트는 음성이 양성으로 나오더라도 양성을 음성으로 판단하는 케이스가 적어야 함
실제 활용 사례
이제 다음과 같은 기사가 눈에 보인다 ㅎㅎ