proyector en Chile
코헨의 카파 상관관계 적용
따옹
2024. 12. 19. 04:47
라벨링 대상 데이터가 자연어 데이터이고 라벨링 기준 역시 주관적일 수 있으므로 1차 라벨링된 데이터에 관해서 일관성을 평가할 척도가 필요했다.
그래서 알게 된 것이 코헨의 카파 상관관계
코헨의 카파 상관관계
- 우연에 의한 일치를 보정: 단순히 P_o만 계산하면 평가자 간의 일치도가 과대평가될 수 있으므로, P_e를 통해 보정합니다.
- 두 명의 평가자에 적용: 코헨의 카파는 두 명의 평가자에 한정됩니다. 여러 명의 평가자가 있는 경우 **플리크의 카파(Fleiss’ Kappa)**를 사용해야 합니다.
- 이진 및 다중 클래스: 코헨의 카파는 두 클래스(예: "주장", "주장이 아님")뿐 아니라, 여러 개의 라벨(다중 클래스)에도 적용할 수 있습니다.
주장과 뒷받침 각각에 대해 일관성을 따로 계산하려면, 평가자가 "주장"으로 분류한 문장과 "뒷받침"으로 분류한 문장을 각각 별도로 평가해야 합니다. 이 경우 코헨의 카파를 두 그룹으로 나누어 계산할 수 있습니다.
1. 주장 문장의 일관성 계산
"주장"으로 분류된 문장만 따로 비교합니다.
데이터 준비
문장 | 평가자 A | 평가자 B |
문장 1 | 주장 | 주장 |
문장 2 | 주장 | 뒷받침 |
문장 3 | 뒷받침 | 주장 |
문장 4 | 뒷받침 | 뒷받침 |
문장 5 | 주장 | 주장 |
"주장"으로 분류된 경우를 따로 보면:
- 평가자 A가 "주장"으로 분류한 문장: 문장 1, 문장 2, 문장 5
- 평가자 B가 "주장"으로 분류한 문장: 문장 1, 문장 3, 문장 5
혼동 행렬을 작성하면:
평가자 A \ 평가자 B | 주장 (B:주장) | 주장 아님 (B:주장이 아닌 문장) |
주장 (A:주장) | a=2 | b=1 |
주장 아님 (A:주장이 아닌 문장) | c=1 | d=1 |
코헨의 카파 계산
- P_o : 관찰된 일치도(Observed Agreement) 평가자 A와 B가 실제로 일치한 비율
- P_e : 기대된 일치도(Expected Agreement) 우연에 의한 일치 가능성. 평가자 A와 B가 각 라벨을 선택한 확률에 기반해 계
2. 뒷받침 문장의 일관성 계산
"뒷받침"으로 분류된 문장만 따로 비교합니다.
데이터 준비
문장 | 평가자 A | 평가자 B |
문장 1 | 주장 | 주장 |
문장 2 | 주장 | 뒷받침 |
문장 3 | 뒷받침 | 주장 |
문장 4 | 뒷받침 | 뒷받침 |
문장 5 | 주장 | 주장 |
"뒷받침"으로 분류된 경우를 따로 보면:
- 평가자 A가 "뒷받침"으로 분류한 문장: 문장 3, 문장 4
- 평가자 B가 "뒷받침"으로 분류한 문장: 문장 2, 문장 4
혼동 행렬을 작성하면:
평가자 A \ 평가자 B | 뒷받침 (B:뒷받침) | 뒷받침 아님 (B:뒷받침이아님) |
뒷받침 (A:뒷받침) | a=1 | b=1 |
뒷받침 아님 (A:뒷받침이 아님) | c=1 | d=2 |
코헨의 카파 계산
3. 결론
- 주장 문장의 일관성 카파: 0.1670.167
- 뒷받침 문장의 일관성 카파: 0.1670.167
각 값의 의미
- a: 주장-주장
- 평가자 A와 B가 모두 "주장"으로 라벨링한 문장의 개수.
- b: 주장-주장이 아님
- 평가자 A는 "주장"으로 라벨링했으나, 평가자 B는 "주장"이 아닌 라벨을 준 문장의 개수. (예: 비주장, 뒷받침, 혹은 라벨 없음)
- c: 주장이 아님-주장
- 평가자 A는 "주장"이 아닌 라벨을 줬으나, 평가자 B는 "주장"으로 라벨링한 문장의 개수.
- d: 주장이 아님-주장이 아님
- 평가자 A와 B가 모두 "주장"이 아닌 라벨을 준 문장의 개수.
코헨의 카파 값은 다음과 같이 해석됩니다:
- 코헨의 카파 값은 -1에서 1 사이의 값을 가질 수 있습니다:
k 값 해석 −1≤ 평가자 간 일치도가 우연보다 나쁨 0≤ 매우 낮은 일치도 0.21≤ 낮은 일치도 0.41 보통 수준의 일치도 0.61≤κ≤0.80 높은 일치도 0.81≤κ≤1.00 매우 높은 일치도