proyector en Chile

코헨의 카파 상관관계 적용

따옹 2024. 12. 19. 04:47

라벨링 대상 데이터가 자연어 데이터이고 라벨링 기준 역시 주관적일 수 있으므로 1차 라벨링된 데이터에 관해서 일관성을 평가할 척도가 필요했다.

 

그래서 알게 된 것이 코헨의 카파 상관관계

 

코헨의 카파 상관관계

 

  • 우연에 의한 일치를 보정: 단순히 P_o만 계산하면 평가자 간의 일치도가 과대평가될 수 있으므로, P_e를 통해 보정합니다.
  • 두 명의 평가자에 적용: 코헨의 카파는 두 명의 평가자에 한정됩니다. 여러 명의 평가자가 있는 경우 **플리크의 카파(Fleiss’ Kappa)**를 사용해야 합니다.
  • 이진 및 다중 클래스: 코헨의 카파는 두 클래스(예: "주장", "주장이 아님")뿐 아니라, 여러 개의 라벨(다중 클래스)에도 적용할 수 있습니다.

 

주장과 뒷받침 각각에 대해 일관성을 따로 계산하려면, 평가자가 "주장"으로 분류한 문장과 "뒷받침"으로 분류한 문장을 각각 별도로 평가해야 합니다. 이 경우 코헨의 카파를 두 그룹으로 나누어 계산할 수 있습니다.


1. 주장 문장의 일관성 계산

"주장"으로 분류된 문장만 따로 비교합니다.

데이터 준비

문장  평가자 A  평가자 B
문장 1 주장 주장
문장 2 주장 뒷받침
문장 3 뒷받침 주장
문장 4 뒷받침 뒷받침
문장 5 주장 주장

"주장"으로 분류된 경우를 따로 보면:

  • 평가자 A가 "주장"으로 분류한 문장: 문장 1, 문장 2, 문장 5
  • 평가자 B가 "주장"으로 분류한 문장: 문장 1, 문장 3, 문장 5

혼동 행렬을 작성하면:

 

평가자 A \ 평가자 B 주장 (B:주장)  주장 아님 (B:주장이 아닌 문장)
주장 (A:주장) a=2 b=1
주장 아님 (A:주장이 아닌 문장) c=1 d=1

코헨의 카파 계산

  • P_o : 관찰된 일치도(Observed Agreement) 평가자 A와 B가 실제로 일치한 비율
  • P_e : 기대된 일치도(Expected Agreement) 우연에 의한 일치 가능성. 평가자 A와 B가 각 라벨을 선택한 확률에 기반해 계

 


2. 뒷받침 문장의 일관성 계산

"뒷받침"으로 분류된 문장만 따로 비교합니다.

데이터 준비

문장  평가자 A  평가자 B
문장 1 주장 주장
문장 2 주장 뒷받침
문장 3 뒷받침 주장
문장 4 뒷받침 뒷받침
문장 5 주장 주장

"뒷받침"으로 분류된 경우를 따로 보면:

  • 평가자 A가 "뒷받침"으로 분류한 문장: 문장 3, 문장 4
  • 평가자 B가 "뒷받침"으로 분류한 문장: 문장 2, 문장 4

혼동 행렬을 작성하면:

평가자 A \ 평가자 B 뒷받침 (B:뒷받침)  뒷받침 아님 (B:뒷받침이아님)
뒷받침 (A:뒷받침) a=1 b=1
뒷받침 아님 (A:뒷받침이 아님) c=1 d=2

코헨의 카파 계산


3. 결론

  • 주장 문장의 일관성 카파: 0.1670.167
  • 뒷받침 문장의 일관성 카파: 0.1670.167

각 값의 의미

  1. a: 주장-주장
    • 평가자 A와 B가 모두 "주장"으로 라벨링한 문장의 개수.
  2. b: 주장-주장이 아님
    • 평가자 A는 "주장"으로 라벨링했으나, 평가자 B는 "주장"이 아닌 라벨을 준 문장의 개수. (예: 비주장, 뒷받침, 혹은 라벨 없음)
  3. c: 주장이 아님-주장
    • 평가자 A는 "주장"이 아닌 라벨을 줬으나, 평가자 B는 "주장"으로 라벨링한 문장의 개수.
  4. d: 주장이 아님-주장이 아님
    • 평가자 A와 B가 모두 "주장"이 아닌 라벨을 준 문장의 개수.

코헨의 카파 값은 다음과 같이 해석됩니다:

  • 코헨의 카파 값은 -1에서 1 사이의 값을 가질 수 있습니다:
    k 값 해석
    −1≤ 평가자 간 일치도가 우연보다 나쁨
    0≤ 매우 낮은 일치도
    0.21≤ 낮은 일치도
    0.41 보통 수준의 일치도
    0.61≤κ≤0.80 높은 일치도
    0.81≤κ≤1.00 매우 높은 일치도