공부 정리 블로그

Box Plot 해석 본문

proyector en Chile

Box Plot 해석

따옹 2025. 1. 24. 04:04

 

 

Box plot(박스 플롯)은 데이터를 시각화하여 분포와 변동성을 한눈에 파악할 수 있게 해주는 그래프입니다. 주로 데이터의 중앙값, 사분위수, 최소값, 최대값을 표현하며, 데이터의 분포를 요약하고 이상치를 쉽게 확인할 수 있습니다.

Box Plot 주요 용어

  1. 백분위수(Percentile):
    • 데이터를 100개의 동일한 구간으로 나눈 값.
    • 예: 25번째 백분위수(Q1)는 데이터의 하위 25% 지점을 나타냄.
  2. 사분위수(Quartile):
    • 데이터를 4개의 동일한 구간으로 나눈 값.
    • Q1(1사분위수): 하위 25% (백분위수 25%).
    • Q2(2사분위수): 하위 50% (중앙값, 백분위수 50%).
    • Q3(3사분위수): 하위 75% (백분위수 75%).

각 가테고리 데이터에서 코사인 유사도를 구해보았고 그 결과를 Box plot으로 나타내보았다.

거의 모든 카테고리에서 이상치 값들이 발견되었지만 

 

코사인 유사도 값의 특징을 잠깐 살펴보자면 유사도 값이 모두 0~1 사이로 제한되므로 이것이 진짜 이상치인지 의구심이 좀 든다.

 

그렇기 때문에 이상치를 제거하지 않고 분석 목적에 맞게 별도로 해석하는 것이 필요해보임

 


 

코사인 유사도를 이용해 지원서의 겹침 정도(독창성)을 평가하고 경고 기준을 설정하는 전략

1) 유사도 값의 절대적 크기 기준 설정
2) 전체 지원서 데이터의 상대적 분포를 결합하여 기준 설정

 

 

지원서가 극단적으로 적을 경우, 전체 유사도를 사용하는 이유와 장점은 다음과 같습니다. 이는 데이터가 부족할 때 발생할 수 있는 한계를 보완하고 평가의 신뢰도를 높이기 위한 전략입니다.


1. 카테고리 내 유사도의 신뢰도 부족

  • 지원서가 극단적으로 적은 경우(예: 3개 이하):
    • 문제점:
      • 소수의 지원서 간 유사도를 계산하면 통계적으로 신뢰하기 어려운 결과를 초래할 수 있음.
      • 모든 지원서가 서로 유사하거나, 오히려 유사하지 않게 나올 가능성이 큼.
    • 해결:
      • 전체 유사도를 함께 사용하여 평가 범위를 확장하고, 더 많은 데이터로 통계적 안정성을 확보.

2. 지원서 간 전반적인 독창성 수준 평가

  • 카테고리 내 지원서 수가 적을 때는 전체 데이터를 통해 지원서가 전반적으로 독창성이 부족한지를 평가할 수 있음.
    • 예: 특정 카테고리의 지원서가 적더라도, 전체 지원서와 비교해 독창성이 부족하다면 경고를 부여할 수 있음.

3. 공정성과 일관성 확보

  • 카테고리별 지원서 수의 차이가 클 때, 데이터가 적은 카테고리만 카테고리 내 유사도로 평가하면 공정성 문제가 생길 수 있음.
    • 예: "디자인" 카테고리(50개 지원서)와 "기술" 카테고리(3개 지원서)의 기준이 다르면, 결과에 편향이 생김.
    • 전체 유사도를 활용하면 모든 지원서를 공통된 평가 틀에서 분석할 수 있음.

그러므로 카테고리 내 지원서가 극단적으로 적은 경우

    • 문제점:
      • 소수의 지원서 간 유사도를 계산하면 통계적으로 신뢰하기 어려운 결과를 초래할 수 있음.
      • 모든 지원서가 서로 유사하거나, 오히려 유사하지 않게 나올 가능성이 큼.
    • 해결:
      • 전체 유사도를 함께 사용하여 평가 범위를 확장하고, 더 많은 데이터로 통계적 안정성을 확보.

이 방법을 쓰는 게 가장 바람직해 보임