공부 정리 블로그

임베딩 모델 고르기(스페인어) 본문

proyector en Chile

임베딩 모델 고르기(스페인어)

따옹 2025. 1. 16. 04:25

텍스트 유사도 분석을 위해 임베딩 모델들을 허깅페이스에서 찾아보았다.

 

당연하게도 스페인어는 사용자가 많아서 관련 연구나 pre-train 된 모델이 많았을 거라고 생각하고 신나게 리더보드 페이지로 이동하였으나


 

https://huggingface.co/spaces/mteb/leaderboard

 

MTEB Leaderboard - a Hugging Face Space by mteb

 

huggingface.co

허깅페이스 리더보드 페이지. 여기서 분류(Classification), 클러스터링(Clustering), 쌍분류(PairClassification), 재순위(Reranking), 검색(Retrieval), 텍스트 의미적 유사도(STS, Semantic Textual Similarity), 요약(Summarization) 등 다양한 임베딩 작업에서 모델 성능을 평가하는 대규모 벤치마크이다.

이 리더보드를 통해 각 모델의 특성과 장점 및 단점을 파악하고 성능 순위를 확인할 수 있다.

 

 

하지만 아쉽게도 스페인어는 Other에 들어가 있었다...

 

내가 필요로하는 모델은

1) CPU 로컬에서 돌릴거니까 가벼워야 함 (최대 500M 파라미터를 넘지 말 것)

2) 문장 길이도 길고 전체적으로 처리해아할 문장이 많으므로 MAX_Token 이 높을 수록 좋음

3) SOTA  혹은 순위권 모델

 

이 3가지를 모두 만족하는 모델은

gte-multilingual-base

 

gte-multilingual-base 이 모델이었다.

 

GPT 교수님이 좀 더 가벼운 다른 모델을 추천해주긴 했으나(LaBSE)


1. LaBSE와 gte-multilingual-base 비교

특징 LaBSE gte-multilingual-base

모델 크기 약 470M 파라미터 약 300M~350M 파라미터
최대 토큰 처리량 약 512 토큰 약 8192 토큰
지원 언어 109개 언어 70개 이상의 언어
스페인어 지원 최적화 강력 강력
무게와 메모리 요구량 더 무거움 상대적으로 가벼움
긴 텍스트 처리 성능 제한적 우수

gte-multilingual-base는 더 가볍고 **긴 텍스트 처리(최대 8192 토큰)**에 강점이 있어, 긴 스페인어 텍스트를 유사도 평가하려는 작업에 더 적합합니다.


2. 대안 모델 추천

만약 더 가벼운 모델을 찾고 있다면, 다음을 고려할 수 있습니다:

1) MiniLM 또는 MiniLM-Multi

  • 크기: 약 117M 파라미터.
  • 특징:
    • 다국어 지원 모델로, 스페인어도 포함.
    • 긴 문장을 처리할 수 있는 경량화 모델.
  • 단점: 최대 토큰이 512로 제한적일 수 있음.

2) Longformer

  • 크기: 약 150M 파라미터.
  • 특징:
    • 긴 텍스트(최대 16,000 토큰)를 효율적으로 처리 가능.
    • Sliding Window Attention 메커니즘으로 긴 문장 처리 최적화.
  • 단점: 다국어 데이터에서 스페인어 성능 최적화는 미흡할 수 있음.

3) DistilBERT-Multilingual

  • 크기: 약 66M 파라미터.
  • 특징:
    • BERT의 경량화 버전으로, 가볍고 빠름.
    • 다국어 지원, 스페인어에 적합.
  • 단점: 최대 토큰 512로 긴 텍스트 처리에 한계.

4) BigBird

  • 크기: 약 400M 파라미터.
  • 특징:
    • 최대 4,096 토큰까지 처리 가능.
    • 긴 텍스트 유사도 작업에 특화.
  • 단점: gte-multilingual-base에 비해 무겁고 긴 텍스트에 강점이 더 크지 않을 수 있음.
  •  
  • 이건 왜  추천해준걸까?

3. 최종 추천

긴 텍스트를 다루면서도 모델이 비교적 가벼워야 한다면:

  • 최우선 추천: gte-multilingual-base
    • 8192 토큰까지 처리 가능하며, 모델 크기도 적당히 가벼움.
    • 스페인어 데이터 처리에 적합.
  • 차선 추천: Longformer 또는 BigBird
    • 긴 텍스트 처리에 특화된 구조를 가짐.
    • 모델 크기가 크거나 다국어 지원에서 약간 부족할 수 있음.

추가 팁

  • 긴 텍스트를 처리할 때, 한 번에 전부 넣기 어려운 경우, 슬라이딩 윈도우 방식으로 문장을 나누어 처리하는 방법도 고려해보세요.
  • ONNX로 변환하거나, 배치 크기를 최적화하면 메모리와 처리 속도를 개선할 수 있습니다.

gte-multilingual-base는 당신의 요구사항에 가장 잘 부합할 가능성이 높으니, 우선 이 모델을 활용해 보시길 추천합니다! 😊


그래서 gte-multilingual-base 으로 임베딩을 진행해보고자 한다.

 

지원자 두 명의 지원서를 비교하여 평가하려는 경우, 어떤 모델이 효율이 좋은지는 평가 기준작업의 복잡성에 따라 달라집니다. 지원서를 비교하는 작업은 일반적으로 다음과 같은 두 가지 관점에서 수행됩니다:

  1. 지원서 간의 유사도 측정:
    • 지원자 A와 지원자 B의 지원서 내용이 얼마나 비슷한지 평가.
    • : 동일한 경험을 반복적으로 기술했거나 유사한 표현을 사용했는지 확인.
  2. 지원서의 질적 평가:
    • 각 지원서의 고유한 가치와 질을 분석.
    • : 지원자가 자신만의 고유한 강점, 경험, 또는 스킬을 얼마나 잘 설명했는지.

1. 지원서 비교에서 효율적인 모델 선택 기준

간단한 유사도 분석 (내용 간 겹치는 정도를 확인하는 경우):

  • 추천 모델: gte-multilingual-base
    • 이유:
      • 문장 및 문서 수준의 의미적 유사도를 빠르게 계산 가능.
      • 다국어 지원에 강점이 있어, 지원서가 스페인어, 영어 등 다양한 언어로 작성된 경우에도 잘 작동.
      • 코사인 유사도를 사용하여 두 지원서 간 유사도를 정량적으로 평가할 수 있음.
    • 적용 예:
      • "A 지원자와 B 지원자가 기술한 프로젝트 설명이 얼마나 유사한가?"
      • "두 지원자가 사용한 단어와 표현이 얼마나 겹치는가?"

정교한 질적 평가 (지원서의 고유한 가치와 논리적 구조를 평가하는 경우):

  • 추천 모델: Llama (Fine-tuning 권장)
    • 이유:
      • 언어 생성 및 복잡한 의미 추론에서 강력한 성능.
      • Fine-tuning을 통해 특정 평가 기준(예: 창의성, 구체성, 독창성 등)에 맞게 학습 가능.
      • 지원서에서의 논리적 흐름과 세부적인 차별점을 파악하는 데 도움.
    • 적용 예:
      • "A 지원자가 B 지원자보다 더 구체적인 성과를 기술했는가?"
      • "지원서가 얼마나 독창적이며, 지나치게 과장된 표현은 없는가?"

2. 작업의 효율성과 복잡성 비교

작업 유형 gte-multilingual-base Llama

설정/사용 용이성 바로 사용 가능 (추가 학습 불필요) Fine-tuning 필요 (복잡)
처리 속도 빠름 (경량 모델) 느림 (대규모 모델)
언어 지원 다국어 지원 주로 영어 최적화, 다국어는 제한적
세부적 평가 가능성 기본적인 유사도 평가에 적합 논리적 구조와 세부적 평가에 적합
비용 효율성 상대적으로 저비용 고비용 (하드웨어 및 학습 필요)

3. 최적의 조합 접근법

  • 1단계: 기본 유사도 분석 (gte-multilingual-base)
    • 두 지원서의 유사도 점수를 계산하여 겹치는 부분을 확인.
    • 예: 문장의 유사도 점수가 높은 경우, 두 지원자가 동일한 경험을 반복적으로 기술했는지 검토.
  • 2단계: 정교한 평가 (Llama)
    • 지원서를 정교하게 분석해야 하거나 특정 평가 기준을 적용해야 하는 경우.
    • 예: 논리적 흐름, 창의성, 독창성 평가.

4. 결론

  1. 효율성을 우선시: gte-multilingual-base
    • 다국어 지원서를 비교하고, 유사도 점수를 기반으로 효율적으로 평가 가능.
    • 추가적인 학습 없이 바로 사용 가능.
  2. 정밀성과 세부적 평가가 중요: Llama
    • 특정 평가 기준에 맞춘 정교한 분석이 필요하다면 Llama를 Fine-tuning하여 사용.

 

'proyector en Chile' 카테고리의 다른 글

Big O 표기  (0) 2025.01.22
0120_오늘 한 일  (0) 2025.01.21
평가기준 -3  (0) 2025.01.15
내일 수정해야함 !지원자의 차별화 요소 정량적 평가-2  (0) 2025.01.10
지원자의 차별화 요소 정량적 평가  (0) 2025.01.10