공부 정리 블로그
임베딩 모델 고르기(스페인어) 본문
텍스트 유사도 분석을 위해 임베딩 모델들을 허깅페이스에서 찾아보았다.
당연하게도 스페인어는 사용자가 많아서 관련 연구나 pre-train 된 모델이 많았을 거라고 생각하고 신나게 리더보드 페이지로 이동하였으나
https://huggingface.co/spaces/mteb/leaderboard
MTEB Leaderboard - a Hugging Face Space by mteb
huggingface.co
허깅페이스 리더보드 페이지. 여기서 분류(Classification), 클러스터링(Clustering), 쌍분류(PairClassification), 재순위(Reranking), 검색(Retrieval), 텍스트 의미적 유사도(STS, Semantic Textual Similarity), 요약(Summarization) 등 다양한 임베딩 작업에서 모델 성능을 평가하는 대규모 벤치마크이다.
이 리더보드를 통해 각 모델의 특성과 장점 및 단점을 파악하고 성능 순위를 확인할 수 있다.
하지만 아쉽게도 스페인어는 Other에 들어가 있었다...
내가 필요로하는 모델은
1) CPU 로컬에서 돌릴거니까 가벼워야 함 (최대 500M 파라미터를 넘지 말 것)
2) 문장 길이도 길고 전체적으로 처리해아할 문장이 많으므로 MAX_Token 이 높을 수록 좋음
3) SOTA 혹은 순위권 모델
이 3가지를 모두 만족하는 모델은
gte-multilingual-base 이 모델이었다.
GPT 교수님이 좀 더 가벼운 다른 모델을 추천해주긴 했으나(LaBSE)
1. LaBSE와 gte-multilingual-base 비교
특징 LaBSE gte-multilingual-base
모델 크기 | 약 470M 파라미터 | 약 300M~350M 파라미터 |
최대 토큰 처리량 | 약 512 토큰 | 약 8192 토큰 |
지원 언어 | 109개 언어 | 70개 이상의 언어 |
스페인어 지원 최적화 | 강력 | 강력 |
무게와 메모리 요구량 | 더 무거움 | 상대적으로 가벼움 |
긴 텍스트 처리 성능 | 제한적 | 우수 |
gte-multilingual-base는 더 가볍고 **긴 텍스트 처리(최대 8192 토큰)**에 강점이 있어, 긴 스페인어 텍스트를 유사도 평가하려는 작업에 더 적합합니다.
2. 대안 모델 추천
만약 더 가벼운 모델을 찾고 있다면, 다음을 고려할 수 있습니다:
1) MiniLM 또는 MiniLM-Multi
- 크기: 약 117M 파라미터.
- 특징:
- 다국어 지원 모델로, 스페인어도 포함.
- 긴 문장을 처리할 수 있는 경량화 모델.
- 단점: 최대 토큰이 512로 제한적일 수 있음.
2) Longformer
- 크기: 약 150M 파라미터.
- 특징:
- 긴 텍스트(최대 16,000 토큰)를 효율적으로 처리 가능.
- Sliding Window Attention 메커니즘으로 긴 문장 처리 최적화.
- 단점: 다국어 데이터에서 스페인어 성능 최적화는 미흡할 수 있음.
3) DistilBERT-Multilingual
- 크기: 약 66M 파라미터.
- 특징:
- BERT의 경량화 버전으로, 가볍고 빠름.
- 다국어 지원, 스페인어에 적합.
- 단점: 최대 토큰 512로 긴 텍스트 처리에 한계.
4) BigBird
크기: 약 400M 파라미터.특징:최대 4,096 토큰까지 처리 가능.긴 텍스트 유사도 작업에 특화.
단점: gte-multilingual-base에 비해 무겁고 긴 텍스트에 강점이 더 크지 않을 수 있음.이건 왜 추천해준걸까?
3. 최종 추천
긴 텍스트를 다루면서도 모델이 비교적 가벼워야 한다면:
- 최우선 추천: gte-multilingual-base
- 8192 토큰까지 처리 가능하며, 모델 크기도 적당히 가벼움.
- 스페인어 데이터 처리에 적합.
- 차선 추천: Longformer 또는 BigBird
- 긴 텍스트 처리에 특화된 구조를 가짐.
- 모델 크기가 크거나 다국어 지원에서 약간 부족할 수 있음.
추가 팁
- 긴 텍스트를 처리할 때, 한 번에 전부 넣기 어려운 경우, 슬라이딩 윈도우 방식으로 문장을 나누어 처리하는 방법도 고려해보세요.
- ONNX로 변환하거나, 배치 크기를 최적화하면 메모리와 처리 속도를 개선할 수 있습니다.
gte-multilingual-base는 당신의 요구사항에 가장 잘 부합할 가능성이 높으니, 우선 이 모델을 활용해 보시길 추천합니다! 😊
그래서 gte-multilingual-base 으로 임베딩을 진행해보고자 한다.
지원자 두 명의 지원서를 비교하여 평가하려는 경우, 어떤 모델이 효율이 좋은지는 평가 기준과 작업의 복잡성에 따라 달라집니다. 지원서를 비교하는 작업은 일반적으로 다음과 같은 두 가지 관점에서 수행됩니다:
- 지원서 간의 유사도 측정:
- 지원자 A와 지원자 B의 지원서 내용이 얼마나 비슷한지 평가.
- 예: 동일한 경험을 반복적으로 기술했거나 유사한 표현을 사용했는지 확인.
- 지원서의 질적 평가:
- 각 지원서의 고유한 가치와 질을 분석.
- 예: 지원자가 자신만의 고유한 강점, 경험, 또는 스킬을 얼마나 잘 설명했는지.
1. 지원서 비교에서 효율적인 모델 선택 기준
간단한 유사도 분석 (내용 간 겹치는 정도를 확인하는 경우):
- 추천 모델: gte-multilingual-base
- 이유:
- 문장 및 문서 수준의 의미적 유사도를 빠르게 계산 가능.
- 다국어 지원에 강점이 있어, 지원서가 스페인어, 영어 등 다양한 언어로 작성된 경우에도 잘 작동.
- 코사인 유사도를 사용하여 두 지원서 간 유사도를 정량적으로 평가할 수 있음.
- 적용 예:
- "A 지원자와 B 지원자가 기술한 프로젝트 설명이 얼마나 유사한가?"
- "두 지원자가 사용한 단어와 표현이 얼마나 겹치는가?"
- 이유:
정교한 질적 평가 (지원서의 고유한 가치와 논리적 구조를 평가하는 경우):
- 추천 모델: Llama (Fine-tuning 권장)
- 이유:
- 언어 생성 및 복잡한 의미 추론에서 강력한 성능.
- Fine-tuning을 통해 특정 평가 기준(예: 창의성, 구체성, 독창성 등)에 맞게 학습 가능.
- 지원서에서의 논리적 흐름과 세부적인 차별점을 파악하는 데 도움.
- 적용 예:
- "A 지원자가 B 지원자보다 더 구체적인 성과를 기술했는가?"
- "지원서가 얼마나 독창적이며, 지나치게 과장된 표현은 없는가?"
- 이유:
2. 작업의 효율성과 복잡성 비교
작업 유형 gte-multilingual-base Llama
설정/사용 용이성 | 바로 사용 가능 (추가 학습 불필요) | Fine-tuning 필요 (복잡) |
처리 속도 | 빠름 (경량 모델) | 느림 (대규모 모델) |
언어 지원 | 다국어 지원 | 주로 영어 최적화, 다국어는 제한적 |
세부적 평가 가능성 | 기본적인 유사도 평가에 적합 | 논리적 구조와 세부적 평가에 적합 |
비용 효율성 | 상대적으로 저비용 | 고비용 (하드웨어 및 학습 필요) |
3. 최적의 조합 접근법
- 1단계: 기본 유사도 분석 (gte-multilingual-base)
- 두 지원서의 유사도 점수를 계산하여 겹치는 부분을 확인.
- 예: 문장의 유사도 점수가 높은 경우, 두 지원자가 동일한 경험을 반복적으로 기술했는지 검토.
- 2단계: 정교한 평가 (Llama)
- 지원서를 정교하게 분석해야 하거나 특정 평가 기준을 적용해야 하는 경우.
- 예: 논리적 흐름, 창의성, 독창성 평가.
4. 결론
- 효율성을 우선시: gte-multilingual-base
- 다국어 지원서를 비교하고, 유사도 점수를 기반으로 효율적으로 평가 가능.
- 추가적인 학습 없이 바로 사용 가능.
- 정밀성과 세부적 평가가 중요: Llama
- 특정 평가 기준에 맞춘 정교한 분석이 필요하다면 Llama를 Fine-tuning하여 사용.
'proyector en Chile' 카테고리의 다른 글
Big O 표기 (0) | 2025.01.22 |
---|---|
0120_오늘 한 일 (0) | 2025.01.21 |
평가기준 -3 (0) | 2025.01.15 |
내일 수정해야함 !지원자의 차별화 요소 정량적 평가-2 (0) | 2025.01.10 |
지원자의 차별화 요소 정량적 평가 (0) | 2025.01.10 |