목록proyector en Chile (21)
공부 정리 블로그

상관계수를 계산해보니 0.526 정도로 나왔습니다.이는 양의 상관관계(positive correlation) 를 의미하지만, 완전히 강한 관계라고 보기는 어렵습니다.즉, 텍스트 길이가 길어질수록 평균 코사인 유사도가 증가하는 경향이 있지만, 아주 강한 연관성은 아니다 라고 해석할 수 있습니다.만약 더 정밀한 분석이 필요하다면, 회귀 분석이나 다른 통계 기법을 적용해볼 수도 있습니다. 추가로 확인하고 싶은 점이 있나요? 😊📌 상관계수(Correlation Coefficient) 해석 기준0.0 ~ 0.2 → 거의 관계 없음 (무시 가능)0.2 ~ 0.4 → 약한 상관관계 (거의 무시 가능)0.4 ~ 0.6 → 중간 정도의 상관관계 (어느 정도 영향 있음)0.6 ~ 0.8 → 강한 상관관계 (연관성이 뚜..
import pandas as pdfrom transformers import AutoTokenizer, AutoModelForSequenceClassificationimport torchfrom itertools import combinations# 1. Load the datasetfile_path = '/mnt/data/final_2023_grouped_categorized_file.xlsx'data = pd.read_excel(file_path)# 2. Extract necessary columnscolumns_of_interest = ['ActividadEconomicaDesc', 'RutPostulante', 'criteria', 'RespuestaTexto']data = data[column..
Alibaba-NLP/gte-multilingual-base 모델을 선택한 이유1) 어느 정도 괜찮은 성능2) 최대 토큰수가 무려 8000 넘음 -> 내가 가지고 있는 지원서 데이터들은 기준 하나당 평균 토큰수가 1000정도는 됨512로는 어림 없음 https://huggingface.co/datasets/PhilipMay/stsb_multi_mt PhilipMay/stsb_multi_mt · Datasets at Hugging FaceEin Hund versucht, den Speck auf seinem Rücken zu fressen.huggingface.co 그렇다면 기존 Alibaba-NLP/gte-multilingual-base 모델의 코사인유사도 정확도(임베딩 방식으로 코사인 유사도 측정)를 ..
학습 데이터를 만들기 위해서 2023년도 캔버스 + 카테고리 정보가 포함된 데이터 만들기 1) txt 파일로 된 모든 캔버스 불러오기(2018~2024)import pandas as pd# file_path = '/content/drive/MyDrive/data_canvas_crece_emprende.txt'data_canvas = pd.read_csv( "/content/drive/MyDrive/data_canvas_crece_emprende.txt", sep=";", comment="#")print(data_canvas) 2) 그 중 2023년도 캔버스만 활용할 것으로 filter 시키기filtered_data = data_canvas[data_canvas['Año'] == 2023]..
1. 가중치 기반 유사도지원서의 각 섹션(예: 대상 고객의 차별화, 운영 방식의 독창성, 제공하는 제품/서비스의 독창성)의 중요도를 반영하여 최종 유사도를 계산하는 방법입니다. 1. 섹션별 유사도 계산각 지원서의 섹션별 텍스트를 임베딩 벡터로 변환 후 코사인 유사도를 계산합니다.예: from sklearn.metrics.pairwise import cosine_similaritycareer_similarity = cosine_similarity(clients_embedding_1, career_embedding_2)skills_similarity = cosine_similarity(operation_embedding_1, skills_embedding_2)introduction_similarity = ..

Box plot(박스 플롯)은 데이터를 시각화하여 분포와 변동성을 한눈에 파악할 수 있게 해주는 그래프입니다. 주로 데이터의 중앙값, 사분위수, 최소값, 최대값을 표현하며, 데이터의 분포를 요약하고 이상치를 쉽게 확인할 수 있습니다.Box Plot 주요 용어백분위수(Percentile):데이터를 100개의 동일한 구간으로 나눈 값.예: 25번째 백분위수(Q1)는 데이터의 하위 25% 지점을 나타냄.사분위수(Quartile):데이터를 4개의 동일한 구간으로 나눈 값.Q1(1사분위수): 하위 25% (백분위수 25%).Q2(2사분위수): 하위 50% (중앙값, 백분위수 50%).Q3(3사분위수): 하위 75% (백분위수 75%).각 가테고리 데이터에서 코사인 유사도를 구해보았고 그 결과를 Box plot으로..

1. 정규화하기 자꾸 코사인 유사도가 너무 낙게 나와서 결과가 제대로 도출된 것인지 판단이 전혀 되지 않았다. 정규화하니 0~1사이 값으로 유효한 결과가 나왔다.정규화해서 그래도 유효해보이는 결과를 얻었다. 주요 변경 사항유사도 행렬 정규화:normalize_similarity_matrix 함수에서 MinMaxScaler를 사용해 유사도 값을 0과 1 사이로 정규화합니다.독창성 점수 계산 함수 수정:유사도 행렬 정규화를 추가하고, 이를 기반으로 독창성 점수를 계산합니다. 2. 메모리 사용량 체크 3. 임베딩 vs 요약 계산량 임베딩(embedding)과 요약(summarization)은 각기 다른 목적과 계산 요구사항이 있으며, 어느 것이 더 계산량이 많고 메모리를 더 많이 사용하는지는 모델의 크기..
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'): for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):는 ActividadEconomicaDesc 열을 기준으로 데이터프레임을 그룹화한 뒤, 각 그룹에 대해 반복 작업을 수행하는 코드입니다. 이를 단계별로 설명하면 다음과 같습니다:1. df_new.groupby('ActividadEconomicaDesc')groupby()는 특정 열(ActividadEconomicaDesc)의 값을 기준으로 데이터프레임을 그룹화합니다.그룹화는 ActividadEconomicaDesc의 각 고유 값에 따라 데..