공부 정리 블로그

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (171)

공부 정리 블로그

학습 데이터를 만드는데.. 또 머리 아픔

상관계수를 계산해보니 0.526 정도로 나왔습니다.이는 양의 상관관계(positive correlation) 를 의미하지만, 완전히 강한 관계라고 보기는 어렵습니다.즉, 텍스트 길이가 길어질수록 평균 코사인 유사도가 증가하는 경향이 있지만, 아주 강한 연관성은 아니다 라고 해석할 수 있습니다.만약 더 정밀한 분석이 필요하다면, 회귀 분석이나 다른 통계 기법을 적용해볼 수도 있습니다. 추가로 확인하고 싶은 점이 있나요? 😊📌 상관계수(Correlation Coefficient) 해석 기준0.0 ~ 0.2 → 거의 관계 없음 (무시 가능)0.2 ~ 0.4 → 약한 상관관계 (거의 무시 가능)0.4 ~ 0.6 → 중간 정도의 상관관계 (어느 정도 영향 있음)0.6 ~ 0.8 → 강한 상관관계 (연관성이 뚜..

proyector en Chile 2025. 2. 7. 05:51

[01] clase de español

0205 첨삭 Jabón Usamos el jabón para lavarseNOS las manos y los pies. Hay muchas formas de jabón. Por ejemplo, liquido, sólido y natural. Pero creo que, cuando usarmos y limpiarmos , la forma liquida es la más cómoda. Normalmente está hecho de ácido graso. Los colores son muy diversos (o diferente) diversidades, diversidades 쓰고 싶다면?✅ "Hay muchas diversidades de colores." (색깔의 다양성이 많다.)✅ "Los co..

Cuaderno de Español 2025. 2. 6. 12:01

[학습 데이터 생성]hiiamsid/sentence_similarity_spanish_es

import pandas as pdfrom transformers import AutoTokenizer, AutoModelForSequenceClassificationimport torchfrom itertools import combinations# 1. Load the datasetfile_path = '/mnt/data/final_2023_grouped_categorized_file.xlsx'data = pd.read_excel(file_path)# 2. Extract necessary columnscolumns_of_interest = ['ActividadEconomicaDesc', 'RutPostulante', 'criteria', 'RespuestaTexto']data = data[column..

proyector en Chile 2025. 2. 6. 02:28

0205 hiiamsid/sentence_similarity_spanish_es Alibaba-NLP/gte-multilingual-base 비교

Alibaba-NLP/gte-multilingual-base 모델을 선택한 이유1) 어느 정도 괜찮은 성능2) 최대 토큰수가 무려 8000 넘음 -> 내가 가지고 있는 지원서 데이터들은 기준 하나당 평균 토큰수가 1000정도는 됨512로는 어림 없음 https://huggingface.co/datasets/PhilipMay/stsb_multi_mt PhilipMay/stsb_multi_mt · Datasets at Hugging FaceEin Hund versucht, den Speck auf seinem Rücken zu fressen.huggingface.co 그렇다면 기존 Alibaba-NLP/gte-multilingual-base 모델의 코사인유사도 정확도(임베딩 방식으로 코사인 유사도 측정)를 ..

proyector en Chile 2025. 2. 6. 00:06

0204 오늘 읽은 기사

https://blogs.iadb.org/ciudades-sostenibles/en/ten-ideas-to-improve-urban-resilence/ Ten Ideas to Improve Urban ResilenceClimate change is increasing the magnitude and frequency of extreme events, contributing to the idea of environmental threats as a third dimension to the famous saying “nothing is certain but death and taxes”. These catastrophes affect cities' fiscal cblogs.iadb.org RESILENCE..

영어 회화 2025. 2. 5. 02:44

0129 진행상황

학습 데이터를 만들기 위해서 2023년도 캔버스 + 카테고리 정보가 포함된 데이터 만들기 1) txt 파일로 된 모든 캔버스 불러오기(2018~2024)import pandas as pd# file_path = '/content/drive/MyDrive/data_canvas_crece_emprende.txt'data_canvas = pd.read_csv( "/content/drive/MyDrive/data_canvas_crece_emprende.txt", sep=";", comment="#")print(data_canvas) 2) 그 중 2023년도 캔버스만 활용할 것으로 filter 시키기filtered_data = data_canvas[data_canvas['Año'] == 2023]..

proyector en Chile 2025. 1. 30. 04:56

유사도 측정 알고리즘 정교화 방법

1. 가중치 기반 유사도지원서의 각 섹션(예: 대상 고객의 차별화, 운영 방식의 독창성, 제공하는 제품/서비스의 독창성)의 중요도를 반영하여 최종 유사도를 계산하는 방법입니다. 1. 섹션별 유사도 계산각 지원서의 섹션별 텍스트를 임베딩 벡터로 변환 후 코사인 유사도를 계산합니다.예: from sklearn.metrics.pairwise import cosine_similaritycareer_similarity = cosine_similarity(clients_embedding_1, career_embedding_2)skills_similarity = cosine_similarity(operation_embedding_1, skills_embedding_2)introduction_similarity = ..

proyector en Chile 2025. 1. 27. 23:24

Box Plot 해석

Box plot(박스 플롯)은 데이터를 시각화하여 분포와 변동성을 한눈에 파악할 수 있게 해주는 그래프입니다. 주로 데이터의 중앙값, 사분위수, 최소값, 최대값을 표현하며, 데이터의 분포를 요약하고 이상치를 쉽게 확인할 수 있습니다.Box Plot 주요 용어백분위수(Percentile):데이터를 100개의 동일한 구간으로 나눈 값.예: 25번째 백분위수(Q1)는 데이터의 하위 25% 지점을 나타냄.사분위수(Quartile):데이터를 4개의 동일한 구간으로 나눈 값.Q1(1사분위수): 하위 25% (백분위수 25%).Q2(2사분위수): 하위 50% (중앙값, 백분위수 50%).Q3(3사분위수): 하위 75% (백분위수 75%).각 가테고리 데이터에서 코사인 유사도를 구해보았고 그 결과를 Box plot으로..

proyector en Chile 2025. 1. 24. 04:04

이전 Prev 1 2 3 4 ··· 22 Next 다음

목록전체 글 (171)

공부 정리 블로그

티스토리툴바