목록전체 글 (171)
공부 정리 블로그

1. 정규화하기 자꾸 코사인 유사도가 너무 낙게 나와서 결과가 제대로 도출된 것인지 판단이 전혀 되지 않았다. 정규화하니 0~1사이 값으로 유효한 결과가 나왔다.정규화해서 그래도 유효해보이는 결과를 얻었다. 주요 변경 사항유사도 행렬 정규화:normalize_similarity_matrix 함수에서 MinMaxScaler를 사용해 유사도 값을 0과 1 사이로 정규화합니다.독창성 점수 계산 함수 수정:유사도 행렬 정규화를 추가하고, 이를 기반으로 독창성 점수를 계산합니다. 2. 메모리 사용량 체크 3. 임베딩 vs 요약 계산량 임베딩(embedding)과 요약(summarization)은 각기 다른 목적과 계산 요구사항이 있으며, 어느 것이 더 계산량이 많고 메모리를 더 많이 사용하는지는 모델의 크기..
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'): for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):는 ActividadEconomicaDesc 열을 기준으로 데이터프레임을 그룹화한 뒤, 각 그룹에 대해 반복 작업을 수행하는 코드입니다. 이를 단계별로 설명하면 다음과 같습니다:1. df_new.groupby('ActividadEconomicaDesc')groupby()는 특정 열(ActividadEconomicaDesc)의 값을 기준으로 데이터프레임을 그룹화합니다.그룹화는 ActividadEconomicaDesc의 각 고유 값에 따라 데..

시간 복잡도란?시간 복잡도는 입력 데이터의 크기(보통 n)에 따라 알고리즘이 실행되는 시간(계산량)이 어떻게 증가하는지를 나타냅니다. 빅오 표기법은 최악의 경우를 기준으로 계산합니다.빅오 표기법 예제와 해석O(1): 상수 시간읽는 법: "O 1" 또는 "상수 시간 복잡도"알고리즘의 실행 시간이 입력 크기 n에 관계없이 항상 일정함.예: 배열에서 특정 인덱스의 값을 읽는 작업.O(n): 선형 시간읽는 법: "O n" 또는 "선형 시간 복잡도"입력 크기에 비례해서 실행 시간이 증가.예: 배열의 모든 요소를 한 번씩 순회하는 작업.O(n^2): 이차 시간읽는 법: "O n 제곱" 또는 "이차 시간 복잡도"입력 크기가 n일 때, 실행 시간이 n^2에 비례.예: 이중 루프를 사용하는 알고리즘(예: 버블 정렬).O..
gte-multilingual-base_max_token(512) gte-multilingual-base_max_token(2000) 슬라이딩 윈도우, 요약 모델 테스트 전체 데이터에 gte-multilingual-base_max_token(512) 적용했음... 과제 : 집에 가서 전체 데이터로 2000토큰 돌려보기
Connecting Tourism with Reef Restoration The Inter-American Development Bank (IDB), detailing an initiative to both enhance Coral Vita's financial sustainability and revive fragile ecosystems upon which much sea life depends, said the company's restoration activities are much-needed given that an estimated 80 percent of Bahamian coral reefs are dying. upon: 전치사로, "~에 의지하여", **"~위에"**라는 의미.which..

텍스트 유사도 분석을 위해 임베딩 모델들을 허깅페이스에서 찾아보았다. 당연하게도 스페인어는 사용자가 많아서 관련 연구나 pre-train 된 모델이 많았을 거라고 생각하고 신나게 리더보드 페이지로 이동하였으나 https://huggingface.co/spaces/mteb/leaderboard MTEB Leaderboard - a Hugging Face Space by mteb huggingface.co허깅페이스 리더보드 페이지. 여기서 분류(Classification), 클러스터링(Clustering), 쌍분류(PairClassification), 재순위(Reranking), 검색(Retrieval), 텍스트 의미적 유사도(STS, Semantic Textual Similarity), 요약(Summari..
https://blogs.iadb.org/salud/en/how-much-could-chilean-households-save-by-switching-to-generic-drugs/ How Much Could Chilean Households Save by Switching to Generic Drugs? - Gente SaludableDiscover how switching to generic medications can ease the financial burden of healthcare costs for households in Latin America and the Caribbean.blogs.iadb.org
its midweek on my side"It's midweek on my side"는 **"내 쪽에서는 주중 한가운데야"**라는 뜻입니다.이 표현에서 "midweek"는 주중의 중간, 즉 수요일이나 그 전후의 시점을 의미해요. "on my side"는 자신이 있는 상황이나 시간을 기준으로 이야기할 때 사용됩니다. 그래서 이 문장은 자신의 지역이나 시간대에서 현재가 주중 중반임을 나타내는 표현입니다.예문:"It's midweek on my side, so I'm getting through the workweek."(내 쪽에서는 주중 한가운데라서 일을 진행하고 있어.)즉, 현재 시간이 수요일쯤이나, 주중의 절반을 지나가고 있다는 것을 나타내는 말이에요!I always wanted to dye my hai..