공부 정리 블로그

[groupby] 특정 열을 기준으로 데이터프레임 그룹화 본문

proyector en Chile

[groupby] 특정 열을 기준으로 데이터프레임 그룹화

따옹 2025. 1. 22. 23:42
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):

 

for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):는 ActividadEconomicaDesc 열을 기준으로 데이터프레임을 그룹화한 뒤, 각 그룹에 대해 반복 작업을 수행하는 코드입니다. 이를 단계별로 설명하면 다음과 같습니다:

1. df_new.groupby('ActividadEconomicaDesc')

  • groupby()는 특정 열(ActividadEconomicaDesc)의 값을 기준으로 데이터프레임을 그룹화합니다.
  • 그룹화는 ActividadEconomicaDesc의 각 고유 값에 따라 데이터를 분리합니다.
  • 결과적으로, 같은 ActividadEconomicaDesc 값을 가진 행들로 구성된 여러 작은 그룹이 만들어집니다.

2. 반복문 구조

python
CopyEdit
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):
  • actividad: ActividadEconomicaDesc 열의 고유한 값(각 그룹의 이름).
    • 예: Comercio, Educación, Salud 등의 값일 수 있습니다.
  • actividad_group: actividad 값에 해당하는 데이터프레임(그룹).
    • 예: ActividadEconomicaDesc가 Comercio인 모든 행들로 구성된 데이터프레임.

3. 반복 작업

이 반복문은 각 ActividadEconomicaDesc별로 데이터프레임을 나눈 뒤, actividad와 해당 그룹(actividad_group)에 대해 작업을 수행할 수 있도록 합니다.


예시

import pandas as pd

data = {
    'ActividadEconomicaDesc': ['Comercio', 'Educación', 'Comercio', 'Salud', 'Educación'],
    'RutPostulante': [123, 456, 789, 101, 112],
    'combined_text': ['text1', 'text2', 'text3', 'text4', 'text5']
}
df_new = pd.DataFrame(data)

 

 

for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):
    print(f"Grupo: {actividad}")
    print(actividad_group)

 

Grupo: Comercio
  ActividadEconomicaDesc  RutPostulante combined_text
0               Comercio            123         text1
2               Comercio            789         text3

Grupo: Educación
  ActividadEconomicaDesc  RutPostulante combined_text
1              Educación            456         text2
4              Educación            112         text5

Grupo: Salud
  ActividadEconomicaDesc  RutPostulante combined_text
3                 Salud            101         text4

 

요약

  • groupby(): 데이터를 그룹화하여 비슷한 값을 가진 행들을 묶습니다.
  • 반복문으로 각 그룹의 이름(actividad)과 데이터프레임(actividad_group)을 가져옵니다.
  • 이렇게 하면 그룹별로 독립적인 작업(예: 독창성 계산)을 수행할 수 있습니다.

 

groupby()는 **"그룹 이름"**과 **"그룹에 속한 데이터"**를 제공하는 객체를 반환합니다.
그룹 이름 group name: ActividadEconomicaDesc 열의 고유 값 (예: Comercio, Educación).
그룹 데이터 group data: 해당 고유 값에 속하는 행들.

 

 

'proyector en Chile' 카테고리의 다른 글

Box Plot 해석  (0) 2025.01.24
0122 오늘 한 일(정규화, 메모리 체크, groupby)  (0) 2025.01.23
Big O 표기  (0) 2025.01.22
0120_오늘 한 일  (0) 2025.01.21
임베딩 모델 고르기(스페인어)  (0) 2025.01.16