공부 정리 블로그
[groupby] 특정 열을 기준으로 데이터프레임 그룹화 본문
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):는 ActividadEconomicaDesc 열을 기준으로 데이터프레임을 그룹화한 뒤, 각 그룹에 대해 반복 작업을 수행하는 코드입니다. 이를 단계별로 설명하면 다음과 같습니다:
1. df_new.groupby('ActividadEconomicaDesc')
- groupby()는 특정 열(ActividadEconomicaDesc)의 값을 기준으로 데이터프레임을 그룹화합니다.
- 그룹화는 ActividadEconomicaDesc의 각 고유 값에 따라 데이터를 분리합니다.
- 결과적으로, 같은 ActividadEconomicaDesc 값을 가진 행들로 구성된 여러 작은 그룹이 만들어집니다.
2. 반복문 구조
python
CopyEdit
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):
- actividad: ActividadEconomicaDesc 열의 고유한 값(각 그룹의 이름).
- 예: Comercio, Educación, Salud 등의 값일 수 있습니다.
- actividad_group: actividad 값에 해당하는 데이터프레임(그룹).
- 예: ActividadEconomicaDesc가 Comercio인 모든 행들로 구성된 데이터프레임.
3. 반복 작업
이 반복문은 각 ActividadEconomicaDesc별로 데이터프레임을 나눈 뒤, actividad와 해당 그룹(actividad_group)에 대해 작업을 수행할 수 있도록 합니다.
예시
import pandas as pd
data = {
'ActividadEconomicaDesc': ['Comercio', 'Educación', 'Comercio', 'Salud', 'Educación'],
'RutPostulante': [123, 456, 789, 101, 112],
'combined_text': ['text1', 'text2', 'text3', 'text4', 'text5']
}
df_new = pd.DataFrame(data)
for actividad, actividad_group in df_new.groupby('ActividadEconomicaDesc'):
print(f"Grupo: {actividad}")
print(actividad_group)
Grupo: Comercio
ActividadEconomicaDesc RutPostulante combined_text
0 Comercio 123 text1
2 Comercio 789 text3
Grupo: Educación
ActividadEconomicaDesc RutPostulante combined_text
1 Educación 456 text2
4 Educación 112 text5
Grupo: Salud
ActividadEconomicaDesc RutPostulante combined_text
3 Salud 101 text4
요약
- groupby(): 데이터를 그룹화하여 비슷한 값을 가진 행들을 묶습니다.
- 반복문으로 각 그룹의 이름(actividad)과 데이터프레임(actividad_group)을 가져옵니다.
- 이렇게 하면 그룹별로 독립적인 작업(예: 독창성 계산)을 수행할 수 있습니다.
groupby()는 **"그룹 이름"**과 **"그룹에 속한 데이터"**를 제공하는 객체를 반환합니다.
그룹 이름 group name: ActividadEconomicaDesc 열의 고유 값 (예: Comercio, Educación).
그룹 데이터 group data: 해당 고유 값에 속하는 행들.
'proyector en Chile' 카테고리의 다른 글
Box Plot 해석 (0) | 2025.01.24 |
---|---|
0122 오늘 한 일(정규화, 메모리 체크, groupby) (0) | 2025.01.23 |
Big O 표기 (0) | 2025.01.22 |
0120_오늘 한 일 (0) | 2025.01.21 |
임베딩 모델 고르기(스페인어) (0) | 2025.01.16 |