공부 정리 블로그
1) label-studio_ 초기 설정 본문
나는 각 지원서마다의 신뢰도 판단을 해야하므로
지원서 각 문장이 주장인지, 과장된 표현인지, 그리고 그에 대한 근거가 있는지를 파악해야한다.

라벨 스튜디오에서 제공하는 라벨링 템플릿들
1차로 생각보다 템플릿이 많아서 당황함
처음엔 내가 원하는 방법으로 라벨링을 어떻게 하는지 몰라서
문장마다 모두 끊어야하는줄 알고 조금 뻘짓을 했다.
뻘짓하려는 나를 gpt가 도와주려했지만
뒤통수 침


import pandas as pd
import ast
# 엑셀 파일 업로드 (코랩 파일 업로드 도구 사용)
from google.colab import files
uploaded = files.upload()
# 파일 읽기
file_name = list(uploaded.keys())[0] # 업로드한 파일 이름
df_uploaded = pd.ExcelFile(file_name).parse('Sheet1')
# 데이터 변환: Answers 열의 텍스트를 안전하게 파싱
transformed_data = []
for index, row in df_uploaded.iterrows():
try:
# 문자열 형태의 리스트를 실제 리스트로 변환
answers = ast.literal_eval(row["Answers"])
for sentence in answers:
transformed_data.append({
"RutPostulante": row["RutPostulante"],
"Sentence": sentence,
"Label": None # 라벨 칼럼 추가
})
except (ValueError, SyntaxError):
print(f"Error processing row {index}: {row['Answers']}")
# 변환된 데이터를 새로운 DataFrame으로 생성
transformed_df = pd.DataFrame(transformed_data)
# 변환된 데이터를 엑셀로 저장
output_file_name = 'transformed_data_for_labeling.xlsx'
transformed_df.to_excel(output_file_name, index=False)
# 파일 다운로드 링크 제공
from google.colab import files
files.download(output_file_name)
결과는 대실패 , 파일을 뱉어냈는데, 구두점을 제대로 인식하지 못해서 문장을 매끄럽게 끊지 못했고
전체 맥락을 파악해야할 거 같아서 내가 원하는 방향이 아니었다.
근데 그냥 점심먹고 (1시부터 3시 반까지 먹음) 돌아와서 그냥 하던대로 다시 시도했는데,
리프레시를 씨게하고 와서 그런지 하는 방법을 터득했다!

ㅠㅠ 최고다
내일은 이제 진짜 끝내야겠다...
'proyector en Chile' 카테고리의 다른 글
Llama 를 활용한 지원서 독창성 평가 (2) | 2024.12.17 |
---|---|
Label Studio cloud storage 구축 (0) | 2024.11.29 |
label studio 외부 공유 방법(2) (0) | 2024.11.29 |
label studio 외부 공유 방법(1) (2) | 2024.11.29 |
1126_label studio (0) | 2024.11.27 |