1. 입력 데이터 (Input Data)
모델에 의해 처리되는 데이터
(이미지, 텍스트, 숫자)
2.정답 데이터 (Label or Target)
모델이 예측해야 할 정답을 의미
(감정 분석에서 '긍정' 또는 '부정')
3.특성 (Feature)
입력 데이터를 구성하는 다양한 속성
4.Training Set (훈련 데이터셋)
모델이 학습할 때 사용하는 데이터셋
모델의 파라미터를 조정하고 최적화하는 데 사용된다.
텍스트 분류 작업에서 훈련 데이터는 특정 문장(입력 데이터)과 해당 문장의 라벨(정답 데이터)로 구성된다.
inputs = ["I love this movie", "This is boring"]
labels = [1, 0] # 1: 긍정, 0: 부정
5.Validation Set (검증 데이터셋)
모델 학습 중간에 모델의 성능을 평가하고 하이퍼파라미터를 조정하기 위해 사용하는 데이터셋
6.Test Set (테스트 데이터셋)
모델의 최종 성능을 평가하기 위해 사용하는 데이터셋
7.Train-Validation-Test Split (데이터 분할)
전체 데이터셋을 훈련 데이터, 검증 데이터, 테스트 데이터로 나누는 과정
from sklearn.model_selection import train_test_split
# 전체 데이터를 훈련, 테스트로 분할
train_data, test_data = train_test_split(data, test_size=0.2)
# 훈련 데이터를 훈련, 검증으로 분할
train_data, val_data = train_test_split(train_data, test_size=0.2)
8.Batch (배치)
데이터를 한 번에 처리하는 작은 묶음 단위
Batch Size:배치 하나에 포함되는 데이터 샘플 수
(전체 데이터셋이 1,000개이고 배치 크기가 32라면, 한 번의 학습 과정에서 32개의 샘플을 처리)
9.Shuffling (셔플링)
데이터셋의 순서를 무작위로 섞는 과정
데이터의 순서로 인해 모델이 편향되지 않도록 방지한다.
10.Sampling (샘플링)
데이터셋에서 일부 데이터를 추출하는 과정
11.Data Augmentation (데이터 증강)
데이터를 변형하거나 가공하여 새로운 데이터를 생성하는 기법
반응형
'AI' 카테고리의 다른 글
[AI] Trainer API (0) | 2025.01.09 |
---|---|
[AI] transformers DataSet 전처리 (0) | 2025.01.08 |
[AI] AutoTokenizer, AutoModel (0) | 2025.01.07 |