1. 입력 데이터 (Input Data)모델에 의해 처리되는 데이터(이미지, 텍스트, 숫자) 2.정답 데이터 (Label or Target)모델이 예측해야 할 정답을 의미(감정 분석에서 '긍정' 또는 '부정') 3.특성 (Feature)입력 데이터를 구성하는 다양한 속성 4.Training Set (훈련 데이터셋)모델이 학습할 때 사용하는 데이터셋모델의 파라미터를 조정하고 최적화하는 데 사용된다. 텍스트 분류 작업에서 훈련 데이터는 특정 문장(입력 데이터)과 해당 문장의 라벨(정답 데이터)로 구성된다.inputs = ["I love this movie", "This is boring"]labels = [1, 0] # 1: 긍정, 0: 부정 5.Validation Set (검증 데이..
분류 전체보기
1.DataSet 로드datasets 라이브러리를 이용해 GLUE 데이터셋 중 하나인 MRPC를 로드한다.학습(train), 검증(validation), 테스트(test) 데이터가 포함된다.(문장 유사성 판단 작업에 사용가능)### 데이터셋 로드raw_datasets = load_dataset("glue", "mrpc") 2.토크나이저와 모델 로드토크나이저: bert-base-uncased 체크포인트를 사용하여 문장을 토큰으로 변환한다.모델: 사전 학습된 bert-base-uncased을 로드하고, 이진 분류를 위한 TFAutoModelForSequenceClassification으로 초기화한다.옵티마이저: Adam 옵티마이저를 사용하여 학습 속도를 조절한다. ### 토크나이저와 모델 로드check..
1.웹 어셈블리(WASM, WebAssembly)브라우저에서 실행되는 바이너리 코드 포맷으로, 웹 애플리케이션의 성능을 크게 향상시킬 수 있는 기술고수준 언어(예: C, C++, Rust 등)로 작성된 코드를 웹 브라우저에서 실행할 수 있는 효율적인 이진 형식으로 변환한다.자바스크립트에 비해 빠른 실행 속도를 가지기 떄문에 게임, 고성능 프로그램등을 웹에서 돌릴때 유용하다. https://developer.mozilla.org/ko/docs/WebAssembly/Concepts WebAssembly의 개념 - 웹어셈블리 | MDN이번 글에서는 WebAssembly의 작동원리 뒤에 숨어있는 컨셉을 설명함과 동시에 WebAssembly의 목표, WebAssembly가 해결할 수 있는 문제, 그리고 웹브라우저..
1.Zustand상태를 전역적으로 관리할 수 있으며, 사용하기 쉬운 API와 빠른 성능을 제공하는 리엑트 라이브러리 2.Zustand store상태와 상태를 업데이트하는 함수들을 포함하고 있으며, 상태를 변경할 때마다 리렌더링을 트리거할수있다.create함수를 통해 생성한다. 3.Context 방식 vs Zustand 방식2-1. 상태 저장,업데이트Context 방식useState를 사용하여 상태를 컴포넌트마다 관리하고 React.Dispatch> 을 사용하여 업데이트를 한다.interface GlobalState { page: number; setPage: React.Dispatch>; searched: boolean; setSearched: React.Dispatch>; sea..
1.useReducer1-1.reducer 함수상태(state)를 업데이트하는 함수 현재 상태(state)와 액션(action)을 받아서 새로운 상태(state)를 반환하는 역할을 한다.function reducer(state, action) { switch (action.type) { case 'ADD':// 새로운 작업을 tasks 배열에 추가 return { ...state, tasks: [...state.tasks, action.newTask] }; case 'DELETE':// 특정 id를 가진 작업을 삭제 return { ...state, tasks: state.tasks.filter(t => t.i..
1.AutoTokenizertransformers 라이브러리에서 제공하는 고수준 API로, 사용자가 쉽게 특정 모델에 맞는 토크나이저를 로드할 수 있도록 도와준다.AutoTokenizer는 다양한 모델에 대해 자동으로 해당 모델에 맞는 토크나이저를 선택하고 불러오기 때문에, 모델 이름만으로 적절한 토크나이저를 손쉽게 사용할 수 있다.from transformers import AutoTokenizer# 모델의 체크포인트를 지정# 'bert-base-uncased'는 BERT 모델의 체크포인트checkpoint = "bert-base-uncased"# AutoTokenizer를 사용하여 체크포인트에 맞는 토크나이저를 호출# AutoTokenizer는 자동으로 해당 모델에 맞는 토크나이저를 로드# BertT..
1.편향(Bias)데이터나 모델이 특정 집단에 대해 불공정하거나 왜곡된 결정을 내리는 경향을 의미한다. 1-1.데이터 편향(Data Bias)데이터 자체가 특정 집단이나 속성에 대해 불균형할때 모델이 특정 집단을 과대평가하거나 과소평가하게 만든다.(얼굴 인식 시스템에서 백인 얼굴이 주로 학습되면, 아시아인이나 흑인 얼굴 인식에 실패할 수 있음) 1-2.표본 편향(Sampling Bias)훈련 데이터가 실제 세계의 다양한 특성을 충분히 반영하지 못하는 경우 발생한다.(특정 지역이나 특정 연령대의 사람들만 포함된 데이터셋을 사용할 경우, 다른 지역이나 연령대에서의 성능이 떨어질 수 있음) 1-3.알고리즘 편향(Algorithmic Bias)모델의 설계나 학습 과정에서 특정 그룹을 의도치 않게 차별..
1.인코더 모델 (Encoder Models)입력 데이터를 이해하고, 이를 고차원의 벡터(잠재 공간)로 변환한다.정보 압축과 특징 추출을 잘하고 주로 분류나 특징 생성 같은 작업에서 사용한다.BERT: 문장의 문맥적 표현을 학습하여 자연어 이해 작업(감정 분석, 질문 응답 등)에 사용.컴퓨터 비전: CNN 기반 인코더로 이미지를 저차원 벡터로 변환. 2.디코더 모델 (Decoder Model)주어진 벡터 표현(잠재 공간)에서 출력 데이터를 생성한다.데이터 복원과 생성 능력이 좋아서 다양한 생성 작업(텍스트, 이미지 등)에서 유용하다.GPT 계열 모델: 주어진 텍스트를 기반으로 새로운 문장을 생성.이미지 복원: 낮은 품질의 이미지나 영상 데이터를 고해상도로 복원. 3.인코더-디코더 모델 (Enc..