'AI' 카테고리의 글 목록 (6 Page)

2024.12.28· AI

1.회귀(Regression)인공지능과 머신러닝에서 입력 변수(독립 변수)와 출력 변수(종속 변수) 간의 관계를 모델링하여 연속적인 값을 예측하는 기법 1-1.선형 회귀(Linear Regression)입력 변수(독립 변수)와 출력 변수(종속 변수) 간의 선형적인 관계를 모델링하여 값을 예측하는 통계적 방법주어진 데이터가 직선으로 표현될 수 있다고 가정하며, 이를 기반으로 새로운 입력 데이터에 대해 종속 변수를 예측한다. y: 예측 값(종속 변수)x: 입력 값(독립 변수)w: 회귀 계수(기울기)b: 절편(바이어스) import numpy as npfrom sklearn.linear_model import LinearRegression# 데이터 생성X = np.array([[1], [2], [3..

[AI] 머신 러닝(Machine Learning) 용어

2024.12.27· AI

0.머신 러닝(Machine Learning)데이터를 이용해 알고리즘이 스스로 학습하여, 명시적인 프로그래밍 없이 예측하거나 결정을 내리는 기술이다.즉 데이터를 기반으로 학습하며, 그 학습 결과를 바탕으로 새로운 데이터를 처리하거나 예측하는 데 사용한다. 1.데이터셋 (Dataset)머신 러닝에서 사용하는 데이터의 집합일반적으로 훈련 데이터와 테스트 데이터로 나누어 사용 1-1.훈련 데이터 (Training Data)모델이 학습하는 데 사용하는 데이터. 주어진 입력에 대한 정답이 포함된다. 1-2.테스트 데이터 (Test Data)훈련된 모델의 성능을 평가하는 데 사용하는 데이터. 모델은 테스트 데이터의 정답을 모르며, 예측한 값을 실제 정답과 비교한다. 1-3.검증 데이터 (Validation..

[AI] 코사인 유사도

2024.12.27· AI

1.코사인 유사도두 벡터 간의 유사도를 측정하는 방법으로, 두 벡터의 방향이 얼마나 유사한지를 나타낸다.코사인 유사도는 벡터의 크기(길이)에는 영향을 받지 않으며, 오로지 벡터 간의 각도에 따라 유사도를 계산한다.코사인 유사도가 높다면 두 문서의 유사도가 높다는것을 의미한다. from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorizerfrom numpy import dotfrom numpy.linalg import normdef cos_sim(A, B): return dot(A, B)/(norm(A)*norm(B))corpus = [ "hello ..

[AI] Bag of Words

2024.12.27· AI

1.Bag of Words단어의 빈도만을 고려하는 국소 표현(Local Representation)방법의 일종이다. 문서에 포함된 단어들의 순서를 무시하고 빈도를 기반으로 수치 벡터를 생성한다.각단어의 고유 번호와 빈도로 구성된다. from konlpy.tag import Oktokt = Okt()def build_bag_of_words(text): # 토큰화 tokens = okt.morphs(text) tokens = [token for token in tokens if token.isalnum()] # 알파벳 및 숫자만 필터링 word_idx = {} # 단어와 인덱스를 매핑 freq = [] # 단어의 빈도 for word in tokens: ..

[AI] 국소 표현(Local Representation),분산 표현(Distributed Representation)

2024.12.27· AI

1.국소 표현(Local Representation)각 개체가 독립적인 방식으로 표현되며, 개체 간의 관계나 상호작용은 고려되지 않는 방법각 개체(단어, 문자, 객체 등)를 고유한 고정된 벡터나 값을 통해 표현한다."사과"는 [1, 0, 0, 0]으로, "배"는 [0, 1, 0, 0]처럼 각각 고유한 벡터를 가진다. 2.분산 표현(Distributed Representation)각 개체는 벡터의 여러 차원에 의해 표현되며, 유사한 개체는 비슷한 벡터 값을 가지게 된다.각 개체를 다수의 값(또는 차원)을 가지는 벡터로 표현한다."왕" - "남자" + "여자" = "여왕"이라는 식으로 관계를 파악할 수 있다.더 높은 수준의 의미적 처리가 가능

[AI] 통계적모델, n-gram모델

2024.12.27· AI

1.통계적 언어 모델(Statistical Language Model)주어진 텍스트에서 발생할 수 있는 단어 시퀀스의 확률 분포를 모델링하는 방법이다.확률적 언어 모델링으로 방대한 데이터를 학습하여 어떻게 배치될지에 대한 확률을 예측하고, 이를 바탕으로 문장 생성, 의미 추론 등을 한다. 1-1.조건부 확률각 단어 시퀀스는 조건부 확률을 기반으로 예측된다.예를 들어, "나는 학교에 갔다"라는 문장에서, P(학교에 | 나는), P(갔다 | 학교에)와 같은 확률을 계산하여 문장의 가능성을 평가한다. 2.n-gram 모델기본적인 통계적 언어 모델이다.n개의 연속된 단어들을 고려하여 확률을 계산한다. 2-1. n-gram 특징n개의 연속적인 단어 나열을 고려하여 계산한다.Unigram(1-gram): ..

[AI] soynlp

2024.12.27· AI

1.soynlp한국어 자연어 처리를 위한 오픈 소스 라이브러리학습 기반 모델을 사용하여 단어를 자동으로 분리하고, 여러 가지 텍스트 전처리 작업을 효율적으로 수행할 수 있도록 돕는다.불용어 처리와 어근 추출 등 다양한 기능을 제공하여 한국어 텍스트를 분석할 때 유용하다. https://github.com/lovit/soynlp GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 /한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlpgithub.com 1-1.응집확률(cohesion probabilities)응집 확률은 주로 텍스트 내에서 단어나 구가 ..

[AI] 지도 학습(Supervised Learning)이란?

2024.12.27· AI

1.지도 학습(Supervised Learning)지도 학습(Supervised Learning)은 기계 학습의 한 유형으로, 라벨이 붙은 데이터를 사용하여 모델을 학습시키는 방법이다. 입력 데이터(Feature)와 해당 데이터에 대한 정답(Label)을 함께 제공하며 모델이 새로운 데이터에 대한 정답을 예측할수 있도록 학습한다. 1-1.지도학습의 특징지도학습은 입력 데이터에 정답이 포함되어있는 형태로 학습시켜야하기때문에 이를 모으는데 어려움이 있을수도있다. 분류(Classification) , 회귀(Regression) 작업에 유리하여 입력 데이터를 사전 정의된 범주 중 하나로 분류하거나 연속적인 값을 예측하는데 주로 사용된다.

티스토리툴바