1.회귀(Regression)인공지능과 머신러닝에서 입력 변수(독립 변수)와 출력 변수(종속 변수) 간의 관계를 모델링하여 연속적인 값을 예측하는 기법 1-1.선형 회귀(Linear Regression)입력 변수(독립 변수)와 출력 변수(종속 변수) 간의 선형적인 관계를 모델링하여 값을 예측하는 통계적 방법주어진 데이터가 직선으로 표현될 수 있다고 가정하며, 이를 기반으로 새로운 입력 데이터에 대해 종속 변수를 예측한다. y: 예측 값(종속 변수)x: 입력 값(독립 변수)w: 회귀 계수(기울기)b: 절편(바이어스) import numpy as npfrom sklearn.linear_model import LinearRegression# 데이터 생성X = np.array([[1], [2], [3..
0.머신 러닝(Machine Learning)데이터를 이용해 알고리즘이 스스로 학습하여, 명시적인 프로그래밍 없이 예측하거나 결정을 내리는 기술이다.즉 데이터를 기반으로 학습하며, 그 학습 결과를 바탕으로 새로운 데이터를 처리하거나 예측하는 데 사용한다. 1.데이터셋 (Dataset)머신 러닝에서 사용하는 데이터의 집합일반적으로 훈련 데이터와 테스트 데이터로 나누어 사용 1-1.훈련 데이터 (Training Data)모델이 학습하는 데 사용하는 데이터. 주어진 입력에 대한 정답이 포함된다. 1-2.테스트 데이터 (Test Data)훈련된 모델의 성능을 평가하는 데 사용하는 데이터. 모델은 테스트 데이터의 정답을 모르며, 예측한 값을 실제 정답과 비교한다. 1-3.검증 데이터 (Validation..
1.코사인 유사도두 벡터 간의 유사도를 측정하는 방법으로, 두 벡터의 방향이 얼마나 유사한지를 나타낸다.코사인 유사도는 벡터의 크기(길이)에는 영향을 받지 않으며, 오로지 벡터 간의 각도에 따라 유사도를 계산한다.코사인 유사도가 높다면 두 문서의 유사도가 높다는것을 의미한다. from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorizerfrom numpy import dotfrom numpy.linalg import normdef cos_sim(A, B): return dot(A, B)/(norm(A)*norm(B))corpus = [ "hello ..
1.Bag of Words단어의 빈도만을 고려하는 국소 표현(Local Representation)방법의 일종이다. 문서에 포함된 단어들의 순서를 무시하고 빈도를 기반으로 수치 벡터를 생성한다.각단어의 고유 번호와 빈도로 구성된다. from konlpy.tag import Oktokt = Okt()def build_bag_of_words(text): # 토큰화 tokens = okt.morphs(text) tokens = [token for token in tokens if token.isalnum()] # 알파벳 및 숫자만 필터링 word_idx = {} # 단어와 인덱스를 매핑 freq = [] # 단어의 빈도 for word in tokens: ..
1.국소 표현(Local Representation)각 개체가 독립적인 방식으로 표현되며, 개체 간의 관계나 상호작용은 고려되지 않는 방법각 개체(단어, 문자, 객체 등)를 고유한 고정된 벡터나 값을 통해 표현한다."사과"는 [1, 0, 0, 0]으로, "배"는 [0, 1, 0, 0]처럼 각각 고유한 벡터를 가진다. 2.분산 표현(Distributed Representation)각 개체는 벡터의 여러 차원에 의해 표현되며, 유사한 개체는 비슷한 벡터 값을 가지게 된다.각 개체를 다수의 값(또는 차원)을 가지는 벡터로 표현한다."왕" - "남자" + "여자" = "여왕"이라는 식으로 관계를 파악할 수 있다.더 높은 수준의 의미적 처리가 가능
1.통계적 언어 모델(Statistical Language Model)주어진 텍스트에서 발생할 수 있는 단어 시퀀스의 확률 분포를 모델링하는 방법이다.확률적 언어 모델링으로 방대한 데이터를 학습하여 어떻게 배치될지에 대한 확률을 예측하고, 이를 바탕으로 문장 생성, 의미 추론 등을 한다. 1-1.조건부 확률각 단어 시퀀스는 조건부 확률을 기반으로 예측된다.예를 들어, "나는 학교에 갔다"라는 문장에서, P(학교에 | 나는), P(갔다 | 학교에)와 같은 확률을 계산하여 문장의 가능성을 평가한다. 2.n-gram 모델기본적인 통계적 언어 모델이다.n개의 연속된 단어들을 고려하여 확률을 계산한다. 2-1. n-gram 특징n개의 연속적인 단어 나열을 고려하여 계산한다.Unigram(1-gram): ..
1.soynlp한국어 자연어 처리를 위한 오픈 소스 라이브러리학습 기반 모델을 사용하여 단어를 자동으로 분리하고, 여러 가지 텍스트 전처리 작업을 효율적으로 수행할 수 있도록 돕는다.불용어 처리와 어근 추출 등 다양한 기능을 제공하여 한국어 텍스트를 분석할 때 유용하다. https://github.com/lovit/soynlp GitHub - lovit/soynlp: 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 /한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlpgithub.com 1-1.응집확률(cohesion probabilities)응집 확률은 주로 텍스트 내에서 단어나 구가 ..
1.지도 학습(Supervised Learning)지도 학습(Supervised Learning)은 기계 학습의 한 유형으로, 라벨이 붙은 데이터를 사용하여 모델을 학습시키는 방법이다. 입력 데이터(Feature)와 해당 데이터에 대한 정답(Label)을 함께 제공하며 모델이 새로운 데이터에 대한 정답을 예측할수 있도록 학습한다. 1-1.지도학습의 특징지도학습은 입력 데이터에 정답이 포함되어있는 형태로 학습시켜야하기때문에 이를 모으는데 어려움이 있을수도있다. 분류(Classification) , 회귀(Regression) 작업에 유리하여 입력 데이터를 사전 정의된 범주 중 하나로 분류하거나 연속적인 값을 예측하는데 주로 사용된다.