전체 글

프로그래밍 공부한거 정리해두는 메모장 블로그
· AI
1.원핫 인코딩범주형 데이터를 수치형 데이터로 변환하는 기법각 토큰들을 수치형 데이터로 변환하여 벡터로 변환하여 모델이 이해할 수 있게 만든다.keras의 Tokenizer로 토큰화하고 texts_to_sequences로 텍스트 데이터를 숫자 시퀀스로 변환한다음to_categorical로 원핫인코딩을 수행한다.from keras.preprocessing.text import Tokenizerfrom keras.utils import to_categoricaltext = "한겨울 밤의 하늘은 차갑고 맑았다. 별빛은 검은 캔버스 위에 수를 놓듯 흩어져 있었고, 달은 마치 은빛으로 도금된 보석처럼 찬란하게 빛났다. 바람은 나뭇가지 사이를 스치며 낮게 울렸고, 얼음처럼 차가운 공기는 숨을 쉴 때마다 뺨을 얼렸다..
· AI
1.정제(Cleaning)문장을 토큰화하기 이전 우리는 문장을 한번 Cleaning하는 과정을 거쳐야한다. 그렇지 않으면 아래처럼 '.', '?' 같은 목적에 맞지않는 불필요한 요소들이 같이 토큰화된다. ['한겨울', '밤', '의', '하늘', '은', '차갑고', '맑았다', '.', '별빛', '은', '검은', '캔버스', '위', '에', '수', '를', '놓듯', '흩어져', '있었고', ',', '달', '은', '마치', '은빛', '으로', '도금', '된', '보석', '처럼', '찬란하게', '빛났다', '.', '바람', '은', '나뭇가지', '사이', '를', '스치며', '낮게', '울렸고', ',', '얼음', '처럼', '차가운', '공기', '는', '숨', '을', '..
· AI
0.정수 인코딩텍스트 데이터를 모델에 사용할 수 있는 숫자 형식으로 변환하는 방법컴퓨터는 자연어를 처리하기 어렵기 때문에 텍스트 데이터를 모델이 이해할 수 있는 숫자 형식으로 변환하는 과정을 거쳐야한다.   1.빈도수 보기(NLTK FreqDist)문장을 토큰화 하고 빈도수를 보기위해 FreqDist를 사용할수있다.from nltk import FreqDistimport numpy as npfrom nltk.tokenize import TreebankWordTokenizerimport reimport tensorflow as tfimport keras_nlp #텍스트text="hello my name is asa. I'm very strong and hello hello"#소문자화text = text.l..
· AI
0.오류 사항keras 를 통하여 정수 인코딩을 수행해야하는데 문제가 발생하였다. 현재 아나콘다 환경에서 하고있는데 해당 tensorflow.keras.preprocessing.text 을 가져올수없다고 오류가 나왔다.from tensorflow.keras.preprocessing.text import Tokenizer가져오기 "tensorflow.keras.preprocessing.text"을(를)확인할 수 없습니다.PylancereportMissingImports  Tensorflow와 Keras은 각각 다음과같은 버전으로 설치되어있었다.(base) C:\Users\asa\Desktop\code\Ai\Deep-leaning-NLP>pip show tensorflowName: tensorflowVers..
0.개요요즘 쇼츠를 보다보니 아름다운 마인크래프트 경관을 보여주는 Seed 를 공유하는 쇼츠들이 많이 뜨게 되었는데 문득 Seed 가 정확하게 뭔지 내가 설명할수있는지 생각해보았는데 잘 말이 떠오르지않아서 조사를 하게 되었다.   1.사전 지식Seed에 대해 내 경험적인 지식을 통해서 알고 있는것은 무언가 무작위로 생성되는 프로그램이 있을때 특정 시드를 입력하면 해당 시드를 가지고있는 값이 항상 동일하게 결과값이 튀어나온다는 것이다. 이것은 게임이나 Stable Diffusion기반 AI 이미지 생성등 다양한곳에서 볼수있었고 사용해 보았었다.     2.의사 난수(Pseudo-random number)다들 알다시피 컴퓨터에서 무작위는 완전 무작위가 아니라 의사 난수(Pseudo-random number)..
· AI
1.KSS(Korean Sentence Splitter)한국어 텍스트를 문장 단위로 나누기 위해 설계된 Python 라이브러리한국어의 복잡한 문법 구조와 다양한 어미, 조사 등을 고려하여 정확한 문장 경계를 찾아내는 데 초점을 맞추고 있다.import ksstext = '나는 자랑스럽다. 나 자신이 정말 자랑스러운가? 그래그래 맞다.'print(kss.split_sentences(text))print(kss.split_morphemes(text))#결과['나는 자랑스럽다.', '나 자신이 정말 자랑스러운가?', '그래그래 맞다.'][('나', 'NP'), ('는', 'JX'), ('자랑', 'NNG'), ('스럽', 'XSA'), ('다', 'EF'), ('.', 'SF'),('나', 'NP'), ('자..
· AI
0.오류의 시작pip install kss 를 할때 다음과 같은 오류가 발생하였다.  × Getting requirements to build wheel did not run successfully.│ exit code: 1╰─> See above for output.  로그를 살펴보니 pyyaml 버전 6.0을 설치하던 도중 뭔가 오류가 발생한듯하다.Collecting pyyaml==6.0 (from kss)Using cached PyYAML-6.0.tar.gz (124 kB)Installing build dependencies ... doneGetting requirements to build wheel ... errorerror: subprocess-exited-with-error× Getting ..
· AI
0. 토큰화문장을 분석하기 위해 텍스트 데이터를 더 작은 단위로 나누는 과정단어(Token) 또는 문장 단위로 텍스트를 나누며, 자연어 처리(NLP)의 전처리 단계로 사용한다.      1. TensorFlow로 토큰화(단어)1-1. TensorFlow 상수 텐서화변경되지 않는 데이터를 저장하기 위해 TensorFlow에서 제공하는 데이터 구조인 TensorFlow 상수 텐서로 데이터를 저장한다. (한 번 정의되면 수정할 수 없다.)#tf.constant(value, dtype=None, shape=None, name=None)import tensorflow as tftext = tf.constant("Hello, my name is asa! How are you?")  1-2.텐서?텐서는 다차원 배열을..
아사_
개발공부 블로그