728x90
1.LLM(Large Language Model)
방대한 양의 텍스트 데이터를 기반으로 학습한 인공지능 모델로, 자연어 처리(NLP) 작업을 수행하는 데 사용한다.
대규모 데이터셋과 강력한 컴퓨팅 자원을 사용하여 언어 패턴을 학습하고 이해한다.
2.특징
2-1.대규모 데이터
LLM은 인터넷, 책, 기사, 논문 등 다양한 출처에서 수집한 방대한 양의 텍스트 데이터를 학습하여 다양한 주제와 문맥에 대한 이해도를 높인다.
2-2.복잡한 언어 이해
LLM은 문법, 의미, 문맥, 어휘 등을 학습하여 자연어를 이해하고 생성하는 능력이 뛰어난 능력으로 텍스트 생성, 번역, 요약, 질문 응답 등의 작업에서 활용된다.
2-3.사전 학습과 미세 조정
대규모 텍스트 데이터로 사전 학습(pre-training)을 하고, 특정 작업에 맞게 데이터를 사용하여 미세 조정(fine-tuning)을 한다.
3.작동원리
3-1.입력 처리
입력 텍스트가 토큰화되고 임베딩 층을 통해 수치 벡터로 변환됩니다.
3-2.인코더 처리
인코더는 입력 벡터를 처리하여 고차원 표현을 만듭니다. 어텐션 메커니즘을 통해 중요한 정보에 집중합니다.
3-3.디코더 처리
디코더는 인코더의 출력을 받아 시퀀스 예측을 수행합니다. 어텐션 메커니즘을 사용하여 이전 출력과 인코더 출력을 참고합니다.
3-4.출력 생성
최종적으로 디코더의 출력을 기반으로 예측된 단어의 확률 분포를 통해 다음 단어를 생성하거나 전체 시퀀스를 완성합니다.
4.현재 LLM 서비스 수준 비교(2024.05.20일기준)
몇일전 GPT-4o모델이 새롭게 출시되어 일부 무료로 풀렸다.
출처:https://benchmarks.kensho.com/
🎈참고자료
https://www.elastic.co/kr/what-is/large-language-models
https://brunch.co.kr/@seungpillee/78
https://benchmarks.kensho.com/
728x90
'AI' 카테고리의 다른 글
[AI] Diffusion 모델이 뭐지? (1) | 2024.12.21 |
---|---|
[AI] 아나콘다 설치, vscode에서 사용 (2) | 2024.12.20 |
[AI] GPT2 모델 사용해보기 (3) | 2024.12.19 |