728x90
1.KSS(Korean Sentence Splitter)
한국어 텍스트를 문장 단위로 나누기 위해 설계된 Python 라이브러리
한국어의 복잡한 문법 구조와 다양한 어미, 조사 등을 고려하여 정확한 문장 경계를 찾아내는 데 초점을 맞추고 있다.
import kss
text = '나는 자랑스럽다. 나 자신이 정말 자랑스러운가? 그래그래 맞다.'
print(kss.split_sentences(text))
print(kss.split_morphemes(text))
#결과
['나는 자랑스럽다.', '나 자신이 정말 자랑스러운가?', '그래그래 맞다.']
[('나', 'NP'), ('는', 'JX'), ('자랑', 'NNG'), ('스럽', 'XSA'), ('다', 'EF'), ('.', 'SF'),
('나', 'NP'), ('자신', 'NNG'), ('이', 'JKS'), ('정말', 'MAG'), ('자랑', 'NNG'),
('스러운가', 'XSA+EF'), ('?', 'SF'), ('그래그래', 'IC'), ('맞', 'VV'),
('다', 'EF'), ('.', 'SF')]
2.OKT(Open Korean Text)
한국어 형태소 분석 및 자연어 처리를 위한 라이브러리
한국어 문장을 형태소 단위로 나누고 품사 태깅을 수행하는 데 유용하다.
3.Kkma(꼬꼬마)
Java 기반의 KOMORAN 라이브러리를 발전시킨 형태소 분석 도구
형태소를 분석하고 품사를 태깅하며 문장을 세분화하는 데 사용
from konlpy.tag import Okt
from konlpy.tag import Kkma
okt = Okt()
kkma = Kkma()
text="나는 당신과 그의 소중한 사람이 될수있었나요? 그러면 좋겠네요."
print("형태소")
print(okt.morphs(text))
print(kkma.morphs(text))
print("품사")
print(okt.pos(text))
print(kkma.pos(text))
print("명사")
print(okt.nouns(text))
print(kkma.nouns(text))
#결과
형태소
['나', '는', '당신', '과', '그', '의', '소중한', '사람', '이', '될수있었나요', '?', '
그러면', '좋겠네요', '.']
['나', '는', '당신', '과', '그', '의', '소중', '하', 'ㄴ', '사람', '이', '되', 'ㄹ', '수', '있', '었', '나요', '?', '그러', '면', '좋', '겠', '네요', '.']
품사
[('나', 'Noun'), ('는', 'Josa'), ('당신', 'Noun'), ('과', 'Josa'), ('그', 'Noun'), ('
의', 'Josa'), ('소중한', 'Adjective'), ('사람', 'Noun'), ('이', 'Josa'), ('될수있었나 요', 'Verb'), ('?', 'Punctuation'), ('그러면', 'Adverb'), ('좋겠네요', 'Adjective'), ('.', 'Punctuation')]
[('나', 'NP'), ('는', 'JX'), ('당신', 'NP'), ('과', 'JKM'), ('그', 'NP'), ('의', 'JKG'), ('소중', 'XR'), ('하', 'XSA'), ('ㄴ', 'ETD'), ('사람', 'NNG'), ('이', 'JKC'), ('되', 'VV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('었', 'EPT'), ('나요', 'EFQ'), ('?', 'SF'), ('그러', 'VV'), ('면', 'ECE'), ('좋', 'VA'), ('겠', 'EPT'), ('네요', 'EFN'), ('.', 'SF')]
명사
['나', '당신', '그', '사람']
['나', '당신', '그', '사람', '수']
728x90
'AI' 카테고리의 다른 글
[AI] from tensorflow.keras.preprocessing.text import Tokenizer 오류 (0) | 2024.12.25 |
---|---|
[AI] kss pip install 실패 오류 (0) | 2024.12.23 |
[AI]토큰화(Tokenization) (0) | 2024.12.23 |