SlideShare a Scribd company logo
Python Machine Learning
Chapter 06.Text Analysis & Chatbot
ceo@partprime.com
Ryan Jeong
Today …
6-1 KOREAN MORPHOLOGY
6-2 ABOUT Word2Vec
6-1 KOREAN MORPHOLOGY
with KoNLPy
KoNLPy 설치
jdk
설치
KoNLPy
설치
$pip3 install konlpy or
연습 1단계 : 기본 형태소 분석 연습
소스
결과출력
이 예제 소스는 많은 한글 형태소 분석 라이브러리 중에서,
Twitter 라이브러리를 사용하는 가장 기본적인 예제 입니다.
한글 형태소분석 라이브러리 중에서,
속도 성능은 Mecab이 가장 좋다고 알려져 있지만,
Twitter는 개인적으로 normalization 기능이 좋아서,
나중에 학습시킬 때 여러모로 활용할 수 있어서 좋아합니다.
참고자료 출처 : http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/
연습 2단계 : 형태소 + 단어빈도 분석 연습소스 결과출력
이 예제를 실행하면,
명사만 추출하여, 명사가 출현한 빈도를 세어서, 그 명사와 함께 저장해 둡니다.
그 후,
for 문을 돌면서, 출현빈도가 많은 순으로 상위 50개까지의 단어데이터를,
‘명사(개수)’ 형태로 출력합니다.
6-2 ABOUT Word2Vec
with KoNLPy
Word2Vec 란?
문장 내부의 단어들끼리의 상관관계를 표현하기 위해,
단어를 숫자 벡터로 변환하는 것.
Word2Vec을 위한 Gensim 설치
$pip3 install gensim
or
연습 1단계 : Word2Vec 모델 만들기 연습소스 결과출력
이 예제를 실행하면, 결과 출력은 위와 같이 나옵니다.
calvin.wakati 파일은,
원본텍스트에서 조사/어미/구두점 등을 제거한 후,
새롭게 저장한 text 파일 입니다.
그러나 실제로 calvin.model 이라는 파일이 생성되는데,
이것이 실질적인 이 프로그램의 결과물이지요.
연습 2단계 : 만든 Word2Vec 모델 써먹기 연습
소스 결과출력
이제 저장했던 모델을 불러와서,
‘칼뱅’과 가까운 단어들을 추출해 보았습니다.
출력된 결과는,
읽어들이 텍스트 데이터를 학습한 결과,
대략 유사도가 98점 이상 나오는 단어들이 추출된 것입니다.
Thank youhttp://www.partprime.com

More Related Content

What's hot (17)

자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
김용범 | 무영인터내쇼날
 
파이썬과 자연어 1 | Word Cloud
파이썬과 자연어 1 | Word Cloud파이썬과 자연어 1 | Word Cloud
파이썬과 자연어 1 | Word Cloud
김용범 | 무영인터내쇼날
 
04 2 함수와매개변수
04 2 함수와매개변수04 2 함수와매개변수
04 2 함수와매개변수
Changwon National University
 
17 1 람다함수
17 1 람다함수17 1 람다함수
17 1 람다함수
Changwon National University
 
서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료
김용범 | 무영인터내쇼날
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
김용범 | 무영인터내쇼날
 
CTF WEB Back_END 개발기
CTF WEB Back_END 개발기CTF WEB Back_END 개발기
CTF WEB Back_END 개발기
one_two_12
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
김용범 | 무영인터내쇼날
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
김용범 | 무영인터내쇼날
 
파이썬을 활용한 자연어 분석 - 추가분
파이썬을 활용한 자연어 분석 - 추가분파이썬을 활용한 자연어 분석 - 추가분
파이썬을 활용한 자연어 분석 - 추가분
김용범 | 무영인터내쇼날
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
김용범 | 무영인터내쇼날
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
김용범 | 무영인터내쇼날
 
REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?
HYEONGNAM LEE
 
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초
김용범 | 무영인터내쇼날
 
02_1_변수와친해지기
02_1_변수와친해지기02_1_변수와친해지기
02_1_변수와친해지기
Changwon National University
 
파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차
김용범 | 무영인터내쇼날
 
10 2 튜플
10 2 튜플10 2 튜플
10 2 튜플
Changwon National University
 
CTF WEB Back_END 개발기
CTF WEB Back_END 개발기CTF WEB Back_END 개발기
CTF WEB Back_END 개발기
one_two_12
 
REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?
HYEONGNAM LEE
 

Similar to Python machine learning Chapter 06 - PART1 (12)

<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
Han-seok Jo
 
230404_korean_text_preprocessing.pdf
230404_korean_text_preprocessing.pdf230404_korean_text_preprocessing.pdf
230404_korean_text_preprocessing.pdf
minalang
 
유한상태변환기를 이용한 한국어_형태소_분석_이상호
유한상태변환기를 이용한 한국어_형태소_분석_이상호유한상태변환기를 이용한 한국어_형태소_분석_이상호
유한상태변환기를 이용한 한국어_형태소_분석_이상호
상호 이
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
 
유한 상태 기반의 한국어 형태소 분석기_이상호
유한 상태 기반의 한국어 형태소 분석기_이상호유한 상태 기반의 한국어 형태소 분석기_이상호
유한 상태 기반의 한국어 형태소 분석기_이상호
Lee Ji Eun
 
Pycon2017 koreannlp
Pycon2017 koreannlpPycon2017 koreannlp
Pycon2017 koreannlp
Hyunjoong Kim
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
NAVER Engineering
 
생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기
흥래 김
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
찬희 이
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT
Seonghyun Kim
 
Deep Learning for Chatbot (1/4)
Deep Learning for Chatbot (1/4)Deep Learning for Chatbot (1/4)
Deep Learning for Chatbot (1/4)
Jaemin Cho
 
[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기
LGCNSairesearch
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
Han-seok Jo
 
230404_korean_text_preprocessing.pdf
230404_korean_text_preprocessing.pdf230404_korean_text_preprocessing.pdf
230404_korean_text_preprocessing.pdf
minalang
 
유한상태변환기를 이용한 한국어_형태소_분석_이상호
유한상태변환기를 이용한 한국어_형태소_분석_이상호유한상태변환기를 이용한 한국어_형태소_분석_이상호
유한상태변환기를 이용한 한국어_형태소_분석_이상호
상호 이
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
 
유한 상태 기반의 한국어 형태소 분석기_이상호
유한 상태 기반의 한국어 형태소 분석기_이상호유한 상태 기반의 한국어 형태소 분석기_이상호
유한 상태 기반의 한국어 형태소 분석기_이상호
Lee Ji Eun
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
NAVER Engineering
 
생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기생초보를 위한 한글 형태소 분석하기
생초보를 위한 한글 형태소 분석하기
흥래 김
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
찬희 이
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT
Seonghyun Kim
 
Deep Learning for Chatbot (1/4)
Deep Learning for Chatbot (1/4)Deep Learning for Chatbot (1/4)
Deep Learning for Chatbot (1/4)
Jaemin Cho
 
[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기
LGCNSairesearch
 
Ad

More from Young Oh Jeong (18)

개혁파교의학 12장 솔하 발표본
개혁파교의학 12장 솔하 발표본개혁파교의학 12장 솔하 발표본
개혁파교의학 12장 솔하 발표본
Young Oh Jeong
 
개혁파교의학 12장 동혁 발표본
개혁파교의학 12장 동혁 발표본개혁파교의학 12장 동혁 발표본
개혁파교의학 12장 동혁 발표본
Young Oh Jeong
 
개혁파교의학 12장 다은 발표본
개혁파교의학 12장 다은 발표본개혁파교의학 12장 다은 발표본
개혁파교의학 12장 다은 발표본
Young Oh Jeong
 
개혁파교의학 12장 예건 발표본
개혁파교의학 12장 예건 발표본개혁파교의학 12장 예건 발표본
개혁파교의학 12장 예건 발표본
Young Oh Jeong
 
About RNN
About RNNAbout RNN
About RNN
Young Oh Jeong
 
About RNN
About RNNAbout RNN
About RNN
Young Oh Jeong
 
Python machine learning Chapter 07 - PART1
Python machine learning Chapter 07 - PART1Python machine learning Chapter 07 - PART1
Python machine learning Chapter 07 - PART1
Young Oh Jeong
 
What is CNN?
What is CNN?What is CNN?
What is CNN?
Young Oh Jeong
 
Python machine learning Chapter 04 - PART2
Python machine learning Chapter 04 - PART2Python machine learning Chapter 04 - PART2
Python machine learning Chapter 04 - PART2
Young Oh Jeong
 
Python machine learning Chapter 02
Python machine learning Chapter 02Python machine learning Chapter 02
Python machine learning Chapter 02
Young Oh Jeong
 
10 Scrapping Javascript
10 Scrapping Javascript10 Scrapping Javascript
10 Scrapping Javascript
Young Oh Jeong
 
07 Cleaning Your Dirty Data
07 Cleaning Your Dirty Data07 Cleaning Your Dirty Data
07 Cleaning Your Dirty Data
Young Oh Jeong
 
푸른아카데미, PART→PARTPRIME
푸른아카데미, PART→PARTPRIME푸른아카데미, PART→PARTPRIME
푸른아카데미, PART→PARTPRIME
Young Oh Jeong
 
03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)
03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)
03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)
Young Oh Jeong
 
Day by day iPhone Programming
Day by day iPhone ProgrammingDay by day iPhone Programming
Day by day iPhone Programming
Young Oh Jeong
 
네델란드개혁교회역사도식
네델란드개혁교회역사도식네델란드개혁교회역사도식
네델란드개혁교회역사도식
Young Oh Jeong
 
Everybody need programming skill. 프로그래밍, 현대인의 교양입니다
Everybody need programming skill. 프로그래밍, 현대인의 교양입니다Everybody need programming skill. 프로그래밍, 현대인의 교양입니다
Everybody need programming skill. 프로그래밍, 현대인의 교양입니다
Young Oh Jeong
 
마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점
마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점
마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점
Young Oh Jeong
 
개혁파교의학 12장 솔하 발표본
개혁파교의학 12장 솔하 발표본개혁파교의학 12장 솔하 발표본
개혁파교의학 12장 솔하 발표본
Young Oh Jeong
 
개혁파교의학 12장 동혁 발표본
개혁파교의학 12장 동혁 발표본개혁파교의학 12장 동혁 발표본
개혁파교의학 12장 동혁 발표본
Young Oh Jeong
 
개혁파교의학 12장 다은 발표본
개혁파교의학 12장 다은 발표본개혁파교의학 12장 다은 발표본
개혁파교의학 12장 다은 발표본
Young Oh Jeong
 
개혁파교의학 12장 예건 발표본
개혁파교의학 12장 예건 발표본개혁파교의학 12장 예건 발표본
개혁파교의학 12장 예건 발표본
Young Oh Jeong
 
Python machine learning Chapter 07 - PART1
Python machine learning Chapter 07 - PART1Python machine learning Chapter 07 - PART1
Python machine learning Chapter 07 - PART1
Young Oh Jeong
 
Python machine learning Chapter 04 - PART2
Python machine learning Chapter 04 - PART2Python machine learning Chapter 04 - PART2
Python machine learning Chapter 04 - PART2
Young Oh Jeong
 
Python machine learning Chapter 02
Python machine learning Chapter 02Python machine learning Chapter 02
Python machine learning Chapter 02
Young Oh Jeong
 
10 Scrapping Javascript
10 Scrapping Javascript10 Scrapping Javascript
10 Scrapping Javascript
Young Oh Jeong
 
07 Cleaning Your Dirty Data
07 Cleaning Your Dirty Data07 Cleaning Your Dirty Data
07 Cleaning Your Dirty Data
Young Oh Jeong
 
푸른아카데미, PART→PARTPRIME
푸른아카데미, PART→PARTPRIME푸른아카데미, PART→PARTPRIME
푸른아카데미, PART→PARTPRIME
Young Oh Jeong
 
03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)
03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)
03 Crawling with Beautiful Soup (네이버 카페 크롤링 하기)
Young Oh Jeong
 
Day by day iPhone Programming
Day by day iPhone ProgrammingDay by day iPhone Programming
Day by day iPhone Programming
Young Oh Jeong
 
네델란드개혁교회역사도식
네델란드개혁교회역사도식네델란드개혁교회역사도식
네델란드개혁교회역사도식
Young Oh Jeong
 
Everybody need programming skill. 프로그래밍, 현대인의 교양입니다
Everybody need programming skill. 프로그래밍, 현대인의 교양입니다Everybody need programming skill. 프로그래밍, 현대인의 교양입니다
Everybody need programming skill. 프로그래밍, 현대인의 교양입니다
Young Oh Jeong
 
마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점
마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점
마이크로소프트웨어 2002년 10월호 內, 모바일 관련 서적 리뷰 및 평점
Young Oh Jeong
 
Ad

Python machine learning Chapter 06 - PART1

  • 1. Python Machine Learning Chapter 06.Text Analysis & Chatbot [email protected] Ryan Jeong
  • 2. Today … 6-1 KOREAN MORPHOLOGY 6-2 ABOUT Word2Vec
  • 5. 연습 1단계 : 기본 형태소 분석 연습 소스 결과출력 이 예제 소스는 많은 한글 형태소 분석 라이브러리 중에서, Twitter 라이브러리를 사용하는 가장 기본적인 예제 입니다. 한글 형태소분석 라이브러리 중에서, 속도 성능은 Mecab이 가장 좋다고 알려져 있지만, Twitter는 개인적으로 normalization 기능이 좋아서, 나중에 학습시킬 때 여러모로 활용할 수 있어서 좋아합니다. 참고자료 출처 : http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/
  • 6. 연습 2단계 : 형태소 + 단어빈도 분석 연습소스 결과출력 이 예제를 실행하면, 명사만 추출하여, 명사가 출현한 빈도를 세어서, 그 명사와 함께 저장해 둡니다. 그 후, for 문을 돌면서, 출현빈도가 많은 순으로 상위 50개까지의 단어데이터를, ‘명사(개수)’ 형태로 출력합니다.
  • 8. Word2Vec 란? 문장 내부의 단어들끼리의 상관관계를 표현하기 위해, 단어를 숫자 벡터로 변환하는 것.
  • 9. Word2Vec을 위한 Gensim 설치 $pip3 install gensim or
  • 10. 연습 1단계 : Word2Vec 모델 만들기 연습소스 결과출력 이 예제를 실행하면, 결과 출력은 위와 같이 나옵니다. calvin.wakati 파일은, 원본텍스트에서 조사/어미/구두점 등을 제거한 후, 새롭게 저장한 text 파일 입니다. 그러나 실제로 calvin.model 이라는 파일이 생성되는데, 이것이 실질적인 이 프로그램의 결과물이지요.
  • 11. 연습 2단계 : 만든 Word2Vec 모델 써먹기 연습 소스 결과출력 이제 저장했던 모델을 불러와서, ‘칼뱅’과 가까운 단어들을 추출해 보았습니다. 출력된 결과는, 읽어들이 텍스트 데이터를 학습한 결과, 대략 유사도가 98점 이상 나오는 단어들이 추출된 것입니다.