워드 클라우드
최근 토이 프로젝트로 '워드 클라우드'를 구현하고 있습니다.
워드 클라우드란 단어의 빈도에 따라 크기를 다르게 보여주는 데이터 시각화 기법 중 하나입니다.
워드 클라우드를 구현하기 위해서는 먼저 조사, 접속사 같은 불용어들을 제거해야 합니다.
저는 불용어를 처리하기 위해 관련 라이브러리를 찾던 중 konlpy를 발견했습니다.
(konlpy의 대한 자세한 내용은 아래 레퍼런스에서 확인해주세요.)
konlpy 사용법을 간단하게 보자면 아래와 같습니다.
>>> from konlpy.tag import Komoran
>>> komoran = Komoran(userdic='/tmp/dic.txt')
>>> print(komoran.morphs(u'우왕 코모란도 오픈소스가 되었어요'))
['우왕', '코모란', '도', '오픈소스', '가', '되', '었', '어요']
>>> print(komoran.nouns(u'오픈소스에 관심 많은 멋진 개발자님들!'))
['오픈소스', '관심', '개발자']
>>> print(komoran.pos(u'혹시 바람과 함께 사라지다 봤어?'))
[('혹시', 'MAG'), ('바람과 함께 사라지다', 'NNP'), ('보', 'VV'), ('았', 'EP'), ('어', 'EF'), ('?', 'SF')]
konlpy 실행 에러
konlpy 설치와 코드 작성은 어렵지 않았지만 문제는 실행단계에서 에러가 발생했습니다.
FileNotFoundError: [Errno 2] JVM DLL not found: /Library/Java/JavaVirtualMachines/jdk-18.0.1.1.jdk/Contents/Home/lib/libjli.dylib
에러는 java 패키지 내에서 libjli.dylib 파일을 찾을 수 없다는 내용이었습니다.
구글링을 해보고 관련된 해결책을 시도해보았지만 모두 되지 않았습니다.
분명 패키지에 해당 파일이 있지만 정작 터미널은 해당 파일을 찾을 수 없다고만 했습니다.
그러던 중 제 맥북이 m1 이기 때문에 발생하는 문제가 아닐까 의심이 생겼고 관련된 정보를 찾기 시작했습니다.
다행히 관련 글을 찾을 수 있었고 자바 패키지를 새로 설치해보았습니다. (패키지 다운로드 링크)
하지만 위 블로그에 적힌 파일 경로는 제가 설치한 파일 경로와 달라 직접 파일의 위치를 찾아 주입했습니다.
저의 파일 경로는 아래와 같습니다.
/Library/Java/JavaVirtualMachines/jdk1.8.0_333.jdk/Contents/Home/jre/lib/jli/libjli.dylib
(저의 경로는 참고만 하시고 실제 파일의 위치를 직접 확인해보시기 바랍니다!)
마무리
결국 문제를 해결할 수 있었습니다.
이것 때문에 수시간 동안 헤맸었는데 그래도 문제를 해결하니 기분이 좋았습니다!
konlpy 덕분에 아래 영상처럼 필요한 단어들만 추출할 수 있었습니다.
이후로도 아직 진행할 Task들이 많은데 토이 프로젝트에 대해서는 추후 진행과정을 글로 남기겠습니다.
레퍼런스
'나는 이렇게 학습한다 > Library' 카테고리의 다른 글
python-dotenv _ 환경변수를 .env 파일로 관리하기 (0) | 2022.08.13 |
---|---|
websockets _ Python 으로 비트코인 실시간 시세 가져오기 (feat. twelvedata) (1) | 2022.07.24 |
SQLAlchemy _ add() 와 add_all() 사용법과 차이점 (0) | 2022.05.02 |
Pytest _ client 에서 parmas 값 넣는 방법 (0) | 2022.04.27 |
SQLAlchemy 1.x 와 2.0의 Query 스타일 비교 (0) | 2022.04.25 |