분류 전체보기
-
마틴 루터 킹 연설문을 이용한 텍스트 마이닝 및 워드클라우드잡다R 2020. 2. 7. 00:23
마틴 루터 킹 연설문을 이용한 텍스트 마이닝 및 워드클라우드 2020년 새해가 밝았습니다! 모두 복 많이 받으세요 :) 올해 첫 글은 텍스트 마이닝과 워드클라우드를 진행하겠습니다. 텍스트 마이닝은 짧게 정의하면 비정형 데이터인 ’텍스트’를 가공하여 분석하는 것입니다. 저는 작년에 학교에서 진행했던 프로젝트 덕분에 텍스트 마이닝을 해본 경험이 있습니다. 복습 차원에서 작성하는 의미도 있고, 최근 각광받기 때문도 있습니다. 요즘 서비스 기업들을 보면 소비자의 리뷰를 중요하게 생각하기 때문에 리뷰에 대한 텍스트 마이닝을 많이 진행하는 것 같습니다. 예를 들어 영화 리뷰나 트위터 분석 이런 것들이죠. R이 있다면 우리도 따라갈 수 있습니다. 그럼 바로 시작해보겠습니다. 텍스트 마이닝의 주제는 역사상 가장 뛰어난..
-
Rselenium으로 로또 1등 배출점 웹크롤링하기잡다R 2019. 12. 11. 15:26
Rselenium으로 로또 1등 배출점 웹크롤링하기 안녕하세요? 잡다R 두번 째 글이에요! 짝짝짝 지난 시간에 이어서 이번 잡다R 주제도 로또에 관한 걸로 잡았습니다. 왜냐하면 제가 되게 미련을 못 버리는 스타일이라.. 크ㅡ흠. 각설하고 이번 주제에서 렛미 두잇 할 일에 대해서 살펴볼게요. 로또 홈페이지에서 1등 배출점 정보를 웹크롤링합니다. 웹크롤링해온 데이터를 이용해 서울 지도를 그려봅니다. 로또 1등 배출점을 웹크롤링해보고, 그 데이터를 이용해서 지도 시각화까지 해보겠습니다. 원래는 웹크롤링과 시각화를 한 번에 진행하려고 했는데, 글이 길어지는 바람에 지도 시각화는 [다음글]에서 하도록 하고, 여기서는 웹크롤링에 관한 이야기만 할게요. 로또 홈페이지에서는 262회차부터 로또 1등 당첨자를 배출한 판..
-
R을 이용한 로또 1등 당첨번호 파헤치기잡다R 2019. 11. 18. 20:06
" 로또에 당첨되고 싶어요 " 로또에 당첨되고 싶은 염원을 담아서 첫 번째 잡다R 주제를 로또로 정해봤습니다. 짝짝짝 ^-^ 먼저 R을 이용해서 기본세팅을 해주겠습니다. 필요한 library를 불러오고 로또 홈페이지에서 로또데이터를 받아오도록 하겠습니다. 저는 881회까지의 데이터를 이용하고 있으니, 참고해주세요! library(readxl) library(dplyr) library(ggplot2) library(tidyr) # getwd() lotto_raw % ggplot(aes(x = num_count, y = n, fill = num_count)) + geom_bar(stat = "identity") + scale_x_discrete(limits = c(1:45)) + scale_fill_disc..