잡다R
-
kaggle 데이터로 EDA 이해하기잡다R 2021. 1. 19. 22:20
데이터 분석 기초 역량을 확인하는 방법으로 EDA에 대해 말이 많습니다. 이번 글에서는 EDA란 무엇이고 어떻게 진행하는지 알아보도록 하겠습니다. EDA란 탐색적 자료분석의 약자로 데이터를 처음 받았을 때 그 특성을 파악하기 위해 이루어집니다. 데이터가 어떻게 생겼는지, 오류는 없는지 등 기본적인 정보를 파악하는 목적이 되고 분석 주제를 잡거나 문제 해결을 위한 척도가 되기도 합니다. 목적이 광범위한 느낌이 듭니다. 그래서 제가 배웠던 내용 중에 EDA를 이해하기에 가장 쉽고 깔끔한 내용을 소개해드리면 다음과 같습니다. 데이터를 사과라고 했을 때, 사과를 살펴보는 방법을 크게 2가지로 나누고 사과의 특징을 다음과 같이 정리할 수 있습니다. 1. 시각적인 정보로만 사과를 살펴본다. 예) 빨간색이다, 모양이..
-
종로대첩과 의미연결망잡다R 2020. 6. 19. 18:51
종로 대첩과 의미연결망 이번 시간에는 텍스트 마이닝 기법 중 하나인 의미연결망을 진행해보도록 하겠습니다. 의미연결망은 사회연결망 구조를 텍스트 데이터에 접목시킨 것으로 단어 사이의 관계나 의미를 도출하는 분석법이라고 합니다. 의미연결망 작업은 어떻게 진행되며 결과에 대한 해석은 어떤 식으로 이루어지는지, 직접 데이터를 가지고 두들겨보고 이야기해보도록 하겠습니다. 이번 데이터는 일명 종로대첩이죠, 지난 415총선 때 가장 뜨거운 격전지였던 종로구에서 두 후보자가 종로구 국회의원선거 후보자 토론회에서 만나 이야기 나눈 내용을 담고 있습니다. 종로구 후보자 토론회에 대한 의미연결망 분석은 이미 서울대 모 교수님께서 진행하셨습니다. 그리고 그 내용이 jtbc 이규연의 스포트라이트라는 시사 프로그램에서 이미 다뤄..
-
코로나 바이러스 데이터 분석 (누적확진자와 증가율 그래프)잡다R 2020. 3. 31. 02:38
코로나 바이러스 데이터 분석 지난 글에 이어 코로나 바이러스 데이터 분석을 진행합니다. 날짜에 따라 각국의 코로나 바이러스 확진자 증가 또는 감소 상황이 어떤지 살펴보고 전일 대비 증가율을 추세선과 함께 살펴보겠습니다. 데이터는 kaggle 코로나 바이러스 데이터셋에서 3월 29일까지의 코로나 바이러스 데이터를 받아왔습니다. 먼저 데이터와 tidyverse 라이브러리를 불러오도록 하겠습니다. covid19 % arrange(desc(n)) %>% head(10) top10 % group_by(Country.Region, ObservationDate) %>% summarise(confirmed_number = sum(Confirmed)) covid19top10 %>% ggplot(aes(x = Observ..
-
코로나 바이러스 데이터 분석잡다R 2020. 3. 11. 02:40
코로나 바이러스 데이터 분석 코로나 바이러스 데이터가 업데이트되면서 많은 분들이 kaggle 등에서 의미 있는 결과를 찾아내고자 데이터 분석을 진행 중입니다. 저도 도움이 되고자 데이터 분석을 진행하는데, 글을 쓰는 도중에 갑자기 결과가 바뀌어 버렸습니다… 말그대로 결과가 바꼈어요. 손댄게 없는데 바꼈어요. 허허.. 무엇이 이유인지는 좀더 찾아봐야겠습니다.. 물론 초보자의 글이라 그렇게 큰 의미는 없겠지만 말이죠. 그래서 일단 코드부터 올리겠습니다. 그리고 조금씩 고쳐나가는 식으로 이 글을 써야겠어요. # remotes::install_github("youngwoos/corona19") library(corona19) library(tidyverse) patient % filter(!is.na(decea..
-
한글 띄어쓰기 패키지 KoSpacing!잡다R 2020. 3. 9. 14:33
한글 띄어쓰기 패키지 KoSpacing! 지난 텍스트마이닝 글에서 띄어쓰기와 관련된 문제가 있다고 말했는데, 찾아보니 KoSpacing이라는 한글 띄어쓰기 패키지가 있더라구요. 예전부터 실행이 안 되길래 포기하고 있었는데, 질문을 통해서 해결했습니다 ^-^ 기쁜 마음에 공유하고 싶어서 글을 씁니다. KoSpacing 패키지는 딥러닝을 이용해서 만드셨다고 하는데.. 세상엔 능력자분들이 엄청 많다고 느낍니다. 패키지를 개발하신 전희원님께 감사드리고, 패키지 사용 전에 필요한 프로그램 설치를 잘 정리해주신 박찬엽님께도 감사드립니다. 전희원님 깃허브 주소 바로 가기 전희원님 블로그 바로 가기 박찬엽님 블로그 바로 가기 KoSpacing 패키지 사용 방법은 다음과 같습니다. 먼저 reticulate 라이브러리의 ..
-
마틴 루터 킹 연설문을 이용한 텍스트 마이닝 및 워드클라우드잡다R 2020. 2. 7. 00:23
마틴 루터 킹 연설문을 이용한 텍스트 마이닝 및 워드클라우드 2020년 새해가 밝았습니다! 모두 복 많이 받으세요 :) 올해 첫 글은 텍스트 마이닝과 워드클라우드를 진행하겠습니다. 텍스트 마이닝은 짧게 정의하면 비정형 데이터인 ’텍스트’를 가공하여 분석하는 것입니다. 저는 작년에 학교에서 진행했던 프로젝트 덕분에 텍스트 마이닝을 해본 경험이 있습니다. 복습 차원에서 작성하는 의미도 있고, 최근 각광받기 때문도 있습니다. 요즘 서비스 기업들을 보면 소비자의 리뷰를 중요하게 생각하기 때문에 리뷰에 대한 텍스트 마이닝을 많이 진행하는 것 같습니다. 예를 들어 영화 리뷰나 트위터 분석 이런 것들이죠. R이 있다면 우리도 따라갈 수 있습니다. 그럼 바로 시작해보겠습니다. 텍스트 마이닝의 주제는 역사상 가장 뛰어난..