일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 라이엇api
- 공공데이터포털
- geopnadas
- Python
- geopandas설치
- Folium
- map
- 막대그래프
- covid
- 인코등
- 파이썬
- 코로나
- geopandas에러
- r
- 오류
- kepler
- 에러
- 지도
- matplotlib
- OSMnx
- 오픈API
- kepler.gl
- riotapi
- QGIS라벨링
- 라이엇
- 시각화
- API
- covid19
- pipwin
- 마커클러스터
- Today
- Total
목록R (7)
Nerdy
R Markdown이란? R Markdown은 데이터 분석을 했던 과정들을 보고서로 만들 수 있는 패키지다. R Markdown에서 HTML, PDF, Word 등 다양한 문서 형식을 저장할 수 있기에 별도의 문서 소프트웨어를 사용하지 않아도 된다는 큰 장점이 있다. # 사용 방법 R 스튜디오에서 rmarkdown 패키지를 다운 받는다. :: install.packages("rmarkdown") 설치가 다 되면 상단 File → New File → R Markdown 이라는 메뉴가 보일 것이며 클릭해주면 된다. R Markdown을 들어가면 파일 이름과 작성자, 파일 형식을 설정할 수 있는 하나의 창이 뜬다. 간단한 예시를 보여주기 위해 Rmdtest1을 만들고 HTML, PDF, Word 중 Word를..
코로나 공식홈페이지에 누적 데이터(엑셀)를 다운 받을 수 있다. 이 데이터를 가지고 R에서 분류를 한 후 막대 차트를 만들어보도록 하자 데이터는 첫 확진 날부터 시작해서 현재 날짜까지 누적된 엑셀화 데이터이며 연도별, 월별이 아닌 일별로 나눠져 있어 최근 날짜인 2022년 6월 데이터만 대상으로 코드 작성을 한다. http://ncov.mohw.go.kr/ 코로나바이러스감염증-19 코로나바이러스감염증-19 정식 홈페이지로 발생현황, 국내발생현황, 국외발생현황, 시도별발생현황, 대상별 유의사항, 생활 속 거리 두기, 공적마스크 공급현황, 피해지원정책, 홍보자료, FAQ, 관 ncov.mohw.go.kr 엑셀 파일을 다운 받으면 '발생별(국내 + 해외유입), 사망' 시트부터 시작해 총 5개 시트가 구성 되어..
공공데이터 포털 사이트에서 신청한 코로나 19 국내발생현황(사망) 오픈 API 데이터를 가지고 간단하게 그래프를 그려보도록 한다. 신청방법은 이전에 올린 글을 참고하면 된다. https://whiplash-bd.tistory.com/35 공공데이터포털 오픈 API 신청 방법 (JSON) 수 많은 데이터들이 모여 있고 볼 수 있는 공공데이터포털에서 오픈 API를 신청하는 방법을 알고자 한다. # 공공데이터포털 사이트 https://www.data.go.kr/index.do 공공데이터 포털 국가에서 보유하고 whiplash-bd.tistory.com 먼저 승인된 신청 데이터를 누르고 상세내용을 확인한다. 신청 데이터 상세보기로 들어가면 서비스 정보를 볼 수 있으며 json URL을 얻는 방법은 인증키를 넣어..
R에서 대용량 데이터셋을 처리할 때 메모리가 부족하여 수행할 수 없는 경우 메모리를 늘리는 방법을 소개하고자 한다. 1. 현재 사용하고 있는 메모리 확인 memory.size() # 226.74 2. R에서 최대 가상 메모리 사용 한계 확인 memory.limit() # 16339 3. 큰 벡터를 생성한 후 저장, 메모리 사이즈 확인 x = rep(0, 500000000) memory.size() # 4037.82 큰 벡터를 가진 x 객체를 저장하면 현 메모리 사이즈는 4037.82(3.943184GB)로 나타난다. 만약 x와 똑같은 벡터를 5개 생성하여 저장하면 메모리 초과로 인해 만들 수 없을 것이다. x = rep(0, 500000000) x2 = rep(0, 500000000) x3 = rep(0..
■ 데이터 테이블이란? R의 data.table은 대용량 데이터를 빠른 집계와 빠른 정렬된 조인 , 그룹별로 빠른 열 합치기/수정/삭제를 할 수 있는 아주 유용한 패키지다. '왜 data.table인가?'를 설명할 수 있는 data.table GitHub에서는 여러 장점들을 설명하고 있고 그 중 몇가지만 알아보도록 한다. 1). 빠르게 쓰고 읽을 수 있는 간결한 구문(concise syntax: fast to type, fast to read) 얼마나 빠르게 쓰고 읽을 수 있는 간결한 구문인지 비교를 위해 dplyr과 data.table 두 개 패키지를 비교해봤다. 어떤 data에 대해서 그룹 'a' 별로 변수 'x'의 평균을 구해보는 예시를 구문으로 작성하여 비교를 해보면 아래와 같다. # 1. dpl..
시계열 분석이란? 어떤 현상에 대해서 시간의 변화에 따라 일정한 간격으로 현상의 변화를 기록한 시계열 데이터를 대상으로 미래의 변화에 대한 추세를 분석하는 방법 일반 분석과는 다르게 시간의 흐름을 고려한다는 특징이 있어 분석을 통해 향후 판매량 예측, 다음달 항공기 이용 승객 등 예상되는 변화를 예측할 수 있다는 장점이 있지만, 연구자가 만든 시계열 모형을 이용하여 예측하고자 할 때 천재지변, 정치, 경제, 사회, 문화 영역에서 일어나는 여러가지 변수들이 발생하여 일일이 고려하지 못하기 때문에 오차가 발생할 수 있다는 단점이 있다. 과거 10년간 일별 종가기준 KOSPI 지수 데이터를 대상으로 시계열 분석을 해본다. 1. 파일 불러오기 KOSPI
ㅣ주성분 분석(principal component analysis, PCA) 개요 서로 상관관계를 갖는 많은 변수를 상관관계가 없는 소수의 변수로 변환하는 차원축소 기법 ㅣ주성분 분석의 목적 데이터 셋에 많은 변수가 포함될수록 분석의 복잡성이 증가할 뿐만 아니라 의미있는 정보를 찾아내기가 쉽지 않다. 또한 분석할 대상의 변수가 많다고 모두 활용하는 것은 좋지 않으며 오히려 변수간의 다중공선성이 있을 경우 분석 결과에 영향을 줄 수 있다. 이럴경우 데이터 셋에 포함된 다수의 변수를 몇개의 관리 가능하고 해석 가능한 소수의 변수로 축소하는 것이 유용, 즉 데이터 셋의 차원을 줄여줌으로써 데이터의 복잡성을 감소시킬 수 있다. *다중공선성 : 독립변수들 간의 선형 관계를 나타내는 것. 독립변수들 간의 높은 상관..