일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- map
- r
- 파이썬
- geopnadas
- 코로나
- 막대그래프
- geopandas에러
- geopandas설치
- 인코등
- 마커클러스터
- covid
- covid19
- 에러
- 공공데이터포털
- 오픈API
- kepler.gl
- pipwin
- QGIS라벨링
- matplotlib
- 시각화
- 라이엇
- kepler
- 지도
- OSMnx
- API
- Python
- Folium
- riotapi
- 라이엇api
- 오류
- Today
- Total
목록Python (15)
Nerdy
약 2년전 본 블로그에 기술한 'OSMnx와 Folium을 이용한 특정 지역 최단경로 분석 및 시각화' 내용에 잘못된 문제점이 많아 다시 작성할겸 이번엔 Shp 파일을 활용하여 geopandas도 사용해서 다시 분석했다. 문제점은 다음과 같았다. 1. 도착지를 동대문역으로 지정했는데 대상 지역 그래프는 동대문구를 호출(동대문역 시군구는 종로구....) 2. ox.nearset_nodes를 적용 시, 당연히 동대문역 node 값은 미존재 3. 좌표계 투영된 project_graph 값을 넣지 않고 원 그래프 데이터 입력 4. 결과는 당연히 불일치 과거의 응애시절... 반성하고 싶다.. 진짜...ㅎ 위 문제점을 파악하고 다시 분석을 진행했으며 코드는 아래와 같다. 1. 데이터 수집우선 지하철 역사 정보와 ..
본인은 교통 회사를 재직하면서 자연스레 geopandas를 사용할 일이 많다. 아무래도 교통 raw data를 분석하거나 로봇, 서비스 제작하는데 있어서 데이터 수집 후 분석, 그리고 QGIS에서 분석된 shp파일 분석 등 사용할 일이 많아 기본 pandas보다 geopandas를 자주 사용한다. 하지만... 최근 회사에서 geopandas를 사용하다 에러가 발생했다.. 갑자기 pyproj 모듈이 없다는 에러를 직면하고 몇시간동안 구글링을 하면서 해결할려고 했지만 안됐다.. 심지어 모듈 삭제하고 다시 설치했는데도 똑같은 에러가 뜬다. 해결이 안됐으니 당연히 geopandas는 사용 불가이며 개인 노트북으로 분석 파일 옮겨서 geopandas를 사용하고 있으니 여간 불편한 점이 너무 많았다. 그러다 캘리포..
넘파이(Numpy)란? 파이썬의 고성능 과학 계산용 라이브러리이며 벡터나 행렬 같은 선형대수의 표현법을 코드로 처리할 수 있는 표준 라이브러리다. 특히 다차원 리스트나 크기가 큰 데이터 처리에 유리하다는 장점이 있다. 넘파이 특징은 다음과 같다. 속도가 빠르고 메모리 사용이 효율적이다 데이터를 메모리에 할당하는 방식이 기존과 다르다. 반복문을 사용하지 않아도 됨 연산할 때 병렬 처리한다. 함수를 한번에 많은 요소에 적용할 수 있다. 다양한 선형대수 관련 함수들을 제공한다. 파이썬의 리스트와 넘파이 배열의 차이점은 다음과 같다. 배열의 모든 구성 요소에 값이 존재(텐서 구조에 따라 배열 생성) 하나의 데이터 타입만 사용(동적 타이핑 지원 x) 데이터를 메모리에 연속적으로 나열하여 각 값 메모리 크기가 동일..
앞전에는 회귀분석을 통한 예측 모델을 생성한 후 모델 성능을 측청하는 MAE, MSE, MAPE 등 지표들을 알아봤으면 이번 포스팅에서는 분류 모델의 성능 측정하는 방법을 알아볼려고 한다. # 사용 모듈 혼동행렬(오차행렬) : confusion matrix 정확도(accuracy) : accuracy_score 정밀도(precision) : precision_score 재현율(recall) : recall_score F1 score : f1_score F beta score : fbeta_score 먼저 실제값과 예측값을 기반으로 confusion matrix를 생성한다. from sklearn.metrics import confusion_matrix y_true = [0, 1, 0, 1, 1, 0, 1..
회귀분석을 통해 예측 모델을 만들고 해당 모델의 성능을 파악하기 위해 사이킷런에서는 판단할 수 있는 지표 모듈이 있다. # 선형 회귀모델(Linear Regression) 생성 사이킷런 라이브러리에 datasets 모듈을 생성한 후 당뇨병 데이터셋을 대상으로 선형회귀모델(Linear Regression)을 만든다. # 1. 데이터셋 가져오기 data = datasets.load_diabetes() # 당뇨병 데이터셋 로딩 data.target # 2. 데이터프레임 변환 후 합치기 df = pd.DataFrame(data.data, columns = data.feature_names) # 데이터셋 데이터 데이터프레임 변환 y = pd.DataFrame(data.target, columns = ['y']) ..
코로나 데이터에 일일 누적 확진자 수와 일자별 국내발생 수 데이터가 있다. 단순히 데이터들을 변수에 담아 막대그래프를 그리면 간단히 될 줄 알았지만 데이터가 천만이 넘는 숫자형 데이터가 보니 축에 표시가 되지 않는 현상이 발생한다. 이번 포스팅에서는 축 범위에 만단위 숫자 설정과 막대 그래프에 레이블값 표시한 방법을 리뷰해볼려고 한다. 데이터 파일을 가져오고 전처리와 정수형 변환은 이전 포스팅 내용과 동일하다. # 사용할 라이브러리 import import pandas as pd import matplotlib.pyplot as plt import numpy as np from matplotlib import font_manager, rc import warnings # 데이터프레임 출력 df = pd...
코로나 공식 홈페이지에 있는 주간 발생 추이 막대 그래프가 있다. 이전에 사용한 데이터를 활용하여 파이썬 Pandas와 Matplotlib 라이브러리를 사용해 비슷하게 만들어보도록 하겠다. http://ncov.mohw.go.kr/ 코로나바이러스감염증-19 코로나바이러스감염증-19 정식 홈페이지로 발생현황, 국내발생현황, 국외발생현황, 시도별발생현황, 대상별 유의사항, 생활 속 거리 두기, 공적마스크 공급현황, 피해지원정책, 홍보자료, FAQ, 관 ncov.mohw.go.kr 코로나 19 누적 데이터 대상으로 pd.read_csv 함수를 사용해 데이터를 불러온다. 한글깨짐을 방지하기 위해 encoding = UTF-8로 설정을 해준다. # 사용할 라이브러리 import import pandas as pd..
# 텍스트 데이터 해당 텍스트 파일은 2022년 4월 11일 오후 젤렌스키 우크라이나 대통령이 국회 화상연설에서 러시아의 우크라이나 침공의 참담한 현실을 말한 연설문 텍스트 내용이다. 앞에서 했던 Wordcloud - 1 에서 사용한 형태소 분석과 텍스트 전처리를 다른 조건으로 적용하여 Wordcloud 시각화를 만들어 볼 예정이다. # 이전 Wordcloud - 1 https://whiplash-bd.tistory.com/32 [Python] 젤렌스키 대통령 연설문 Wordcloud 만들기 # 텍스트 데이터 해당 텍스트 파일은 이번 러시아 침공으로 인해 젤렌스키 우크라이나 대통령이 연설한 내용을 담은 파일이다. 연설문 텍스트 파일을 활용해 단어 시각화인 word cloud를 만들어본 whiplash-b..