서울시 공공데이터/데이터 분석

[서울시 공공데이터] 데이터 분석 1일

막막한 2023. 5. 4. 01:09

https://sesac.seoul.kr/usr/member/dash/detail.do

 

파이썬과  SQL 기초부터 탄탄하게 !

 

데이터 분석 - 파이썬- 기본 문법, 판다스 패키지 기본문법, 데이터 수집 및 가공

데이터 관리 - SQL - MYSQL같은 관계형 데이터베이스에서 사용할 수 있는 SQL언어

파이썬 기본 문법 - 판다스 문법 - 공공데이터 분석 

 


 

데이터 분석을 하는 이유?

 

1. 일상생활, 비즈니스에 대한 정보가 매 순간 데이터로 분석

2. 데이터의 종류, 양, 접근성 높아짐

3. 데이터 이해하고 활용할 수 있는 능력

4. 데이터 분석을 통한 가치 창출


데이터와 정보 

 

데이터 - 객관적 사실 수집해 모아놓은 자료 ( 블로그 방문 기록)

정보 - 데이터를 가공해 의미가 도출된 것 (일일 방문자 수 , 시간대별 방문자 수 )

지식 - 정보에 개인적 경험을 결합한 새로운 지식 (방문자가 많은 성별, 나이에 대한 원인 파악)

지혜 - 지식에 아이디어가 결합된 창의적 산물  ( 방문자가 많은 성별, 나이를 타겟으로 한 운영 전략 수집)


데이터 분석 절차

 

데이터 분석 기획 -> 데이터 수집- > 데이터 전처리 - > 데이터 탐색/ 시각화  - (머신러닝) -> 데이터 해석

 

1. 데이터 분석 기획

 

 문제 정의 - 해결하고 싶은 문제

 데이터 정의 -  분석에 필요한 데이터 속성 정의

 분석 목적 - 현상 파악, 원인 분석 , 추세 분석 및 예측

 

2. 데이터 수집 

 

  기업의 DB,  공공 DATA, 민간 DATA, 웹스크래핑, 설문, 센서 DATA

   공공데이터 포멧 종류 - CSV, XLSX, JSON, XML, 오픈API

 

3. 데이터 전처리

 

   필요 속성만 추출(불필요한 컬럼 제거)  /  결측치 식별 및 처리 (대표값(중간, 최빈, 평균)으로 대치 )/  자료형 변경(시계열 데이터 분석에서 날짜 시간으로 처리할 자료가 문자형일 경우) /  조건에 따라 데이터 추출( 10년 데이터만 추출) /  이상값 식별 및 처리(이상치는 보통 제거) / 테이블 변경( 행/열 변경, 여러 데이터 연결, 새로운 컬럼 추가 등)

 

4. 데이터 탐색 및 시각화 

 

   통계적 특성 이해, 시각화 

 

5. 데이터 해석

- 인사이트 도출( 현상 파악, 원인 도출, 추세파악 및 에측)