분류 전체보기 60

section1 project- 비디오 게임 데이터 분석

데이터 분석 목표는 비디오 게임 판매량을 분석하여, 다음 분기에 어떤 게임을 설계해야하는 지에 대해 인사이트 도출 하는 것 단위 기준을 million으로 잡아 알파벳, k,m을 제거하고 k---> e^-3 계산해서 대체한다 또한 판매량 컬럼들의 데이터형을 float형으로 바꾼다 250년 이하의 데이터--> (50~99) + 1900 / 50년 미만은 +2000해준다 2017~2020 데이터양이 극소---> 제거 플랫폼 종류가 너무 많아서 카테고리화해줌 * 플랫폼 이름을 카테고리이름으로 대체 플레이스테이션과 닌텐도 압도적 너무 많은 종류의 출판사 --> 상위 출판사만 사용 상위 30개의 출판사 도출 일본제외하고 액션과 스포츠 장르가 판매량이 높다 판매량의 49.5%가 미국이 차지--> 북미시장 공략 지역별..

판다스 8장 - 자료형변환/ 카테고리 자료형

dtypes 속성으로 데이터프레임의 자료형 살펴보기¶ In [5]: #자료형 변환하기 - astype 메서드 이용 #seaborn 라이브러리의 tips 데이터 집합 import pandas as pd import seaborn as sns tips= sns.load_dataset("tips") In [6]: ## sex 열 데이터 자료형이 ㅋ카테고리였는데 문자열로 변환하여 새로운 열 sex_str에 저장 tips['sex_str']=tips['sex'].astype(str) 여러 가지 자료형을 문자열로 변환하기¶ In [7]: # 자료형이 문자열인 sex_str열이 새로 추가되었는지 확인 print(tips.dtypes) total_bill float64 tip float64 sex category sm..

판다스 2023.03.10

판다스 7장 중복값 제거

In [40]: # 데이터프레임의 열은 파이썬의 변수와 비슷하다 # melt 메서드 -- 데이터프레임 깔끔한 데이터로 정리하기 / 지정한 열의 데이터 모두 행으로 정리 # metl 메서드 인자 ''' id_vars - 위치 그대로 유지할 열의 이름을 지정 value_vars - 행으로 위치 변경할 열의 이름 지정 var_name - value_vars 위치 변경한 열의 이름 지정 value_name - var_name 위치 변경한 열의 데이터 저장한 열의 이름을 지정 ''' # 피벗 데이블 뜻 - # 데이터 프레임에서 두 개의 열을 이용하여 행/열 인덱스 reshape 된 테이블 Out[40]: '\nid_vars - 위치 그대로 유지할 열의 이름을 지정\nvalue_vars - 행으로 위치 변경할 열의..

판다스 2023.03.10

판다스 6장 누락값 처리

누락값 확인하기¶ In [16]: from numpy import NaN, nan, NAN print(NaN==True) False In [17]: print(NaN==False) print(NaN==0) print(NaN==' ') False False False 누락값을 포함한 데이터를 불러올 때¶ In [18]: import pandas as pd 데이터 집합을 연결할 때 누락값이 발생하는 경우¶ In [19]: visited=pd.read_csv('../data/survey_visited.csv') survey=pd.read_csv('../data/survey_survey.csv') print(visited) print(survey) ident site dated 0 619 DR-1 1927-02..

판다스 2023.03.09

판다스 5장 데이터 연결하기 - concat/ merge

concat 메서드 사용하기¶ In [2]: # 분석하기 좋은 데이터 - 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것 #깔끔한 데이터 조건 ''' 데이터 분석 목젝에 맞는 데이터 모아 새로운 표 만들기 측정한 값은 행 구성 변수는 열로 구성 ''' # 데이터 연결하려면 concat 메서드 사용 import pandas as pd df1=pd.read_csv('../data/concat_1.csv') df2=pd.read_csv('../data/concat_2.csv') df3=pd.read_csv('../data/concat_3.csv') In [3]: # concat 메서드는 데이터 프레임 연실 시 위에서 아래 방향으로 연결 row_concat=pd.concat([df1, df2, df3]) r..

판다스 2023.03.08

판다스 입문 4장 데이터 시각화- 그래프 그리기

앤스콤 데이터 집합 불러오기¶ In [2]: #seaborn 라이브러리 load_dataset메서드 문자열 anscombe 전달= 앤스콤 데이터 집합 불러올 수 있음 import seaborn as sns anscombe=sns.load_dataset("anscombe") anscombe Out[2]: dataset x y 0 I 10.0 8.04 1 I 8.0 6.95 2 I 13.0 7.58 3 I 9.0 8.81 4 I 11.0 8.33 5 I 14.0 9.96 6 I 6.0 7.24 7 I 4.0 4.26 8 I 12.0 10.84 9 I 7.0 4.82 10 I 5.0 5.68 11 II 10.0 9.14 12 II 8.0 8.14 13 II 13.0 8.74 14 II 9.0 8.77 15 I..

판다스 2023.03.04

데이터 분석을 위한 판다스 입문 3장

시리즈 만들기 In [1]: #판다스의 시리즈 메서드에 리스트 전달해 시리즈 생성 import pandas as pd s=pd.Series(['banana', 42]) print(s) ​ 0 banana 1 42 dtype: object In [4]: ​ s=pd.Series(['wes mckinney', 'creator of pandas']) s Out[4]: 0 wes mckinney 1 creator of pandas dtype: object In [5]: #문자열을 인덱스 지정 s=pd.Series(['wes mckinney', 'creator of pandas'], index=['person', 'who']) s Out[5]: person wes mckinney who creator of pan..

판다스 2023.03.01

몬티홀의 딜레마

세 개의 문 중 하나를 골라야 한다. 한 개의 문 뒤에는 자동차 나머지 문 뒤에는 염소가 있다 문 하나를 선택하면, 사회자가 나머지 두 개의 문 중 염소가 있는 문 하나를 열고 열리지 않은 문을 두고 다시 한 번 선택할 수 있는 기회를 준다 선택을 바꾸는 것과 바꾸지 않는 것 중 어느 쪽이 유리한가 정답 : 선택한 문을 바꾸는 것이 유리하다 처음 선택한 문을 유지할 때, 자동차를 얻을 수 있는 확률 33.3% 확률의 합은 1이므로 여집합 때문에 [ 1 - P(A)] 처음 선택한 문에서 남은 문으로 바꿀 때, 자동차를 얻을 수 있는 확률은 66.66% 1번 문 2번 문 3번 문 1 차 염 염 2 염 차 염 3 염 염 차 2번과 3번 모두 내가 염소를 선택했을 경우, 무조건 바꾸는 것이 유리 1번 차를 선택..

카테고리 없음 2023.02.27

CLT - N122

✔️학습 목표 -큰 수의 법칙 -중심 극한 정리 -신뢰구간 모집단 (Population) - 정보를 얻고자하는 전제 집합 표본 (sample) - 모집단으로부터 추출된 모집단의 부분 집합 모수 (parameter) - 모집단의 특성 통계량 (statistics) - 해당 모집단에서 추출한 표본에서의 특성 기술통계 (descriptive statistics) - 우리가 수집한 데이터 요약, 묘사, 설명하는 통계 기법 추리통계 (inferntial statictics) - 수집한 데이터 바탕으로 모집단 추론하는 통계 기법 기술통계 - 분산도 - 수집한 데이터가 어떻게 퍼져있는 지 설명 - 분포 표준 편차, 사분위 값 df.describe() : summary statistics 출력 추리 통계 - 기술통계와..

Bayes Theorem/ 확률 _n121

확률 어떤 사건이 일어날 가능성을 수로 나타낸 것 (비율에 100을 곱한 백분율 값) 전체 확률의 법칙 특정 확률 변수에 대핸 모든 가능한 사건의 총 확률의 합 =1 p(a) = 1- p(^a) 확률 계산 method1. 모든 경우의 확률을 진리표를 통해 확인, 원하는 경우 확률 더한다 method2. 확인하고자 하는 경우의 확률만을 곱해 더한다 이항분포 (binomial distribution) 독립적으로 반복되어지는 행위에 결과가 성공 또는 실패 두 가지 옵션을 가지는 사건의 확률을 결정하는 함수 ex) 앞면, 뒷면 동전 던지기 이항분포는 결과가 binary한 사건의 모든 잠재적 경우의 수와 이에 대한 확률 보여줌 따라서 소비자행동 패턴 모델링할때 이용 많이 된다 ex) 소비자 구매 예측 모델링, 상..

카테고리 없음 2023.02.25