[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 EDA 1 (성별, 등급, 나이 특성 확인)

EDA To Prediction(DieTanic)

Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster

www.kaggle.com

(※ 오늘은 이 캐글러의 공유 코드를 활용해 공부하는 내용입니다.)

타이타닉이 캐글의 튜토리얼이라고는 하나, 나와 같은 초심자에게는 매우 다루기 어려운 데이터다.

여기저기 참고해서 분류를 실행했지만 캐글에서는 순위도 부여받지 못하는 등수에 랭크됐다.

그래서 이번에는 상위 4%에 해당하는 결과를 도출한 캐글러의 코드를 이용해

- 어떤 과정을 거쳐 분석했는지

- 어떤 플롯으로 사용했는지

- feature에서 어떻게 인사이트를 도출했는지

- 어떤 과정으로 그런 인사이트를 도출했는지

- 캐글러는 어떤 수준의 코드를 만드는지

종합적으로 다루어 EDA부터 모델링과 분류, 예측하는 방법을 발전시키고자 한다.

이 캐글러는 아래와 같은 과정으로 진행했다.

1) feature 분석

2) 여러 feature들간의 관계, 경향 찾기

2장. Feature Engineering and Data Cleaning

1) 새로운 Feature 추가

2) 반복되는 feature 제거

3) 모델링에 적합한 형태로 feature 변환

3장. Predictive Modeling

1) 기본적인 알고리즘 실행

2) CrossValidation(교차 검증)

3) Ensembling(앙상블 기법)

4) 중요한 특성 추출(Important Feature Extraction)

자, 그럼 EDA부터 따라해보자!

#라이브러리

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

#데이터 불러오기

data = pd.read_csv('../train.csv')

#결측치 확인

data.isnull().sum()

#생존 비율 알아보기

f, ax = plt.subplots(1, 2, figsize = (18, 8))
data['Survived'].value_counts().plot.pie(explode = [0, 0.1],
                                         autopct = '%1.1f%%', ax = ax[0], shadow = True)
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot('Survived', data = data, ax = ax[1])
ax[1].set_title('Surived')
plt.show()

data.groupby(['Sex', 'Survived'])['Survived'].count()

f, ax = plt.subplots(1, 2, figsize = (18, 8))
data[['Sex', 'Survived']].groupby(['Sex']).mean().plot.bar(ax = ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex', hue = 'Survived', data = data, ax = ax[1])
ax[1].set_title('Sex: Survived vs Dead')
plt.show()

pd.crosstab(data.Pclass, data.Survived, margins = True).style.background_gradient(cmap = 'summer_r')

f, ax = plt.subplots(1, 2, figsize = (18, 8))
data['Pclass'].value_counts().plot.bar(color = ['#CD7F32', '#FFDF00', '#D3D3D3'], ax = ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot('Pclass', hue = 'Survived', data = data, ax = ax[1])
ax[1].set_title('Pclass: Survived vs Dead')
plt.show()

pd.crosstab([data.Sex, data.Survived], data.Pclass,
            margins = True).style.background_gradient(cmap = 'summer_r')

sns.factorplot('Pclass', 'Survived', hue = 'Sex', data = data)
plt.show()

data['Age'].describe()

f, ax = plt.subplots(1, 2, figsize = (18, 8))
sns.violinplot('Pclass', 'Age', hue = 'Survived', data = data, split = True, ax = ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0, 110, 10))
sns.violinplot('Sex', 'Age', hue = 'Survived', data = data, split = True, ax = ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0, 110, 10))
plt. show()

[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 Feature Engineering (나이대, 요금대, 가족으로 변수 묶기/문자형 자료 변환/칼럼 삭제) (0)	2020.11.11
[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 EDA 2 (이름 특성에서 인사이트 얻기, 승선장, 가족구성원 수, 요금 특성 분석) (0)	2020.11.11
[Kaggle] 타이타닉 예제 전처리 (0)	2020.11.09
[Kaggle] 타이타닉 예제에서 막대그래프로 범주 살펴보기 (0)	2020.11.07
[Kaggle] 파이썬에서 함수 정의해서 파이차트 만들기 (Titanic 예제 활용) (0)	2020.11.07

[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 EDA 1 (성별, 등급, 나이 특성 확인)

1장. EDA

1) feature 분석

이 캐글러는 기본적으로 위 라이브러리를 활용해 EDA를 진행했다.

라이브러리를 불러오고 데이터를 불러왔다.

여기서 한 가지 참고할 점은, 아직 train, test를 만들지 않아서인지 이 분은 data로 train.csv 파일을 불러왔다.

나중에 전처리하고 train데이터를 만들었을 때 변수 이름이 겹쳐 발생할 수 있는 불상사를 방지하기 위해 data라고 불러온 것 같다.

data 파일의 결측치를 확인하니 Age, Cabin, Embarked 칼럼에 결측이 있었다.

""몇 명이나 살아남았는가?""

이 그래프를 만들기 위해 아래 코드를 사용했다.

f, ax = plt.subplots(1, 2, figsize = (18, 8))

-> 그래프를 그릴건데 한번에 1행 2열로 구성(plt.subplot(1, 2))해서 출력할 것이다

그 사이즈는 가로 18, 세로 8 (figsize = (18, 8))

그래프는 f로 출력할 수 있고, ax는 subplot을 코드와 형식을 저장하는 듯 하다. ( f, ax = plt.subplot() )

ax에 코드가 저장되었으므로 ax로 코딩을 한다.

data['Survived'].value_counts().plot.pie(explode = [0, 0.1], autopct = '%1.1f%%', ax = ax[0], shadow = True)

-> data의 Survived 칼럼의 빈도수를 셀건데(data['Survived'].value_counts()) 이를 원 그래프(plot.pie) 로 그려라.

원 그래프 첫번째 옵션으로 explode 옵션은 퍼짐 정도를 나타낸다. 중심에서 첫번째 도수는 0만큼 떨어지고 두번째는 0.1만큼 떨어뜨리는 것이다. (explode = [0, 0.1])

두번째 옵션은 autopct로 도수의 비율을 소수 첫째자리까지 표현한다. (autopct = '%1.1f%%')

세번째 옵션은 원 그래프를 subplot 중 첫째로 출력하라는 것이다. (ax = ax[0])

마지막 옵션은 그래프에 그림자를 그리는 옵션이다. (shadow = True)

----------> 원 그래프를 그릴 때, value_counts()뒤에 .plot.pie() 함수로도 그릴 수 있다는 것과 원 그래프의 옵션 중 explode, subplot의 위치를 지정하는 방법을 처음 배웠다.

ax[0].set_title('Survived')

-> subplot의 첫번째 그래프(ax[0]) 이름을 'Survived'로 지정한다. (.set_title('Survived'))

ax[0].set_ylabel('')

-> subplot의 첫번째 그래프(ax[0])에서 y에 해당하는 레이블 이름을 공백으로 지정한다. (.set_ylabel(''))

sns.countplot('Survived', data = data, ax = ax[1])

-> seaborn 패키지의 countplot으로 막대그래프를 그린다. sns.countplot()

'Survived' 칼럼에 대해서 그리고, 데이터는 data이다. ('Survived', data = data)

subplot중 두번째 열에 그려라 (ax = ax[1])

ax[1].set_title('Survived')

-> subplot의 두번째 그래프(ax[1])도 이름을 'Survived'로 지정한다. (.set_title('Survived'))

plt.show()

-> 그렇게 그린 그래프를 보여다오..

이제 이 그래프에서 간단한 인사이트를 확보하자.

생존자(38.4%)보다 사망자(61.6%)가 훨씬 많았다.

이제 어떤 특성을 가진 사람들이 생존했는지 알아보기 위해 서로 다른 feature로 생존률을 비교해볼 것이다.

그 첫번째 단계로, 서로 다른 feature에 대해 이해해보자.

""Feature의 형태""

명목변수, 순서변수, 연속형 변수에 대해 이해할 필요가 있다.

Titanic 데이터에서 명목변수는 성별('Sex'), 승선장('Embarked'), 순서변수는 등급('Pclass'), 연속변수는 나이('Age')가 있다.

"특성 분석"

- 1) 성별 ('Sex') 특성

.groupby(feature)은 feature 특성을 제외한 데이터프레임의 모든 특성을, feature 특성으로 그룹화한다.

.groupby(feature).count()로 그룹화한 각 feature의 빈도수를 출력한다.

(.gropuby(feature).mean() 등도 가능. 단, mean()이 계산 가능한 feature만 결과가 출력된다.)

.groupby([feature1, feature2]) -> feature1로 묶고 그걸 feature2로 다시 묶어서 그룹화한다.

data.groupby(['Sex', 'Survived'])['Survived'].count()

-> 성별로 한 번(female, male로 그룹화 한 번)

생존으로 두 번 그룹화(Survived = 0, Survived = 1로 그룹화) data.groupby(['Sex', 'Survived'])

그 후 빈도수를 센 결과 중 'Survived' 특성만 출력한다. ['Survived'].count()

f, ax = plt.subplots(1, 2, figsize = (18, 8))

-> 1행 2열로 구성된 그래프를 그릴거다. 그림은 가로 18, 세로 8

data[['Sex', 'Survived']].groupby(['Sex']).mean().plot.bar(ax = ax[0])

-> data 데이터의 'Sex', 'Survived' 특성만 추려서 (data[['Sex', 'Survived']])

'Sex' 특성으로 그룹화해(female, male로 그룹화) (.groupby(['Sex']))

각 그룹의 평균을 구하는데 (.mean())

막대그래프로 그려서 .plot.bar()

첫번째 그래프로 그려라. (ax = ax[0])

-----------------------> 파이썬에서 .groupby() 함수를 사용하는 것을 다시금 배웠다.

ax[0].set_title('Survived vs Sex')

-> 첫번째 그래프의 타이틀은 'Survived vs Sex'로 지정

sns.countplot('Sex', hue = 'Survived', data = data, ax = ax[1])

-> seaborn 패키지로 막대그래프를 그리는데 (sns.countplot())

'Sex' 특성에 대한 막대그래프를 그리고 sns.countplot('Sex')

'Survived' 특성으로 분류해라. (hue = 'Survived')

데이터는 data다. (data = data)

두번째 그래프에 그려라. (ax = ax[1])

ax[1].set_title('Sex: Survived vs Dead')

-> 두번째 그래프의 타이틀은 'Sex: Survived vs Dead'로 지정

plt.show()

-> 그린 그래프를 보여다오..

여성의 생존률(75%)이 남성(18-19%)보다 매우 높았다.

따라서, 성별은 매우 중요한 피쳐가 될 것으로 보인다.

다른 피쳐도 확인해보자.

- 2) Pclass(등급) 특성 = 순서 변수

이것은 crosstab이라고 불리는 교차표로 빈도를 나타낸다.

진하게 표현된 부분이 높은 비율을, 연하게 표현된 부분은 낮은 비율을 의미한다.

이 crosstab으로 3등석은 높은 비율의 사망률을 보인 점과

1등석은 비교적 높은 비율의 생존률을 보였음을 확인할 수 있다.