[ECC DS 1์ฃผ์ฐจ] EDA To Prediction(DieTanic)
0. ํ๋ก์ ํธ ์๊ฐ
-
๋ ธํธ๋ถ์ ๋ชฉํ: ์์ธก ๋ชจ๋ธ๋ง ๋ฌธ์ ์์ ์ํฌ ํ๋ก์ฐ๊ฐ ์ด๋ป๊ฒ ์๋ํ๋์ง์ ๋ํ ์์ด๋์ด๋ฅผ ์ ๊ณต
-
feature ํ์ธ ๋ฐฉ๋ฒ, ์๋ก์ด feature์ ์ถ๊ฐ ๋ฐ Machine Learning ๊ฐ๋ ์ ์ฉ
1. Exploratory Data Analysis(EDA)
### Import Libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns # ํ์ฌ ์ฝ๋ฉ์์๋ 0.12.0 ๋ฒ์
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
โ Version Issue
-
seaborn version issue๋ก ์ธํด ์๋ณธ ๋ ธํธ๋ถ์์ ์ผ๋ถ ํจ์ ๋ณ๊ฒฝ(factorplot -> pointplot, catplot)
-
plotting์ ์ํํ ๋ ๋ช๋ช ํจ์๋ ์์น ๋งค๊ฐ๋ณ์ ์ง์ ์ด ์ ๋์ง x -> ํค์๋ ๋งค๊ฐ๋ณ์๋ก ๋ณ๊ฒฝ
### ๋ฐ์ดํฐ ์ค๋นํ๊ธฐ
data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ECC 48แแ
ต แแ
ฆแแ
ชB/1แแ
ฎแแ
ก/data/train.csv')
### ์ผ๋ถ ๋ฐ์ดํฐ ํ์ธ
data.head()
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S |
1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th... | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | NaN | S |
3 | 4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 53.1000 | C123 | S |
4 | 5 | 0 | 3 | Allen, Mr. William Henry | male | 35.0 | 0 | 0 | 373450 | 8.0500 | NaN | S |
### ๊ฒฐ์ธก์น ํ์ธ
data.isnull().sum()
PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age 177 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 687 Embarked 2 dtype: int64
- Age, Cabin, Embarked์ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ค.
1-1. Features
### Survived
f,ax = plt.subplots(1,2,figsize = (18,8))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],autopct='%1.1f%%',ax=ax[0],shadow=True)
ax[0].set_title('Survived')
ax[0].set_ylabel('')
sns.countplot(x = 'Survived', data = data, ax = ax[1])
ax[1].set_title('Survived')
plt.show()
-
์ฌ๊ณ ์์ ์ด์๋จ์ ์น๊ฐ(Survived = 1)์ด ๋ง์ง ์์ ๊ฒ์ ๋ถ๋ช ํ๋ค.
- 891๋ช ์ ์น๊ฐ ์ค 350๋ช ๋ง์ด ์ด์๋จ์
๐ Feature์ ์ข ๋ฅ
1. ๋ฒ์ฃผํ ๋ณ์(Categorical Features)
-
๋ ๊ฐ ์ด์์ ๋ฒ์ฃผ๊ฐ ์๋ ๋ณ์
- ํด๋น ํผ์ณ์ ๊ฐ ๊ฐ์ ๋ฒ์ฃผ๋ณ๋ก ๋ถ๋ฅํ ์ ์์
-
๋ณ์๋ฅผ ๋ถ๋ฅํ๊ฑฐ๋ ์์๋ฅผ ์ง์ ํ ์ ์์
-
Sex, Embarked๊ฐ ํด๋น๋จ
2. ์์ํ ๋ณ์(Ordinal Features)
-
๋ฒ์ฃผํ ๊ฐ๊ณผ ์ ์ฌํ์ง๋ง ๊ฐ ์ฌ์ด์ ์๋์ ์์ ๋๋ ์ ๋ ฌ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ด ์ฐจ์ด
- ex> ๋์ด(๋์ด), ์ค๊ฐ(์ค๊ฐ), ์งง์ ๊ฐ๊ณผ ๊ฐ์ ๊ธฐ๋ฅ์ด ์๋ ๊ฒฝ์ฐ ๋์ด๋ ์์ํ ๋ณ์
-
๋ณ์์ ์๋์ ์ธ ์ ๋ ฌ์ ์ฌ์ฉํ ์ ์์
-
PClass๊ฐ ํด๋น๋จ
3. ์ฐ์ํ ๋ณ์(Continous Feature)
-
feature๊ฐ ๋ ์ ์ฌ์ด ๋๋ feature column์ ์ต์๊ฐ ๋๋ ์ต๋๊ฐ ์ฌ์ด์ ๊ฐ์ ์ทจํ ์ ์๋ ๊ฒฝ์ฐ
-
Age๊ฐ ํด๋น๋จ
1-2. ๋ค์ํ feature๋ค ์ฌ์ด์ ๊ด๊ณ
Sex
- Categorical ๋ณ์
data.groupby(['Sex','Survived'])['Survived'].count()
Sex Survived female 0 81 1 233 male 0 468 1 109 Name: Survived, dtype: int64
f,ax = plt.subplots(1,2,figsize = (18,8))
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax = ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot(x = 'Sex',hue = 'Survived',data = data,ax = ax[1])
ax[1].set_title('Sex:Survived vs Dead')
plt.show()
-
๋ฐฐ์ ํ๊ณ ์๋ ๋จ์ฑ์ ์๋ ์ฌ์ฑ์ ์๋ณด๋ค ํจ์ฌ ๋ง๋ค.
- ๊ทธ๋ฌ๋ ๊ตฌ์กฐ๋ ์ฌ์ฑ์ ์๋ ๊ตฌ์กฐ๋ ๋จ์ฑ์ ๊ฑฐ์ ๋ ๋ฐฐ์
-
์ฌ์ฑ์ ์์กด์จ์ ์ฝ 75%์ธ ๋ฐ๋ฉด ๋จ์ฑ์ ์์กด์จ์ ์ฝ 18~19%์
-
Sex๋ ๋ชจ๋ธ๋ง ์ ๊ต์ฅํ ์ค์ํ ๋ณ์์ธ ๊ฒ ๊ฐ์
PClass
- ์์ํ ๋ณ์
pd.crosstab(data.Pclass,data.Survived,margins = True).style.background_gradient(cmap = 'summer_r')
Survived | 0 | 1 | All |
---|---|---|---|
Pclass | |||
1 | 80 | 136 | 216 |
2 | 97 | 87 | 184 |
3 | 372 | 119 | 491 |
All | 549 | 342 | 891 |
f,ax = plt.subplots(1,2,figsize = (18,8))
data['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'],ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')
sns.countplot(x = 'Pclass',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Pclass:Survived vs Dead')
plt.show()
-
PClass๊ฐ 1์ธ ์น๊ฐ๋ค์ด ์ฐ์ ์ ์ผ๋ก ๊ตฌ์กฐ๋์์์ ์ง์ํ ์ ์์
-
PClass๊ฐ 3์ธ ์น๊ฐ ์๊ฐ ํจ์ฌ ๋ ๋ง์์ง๋ง, ์ฌ์ ํ ๊ทธ๋ค ์ค ์์กด์ ์๋ 25% ์ ๋๋ก ๋งค์ฐ ๋ฎ์
-
Pclass๊ฐ 1์ธ ๊ฒฝ์ฐ ์์กด์จ์ด ์ฝ 63%์ธ ๋ฐ๋ฉด Pclass๊ฐ 2์ธ ๊ฒฝ์ฐ ์ฝ 48%์
-
Sex + Pclass
pd.crosstab([data.Sex,data.Survived],data.Pclass,margins=True).style.background_gradient(cmap='summer_r')
Pclass | 1 | 2 | 3 | All | |
---|---|---|---|---|---|
Sex | Survived | ||||
female | 0 | 3 | 6 | 72 | 81 |
1 | 91 | 70 | 72 | 233 | |
male | 0 | 77 | 91 | 300 | 468 |
1 | 45 | 17 | 47 | 109 | |
All | 216 | 184 | 491 | 891 |
sns.pointplot(x = 'Pclass', y = 'Survived',hue='Sex',data = data)
plt.show()
-
๋ฒ์ฃผํ ๊ฐ๋ค์ ์ฝ๊ฒ ๋ถ๋ฆฌํ์ฌ ํ์ ํ๊ธฐ ์ํด
pointplot()
์ ์ฌ์ฉ -
Pclass = 1์ธ ์ฌ์ฑ์ ์์กด์จ์ด ์ฝ 95~96%(94๋ช ์ค 3๋ช ๋ง ์ฌ๋ง)
- PClass์ ์๊ด์์ด ๊ตฌ์กฐ ๊ณผ์ ์์ ์ฌ์ฑ์๊ฒ
์ฐ์ ์์๊ฐ ๋ถ์ฌ๋ ๊ฒ์ ๋ถ๋ช ํจ
-
PClass๋ ์ค์ํ feature๋ผ๊ณ ์๊ฐํ ์ ์์
Age
- ์ฐ์ํ ๋ณ์
print('Oldest Passenger was of:',data['Age'].max(),'Years')
print('Youngest Passenger was of:',data['Age'].min(),'Years')
print('Average Age on the ship:',data['Age'].mean(),'Years')
Oldest Passenger was of: 80.0 Years Youngest Passenger was of: 0.42 Years Average Age on the ship: 29.69911764705882 Years
f,ax = plt.subplots(1,2,figsize=(18,8))
sns.violinplot(x = "Pclass",y = "Age", hue="Survived", data=data,split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot(x = "Sex",y = "Age", hue="Survived", data=data,split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()
โ Observations
-
์ด๋ฆฐ์ด์ ์๋ PClass์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ฉฐ 10์ธ ๋ฏธ๋ง์ ์น๊ฐ(์ฆ, ์ด๋ฆฐ์ด)์ ์์กด์จ์ PClass์ ์๊ด์์ด ์ํธํ ๊ฒ์ผ๋ก ๋ณด์
-
Pclass = 1์์ 20-50์ธ ์น๊ฐ์ ์์กด ๊ฐ๋ฅ์ฑ์ ๋๊ณ ์ฌ์ฑ์ด ํจ์ฌ ๋ ๋์
-
๋จ์ฑ์ ๊ฒฝ์ฐ, ์์กด ๊ฐ๋ฅ์ฑ์ ๋์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐ์
โ ๊ฒฐ์ธก์น(NaN) ์ฒ๋ฆฌ
-
Age feature์๋ 177๊ฐ์ null ๊ฐ์ด ์์
-
NaN ๊ฐ์ ๋์ฒดํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์ธํธ์ ํ๊ท ์ฐ๋ น์ ํ ๋นํ ์ ์์
- but ์ฌ๋๋ค์ ์ฐ๋ น์ ๋งค์ฐ ๋ค์ํจ
-
์ด๋ฆ ์์ ๋ถ์ ํค์๋(Mr, Mrs.)๋ฅผ ํตํด ๊ทธ๋ฃนํ ํ ๊ฐ ๊ทธ๋ฃน์ ํ๊ท ๊ฐ์ ํ ๋น ๊ฐ๋ฅ
### ์ด๋ฆ์์ ํค์๋ ์ถ์ถํ๊ธฐ
data['Initial'] = 0
for i in data:
data['Initial'] = data.Name.str.extract('([A-Za-z]+)\.') # ์ด๋ฆ์์ .(dot) ์์ ๋ถ๋ถ๋ง ์ถ์ถ
### Sex์ ํจ๊ป ์ด๋์
ํ์ธํ๊ธฐ
pd.crosstab(data.Initial,data.Sex).T.style.background_gradient(cmap='summer_r')
Initial | Capt | Col | Countess | Don | Dr | Jonkheer | Lady | Major | Master | Miss | Mlle | Mme | Mr | Mrs | Ms | Rev | Sir |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Sex | |||||||||||||||||
female | 0 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 182 | 2 | 1 | 0 | 125 | 1 | 0 | 0 |
male | 1 | 2 | 0 | 1 | 6 | 1 | 0 | 2 | 40 | 0 | 0 | 0 | 517 | 0 | 0 | 6 | 1 |
### ์๋ชป ํ๊ธฐ๋ ์ด๋์
๋ณ๊ฒฝ
# Mile์ด๋ Mme ๋ฑ
data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace = True)
### ์ด๋์
๋ณ ํ๊ท ๋์ด
data.groupby('Initial')['Age'].mean()
Initial Master 4.574167 Miss 21.860000 Mr 32.739609 Mrs 35.981818 Other 45.888889 Name: Age, dtype: float64
### ๊ฒฐ์ธก์น ์ฒ๋ฆฌ(NaN ์ฑ์ฐ๊ธฐ)
# ํ๊ท ์ฐ๋ น์ ์ฌ๋ฆผ ๊ฐ์ ํ์ฉ
data.loc[(data.Age.isnull()) & (data.Initial=='Mr'),'Age'] = 33
data.loc[(data.Age.isnull()) & (data.Initial=='Mrs'),'Age'] = 36
data.loc[(data.Age.isnull()) & (data.Initial=='Master'),'Age'] = 5
data.loc[(data.Age.isnull()) & (data.Initial=='Miss'),'Age'] = 22
data.loc[(data.Age.isnull()) & (data.Initial=='Other'),'Age'] = 46
data.Age.isnull().any()
# ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ์๋ฃ!
False
### ์๊ฐํ
f,ax = plt.subplots(1,2,figsize=(20,10))
data[data['Survived']==0].Age.plot.hist(ax=ax[0],bins=20,edgecolor='black',color='red')
ax[0].set_title('Survived= 0')
x1 = list(range(0,85,5))
ax[0].set_xticks(x1)
data[data['Survived']==1].Age.plot.hist(ax=ax[1],color='green',bins=20,edgecolor='black')
ax[1].set_title('Survived= 1')
x2=list(range(0,85,5))
ax[1].set_xticks(x2)
plt.show()
โ Observations
-
์ ์(์ฐ๋ น์ด 5์ธ ๋ฏธ๋ง)๋ ์์กด๋ฅ ์ด ๋์
-
๊ฐ์ฅ ๋์ด๊ฐ ๋ง์ ์น๊ฐ์ ๊ตฌ์กฐ๋์์(80์ธ)
-
๊ฐ์ฅ ๋ง์ด ์ฌ๋งํ ์น๊ฐ๋ค์ ์ฐ๋ น๋๋ 30 ~ 40๋
Embarked
- ๋ฒ์ฃผํ ๋ณ์
pd.crosstab([data.Embarked,data.Pclass],[data.Sex,data.Survived],margins=True).style.background_gradient(cmap='summer_r')
Sex | female | male | All | |||
---|---|---|---|---|---|---|
Survived | 0 | 1 | 0 | 1 | ||
Embarked | Pclass | |||||
C | 1 | 1 | 42 | 25 | 17 | 85 |
2 | 0 | 7 | 8 | 2 | 17 | |
3 | 8 | 15 | 33 | 10 | 66 | |
Q | 1 | 0 | 1 | 1 | 0 | 2 |
2 | 0 | 2 | 1 | 0 | 3 | |
3 | 9 | 24 | 36 | 3 | 72 | |
S | 1 | 2 | 46 | 51 | 28 | 127 |
2 | 6 | 61 | 82 | 15 | 164 | |
3 | 55 | 33 | 231 | 34 | 353 | |
All | 81 | 231 | 468 | 109 | 889 |
### Embarked์ ๋ฐ๋ฅธ ์์กด๋ฅ
sns.pointplot(x = 'Embarked',y = 'Survived',data = data)
fig = plt.gcf()
fig.set_size_inches(5,3)
plt.show()
-
ํญ๊ตฌ C์์์ ์์กด๋ฅ ์ด 0.55 ์ ๋๋ก ๊ฐ์ฅ ๋์
-
ํญ๊ตฌ S์์์ ์์กด๋ฅ ์ด ๊ฐ์ฅ ๋ฎ์
f,ax = plt.subplots(2,2,figsize = (20,15))
sns.countplot(x = 'Embarked',data = data,ax = ax[0,0])
ax[0,0].set_title('No. Of Passengers Boarded')
sns.countplot(x = 'Embarked',hue = 'Sex',data = data,ax = ax[0,1])
ax[0,1].set_title('Male-Female Split for Embarked')
sns.countplot(x = 'Embarked',hue = 'Survived',data = data,ax = ax[1,0])
ax[1,0].set_title('Embarked vs Survived')
sns.countplot(x = 'Embarked',hue = 'Pclass',data = data,ax = ax[1,1])
ax[1,1].set_title('Embarked vs Pclass')
plt.subplots_adjust(wspace = 0.2,hspace = 0.5)
plt.show()
โ Observations
-
S์์ ํ์นํ ์น๊ฐ๋ค ์ค ๋๋ค์๋ Pclass = 3 ์ถ์
-
C์์ ์จ ์น๊ฐ๋ค์ ๊ทธ๋ค ์ค ์๋นํ ๋น์จ์ด ์ด์๋จ์
- Pclass = 1๊ณผ Pclass = 2 ์น๊ฐ ์ ์์ ๊ตฌ์กฐํ ๊ฒ์ผ ์ ์์
-
Embarked = S๋ ๋๋ถ๋ถ ๋ถ์๋ค์ด ํ์นํ ํญ๊ตฌ๋ก ๋ณด์
-
์ฌ์ ํ ์ด๊ณณ์์๋ ์์กด ๊ฐ๋ฅ์ฑ์ด ๋ฎ์
-
PClass = 3 ์น๊ฐ์ 81%๊ฐ ์ ๋ ์ด์๋จ์ง ๋ชปํจ
-
-
Port Q had almost 95% of the passengers were from Pclass3
sns.catplot(x = 'Pclass',y = 'Survived',hue = 'Sex',col = 'Embarked',data = data, kind = 'point')
plt.show()
โ Observations
-
PClass์ ๊ด๊ณ์์ด PClass = 1๊ณผ PClass = 2์ ์ฌ์ฑ์ ์์กด ํ๋ฅ ์ ๊ฑฐ์ 1์ด๋ค.
-
Pclass = 3์ ๋ํด Embarked = S๋ ๋จ๋ ๋ชจ๋ ์์กด์จ์ด ๋งค์ฐ ๋ฎ์
-
Embarked = Q๋ ๊ฑฐ์ ๋ชจ๋ PClass = 3 ์ถ์
- ๋จ์ฑ์๊ฒ ๊ฐ์ฅ ๋ถ์ดํ ๊ฒ์ผ๋ก ๋ณด์
โ ๊ฒฐ์ธก์น(NaN) ์ฒ๋ฆฌ
-
๋ง์ ์น๊ฐ๋ค์ด S ํญ๊ตฌ์์ ํ์นํ์์
- NaN์ S๋ก ๋์ฒด
data['Embarked'].fillna('S',inplace = True)
data.Embarked.isnull().any()
# ๊ฒฐ์ธก์น ์ฒ๋ฆฌ๊ฐ ์ ์์ ์ผ๋ก ์ํ๋จ
False
SibSip
-
์ด์ฐ ๋ณ์(Discrete Feature)
-
ํผ์ ํ๋์ง ์๋๋ฉด ๊ทธ์ ๊ฐ์กฑ ๊ตฌ์ฑ์๊ณผ ํจ๊ป ํ๋์ง
-
ํ์ => ํ์ , ์๋งค, ์๋ถ๋์, ์๋ถ์ธ๋
-
๋ฐฐ์ฐ์ => ๋จํธ, ์๋ด
pd.crosstab([data.SibSp],data.Survived).style.background_gradient(cmap='summer_r')
Survived | 0 | 1 |
---|---|---|
SibSp | ||
0 | 398 | 210 |
1 | 97 | 112 |
2 | 15 | 13 |
3 | 12 | 4 |
4 | 15 | 3 |
5 | 5 | 0 |
8 | 7 | 0 |
### ์๊ฐํ
f,ax = plt.subplots(1,2,figsize = (20,8))
sns.barplot(x = 'SibSp',y = 'Survived',data = data, ax = ax[0])
ax[0].set_title('SibSp vs Survived')
sns.pointplot(x = 'SibSp',y = 'Survived',data = data, ax = ax[1])
ax[1].set_title('SibSp vs Survived')
plt.close(2)
plt.show()
### PClass์ ๋ฐ๋ฅธ ์์ ์
pd.crosstab(data.SibSp,data.Pclass).style.background_gradient(cmap='summer_r')
Pclass | 1 | 2 | 3 |
---|---|---|---|
SibSp | |||
0 | 137 | 120 | 351 |
1 | 71 | 55 | 83 |
2 | 5 | 8 | 15 |
3 | 3 | 1 | 12 |
4 | 0 | 0 | 18 |
5 | 0 | 0 | 5 |
8 | 0 | 0 | 7 |
โ Observartions
-
barplot ๋ฐ factorplot์ ์น๊ฐ์ด ํผ์ ํ์นํ ๊ฒฝ์ฐ(SibSp = 0) ์์กด์จ์ด 34.5%์์ ๋ณด์ฌ์ค
-
ํ์ ์๋งค์ ์๊ฐ ์ฆ๊ฐํ๋ฉด ๊ทธ๋ํ๋ ๋๋ต ๊ฐ์
-
์ฆ, ๋ง์ฝ ๊ฐ์กฑ์ ํ์ด๋ค๋ฉด, ์์ ์ ๋จผ์ ๊ตฌํ๋ ๋์ ๊ทธ๋ค์ ๊ตฌํ๊ธฐ ์ํด ๋ ธ๋ ฅํ ๊ฒ
-
-
๊ตฌ์ฑ์์ด 5-8๋ช ์ธ ๊ฐ์กฑ์ ์์กด์จ์ 0%
-
์ด์ : PClass
-
crosstab => SibSp > 3๋ฅผ ๊ฐ์ง ์ฌ๋์ด ๋ชจ๋ Pclass = 3์์ ํ์ ํ ์ ์์
Parch
pd.crosstab(data.Parch,data.Pclass).style.background_gradient(cmap='summer_r')
Pclass | 1 | 2 | 3 |
---|---|---|---|
Parch | |||
0 | 163 | 134 | 381 |
1 | 31 | 32 | 55 |
2 | 21 | 16 | 43 |
3 | 0 | 2 | 3 |
4 | 1 | 0 | 3 |
5 | 0 | 0 | 5 |
6 | 0 | 0 | 1 |
- ๊ฐ์กฑ ๊ตฌ์ฑ์์ ์๊ฐ ๋ง์์ง์๋ก ์ฃผ๋ก PClass = 3์ ์ํจ
### ์๊ฐํ
f,ax = plt.subplots(1,2,figsize = (20,8))
sns.barplot(x = 'Parch',y = 'Survived',data=data,ax=ax[0])
ax[0].set_title('Parch vs Survived')
sns.pointplot(x = 'Parch',y = 'Survived',data=data,ax=ax[1])
ax[1].set_title('Parch vs Survived')
plt.close(2)
plt.show()
Fare
- ์ฐ์ํ ๋ณ์
print('Highest Fare was:',data['Fare'].max())
print('Lowest Fare was:',data['Fare'].min())
print('Average Fare was:',data['Fare'].mean())
Highest Fare was: 512.3292 Lowest Fare was: 0.0 Average Fare was: 32.204207968574636
f,ax = plt.subplots(1,3,figsize=(20,8))
sns.distplot(data[data['Pclass']==1].Fare,ax=ax[0])
ax[0].set_title('Fares in Pclass 1')
sns.distplot(data[data['Pclass']==2].Fare,ax=ax[1])
ax[1].set_title('Fares in Pclass 2')
sns.distplot(data[data['Pclass']==3].Fare,ax=ax[2])
ax[2].set_title('Fares in Pclass 3')
plt.show()
-
Pclass = 1์ ์น๊ฐ ์๊ธ์ ๋ถ์ฐ์ด ํฐ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉฐ, ๊ธฐ์ค์ด ๊ฐ์ํจ์ ๋ฐ๋ผ ๋ถ์ฐ์ด ๊ณ์ํด์ ๊ฐ์ํ๊ณ ์์
-
์ฐ์ ๋ณ์์ด๊ธฐ์, binning์ ์ฌ์ฉํ์ฌ ์ด์ฐ ๊ฐ์ผ๋ก ๋ณํํ ์ ์์
1-3. ๊ฒฝํฅ์ฑ ํ์
์ ์ฒด ๋ณ์๋ค์ ๋ํ ์์ฝ
-
Sex: ์ฌ์ฑ์ด ๋จ์ฑ์ ๋นํด ์์กด ๊ฐ๋ฅ์ฑ์ด ๋์
-
PClass
-
๋ฑ๊ธ์ด ์ข์์๋ก ์์กด๋ฅ ์ด ๋์์ง๋ ์ถ์ธ๋ฅผ ๋ณด์
-
PClass = 3์ ์์กด๋ฅ ์ด ๋งค์ฐ ๋ฎ์
-
์ฌ์ฑ์ ๊ฒฝ์ฐ PClass = 1์์์ ์์กด๋ฅ ์ ๊ฑฐ์ 1์ด๊ณ , PClass = 2์ ๊ฒฝ์ฐ๋ ์์กด๋ฅ ์ด ๋์
-
-
Age
-
5-10์ธ ๋ฏธ๋ง ์ด๋ฆฐ์ด๋ค์ ๊ฒฝ์ฐ ์์กด ๊ฐ๋ฅ์ฑ์ด ๋์
-
15์ธ-30์ธ ์น๊ฐ๋ค์ด ๋ง์ด ์ฃฝ์
-
-
Embarked
-
PClass = 1 ์น๊ฐ ๋๋ถ๋ถ์ด S์์ ํ์นํ์๋ค๋ง, C์์์ ์์กด๋ฅ ์ด ํจ์ฌ ์ข์
-
Q์์ ํ์นํ ์๋๋ค์ ๋ชจ๋ PClass = 3
-
-
Parch + SibSp
- 1-2๋ช ์ ํ์ ์๋งค๊ฐ ์๊ฑฐ๋, ๋ฐฐ์ฐ์๊ฐ ์๊ฑฐ๋, 1-3๋ช ์ ๋ถ๋ชจ๊ฐ ์๋ ์น๊ฐ๋ค์ด ํผ์ ํ๊ฑฐ๋ ๋๊ฐ์กฑ์ธ ๊ฒฝ์ฐ๋ณด๋ค ์์กด๋ฅ ์ด ๋์
Feature๋ค ๊ฐ์ ์๊ด๊ฒ์
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) # correlation matrix
fig = plt.gcf()
fig.set_size_inches(10,8)
plt.show()
-
๊ฐ feature๋ค ๊ฐ์ ํฐ ์๊ด๊ด๊ณ๋ ์์์ ํ์ ํ ์ ์์
-
๊ฐ์ฅ ํฐ ์๊ด๊ด๊ณ
- SibSp์ Parch(0.41)
๋ชจ๋ feature๋ฅผ ํ์ฉํ ์ ์์
โ Heatmap์ ๋ํ ํด์
-
์ํ๋ฒณ์ด๋ ๋ฌธ์์ด ์ฌ์ด์์ ์๊ด๊ด๊ณ๋ฅผ ํ์ ํ ์ ์์
- numeric feature๋ค๋ง ๋น๊ต๋จ
-
์์ ์๊ด๊ด๊ณ(positive correlation)
-
feature A์ ์ฆ๊ฐ๊ฐ feature B์ ์ฆ๊ฐ๋ก ์ด์ด์ง๋ ๊ฒฝ์ฐ
-
1์ ์์ ํ ์์ ์๊ด ๊ด๊ณ๋ฅผ ์๋ฏธ
-
-
์์ ์๊ด๊ด๊ณ(negative correlation)
-
feature A์ ์ฆ๊ฐ๊ฐ feature B์ ๊ฐ์๋ก ์ด์ด์ง๋ ๊ฒฝ์ฐ
-
-1์ ์์ ํ ์์ ์๊ด ๊ด๊ณ๋ฅผ ์๋ฏธ
-
โ ๋ค์ค๊ณต์ ์ฑ(multicollinearity)
-
๋ ํน์ง์ด ๋งค์ฐ/ ์๋ฒฝํ๊ฒ ์๊ด๋จ
-
ํ feature์ ์ฆ๊ฐ๊ฐ ๋ค๋ฅธ feature์ ์ฆ๊ฐ๋ก ์ด์ด์ง
-
์ฆ, ๋ feature ๋ชจ๋ ๋งค์ฐ ์ ์ฌํ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ ์ ๋ณด์ ์ฐจ์ด๊ฐ ๊ฑฐ์/ ์ ํ ์์
-
-
๋ ๊ฐ์ feature๋ค์ด ์ค๋ณต๋๊ธฐ์, ๋ ๋ค ์ฌ์ฉํ๋ ๋์ ํ๋๋ง ์ฌ์ฉํด๋ ๋ฌด๋ฐฉํจ
2. ํน์ฑ ๊ณตํ(Feature Engineering) & ๋ฐ์ดํฐ ํด๋ ์ง
-
๋ชจ๋ feature๋ค์ด ์ค์ํ ๊ฒ์ ์๋
- ์ ๊ฑฐํด์ผ ํ ์ค๋ณต๋ ์ฑ๊ฒฉ์ feature๋ค์ด ๋ง์ด ์์ ์ ์์
-
๋ค๋ฅธ feature๋ค์ ๊ด์ฐฐํ๊ฑฐ๋ ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ ์๋ก์ด feature๋ก ๊ฐ์ ธ์ค๊ฑฐ๋ ์ถ๊ฐํ ์ ์์
2-1. ์๋ก์ด feature ์ถ๊ฐ
Age_band
โ Age feature์ ๋ฌธ์ ์
-
Age๋ ์ฐ์ํ ๋ณ์
- ML์์ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์์
-
binning ๋๋ ์ ๊ทํ๋ฅผ ํตํด ๋ฒ์ฃผํ ๋ณ์๋ก ๋ณํ ํ์
-
binning์ ํ์ฉ
-
์ฐ๋ น ๋ฒ์๋ฅผ ๋จ์ผ ๋น์ผ๋ก groupํ ํ๊ฑฐ๋ ๋จ์ผ ๊ฐ ํ ๋น
-
0 - 80์ธ๋ฅผ 5๊ฐ์ bin์ผ๋ก ๋๋๊ธฐ
-
### ์ฐ๋ น๋ ๋๋๊ธฐ
data['Age_band'] = 0
data.loc[data['Age']<= 16,'Age_band'] = 0
data.loc[(data['Age']>16)&(data['Age']<=32),'Age_band']=1
data.loc[(data['Age']>32)&(data['Age']<=48),'Age_band']=2
data.loc[(data['Age']>48)&(data['Age']<=64),'Age_band']=3
data.loc[data['Age']>64,'Age_band']=4
data.head(2)
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | Initial | Age_band | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S | Mr | 1 |
1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th... | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C | Mrs | 2 |
### ๊ฐ ์ฐ๋ น๋์ ์ํ๋ ์น๊ฐ ์
data['Age_band'].value_counts().to_frame().style.background_gradient(cmap='summer')
Age_band | |
---|---|
1 | 382 |
2 | 325 |
0 | 104 |
3 | 69 |
4 | 11 |
sns.catplot(x = 'Age_band', y = 'Survived',data=data,col='Pclass', kind = 'point')
plt.show()
- PClass์ ์๊ด ์์ด ๋์ด๊ฐ ์ฆ๊ฐํ ์๋ก ์์กด๋ฅ ์ด ๋ฎ์์ง
Family_Size & Alone
-
Parch + SibSp
-
์์กด๋ฅ ์ด ๊ฐ์กฑ ๊ตฌ์ฑ์ ์์ ๊ด๋ จ์ด ์๋์ง ํ์ธ
-
๋จ๋ ์ผ๋ก ์น๊ฐ์ด ํผ์์ธ์ง ์๋์ง๋ฅผ ๋ํ๋ผ ์ ์์
data['Family_Size'] = 0
data['Family_Size'] = data['Parch'] + data['SibSp'] #family size
data['Alone'] = 0
data.loc[data.Family_Size == 0,'Alone'] = 1 #Alone
### ์๊ฐํ
f,ax = plt.subplots(1,2,figsize = (18,6))
sns.pointplot(x = 'Family_Size',y = 'Survived',data = data, ax = ax[0])
ax[0].set_title('Family_Size vs Survived')
sns.pointplot(x = 'Alone',y = 'Survived',data = data, ax = ax[1])
ax[1].set_title('Alone vs Survived')
plt.close(2)
plt.close(3)
plt.show()
-
Family_Size = 0: ์น๊ฐ์ด ํผ์์์ ์๋ฏธ
-
ํผ์์ด๊ฑฐ๋ family_size = 0์ด๋ฉด ์์กด๋ฅ ์ด ๋งค์ฐ ๋ฎ์
-
family_size > 4์ธ ๊ฒฝ์ฐ๋ ์์กด๋ฅ ๊ฐ์
sns.catplot(x = 'Alone',y = 'Survived',data=data,hue='Sex',col='Pclass', kind = 'point')
plt.show()
- ๊ฐ์กฑ์ด ์๋ ์ฌ๋๋ณด๋ค ํผ์์ธ ์ฌ์ฑ์ ํ๋ฅ ์ด ๋์ Pclass = 3์ ์ ์ธํ๊ณ ๋ Sex, Pclass ๊ตฌ๋ถ ์์ด ํผ์ ์๋ ๊ฒ์ด ์ํํจ
Fare_Range
-
Fare ๋ํ ์ฐ์ํ ๋ณ์ -> ์ ์ฒ๋ฆฌ ํ์
-
์ ์ฒ๋ฆฌ๋ฅผ ์ํด
pandas.qcut()
์ ํ์ฉ -
pd.qcut(data, bins)
-
ํต๊ณผํ bin์ ์์ ๋ฐ๋ผ ๊ฐ์ ๋ถํ /๋ฐฐ์ด
-
5๊ฐ์ bin์ ๋ํด ์ ๋ฌ ์ ๊ฐ์ด 5๊ฐ์ bin ๋๋ ๊ฐ ๋ฒ์๋ก ๊ท ๋ฑํ๊ฒ ๋ฐฐ์ด๋จ
-
data['Fare_Range'] = pd.qcut(data['Fare'], 4)
data.groupby(['Fare_Range'])['Survived'].mean().to_frame().style.background_gradient(cmap='summer_r')
Survived | |
---|---|
Fare_Range | |
(-0.001, 7.91] | 0.197309 |
(7.91, 14.454] | 0.303571 |
(14.454, 31.0] | 0.454955 |
(31.0, 512.329] | 0.581081 |
-
fare_range๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์กด๋ฅ ์ด ์ฆ๊ฐ
-
Fare_range ๊ฐ์ Age_band์ ๊ฐ์ด ๋ฒ์ฃผํ ๊ฐ์ผ๋ก ๋ณ๊ฒฝ
data['Fare_cat'] = 0
data.loc[data['Fare'] <= 7.91,'Fare_cat'] = 0
data.loc[(data['Fare'] > 7.91) & (data['Fare'] <= 14.454),'Fare_cat'] = 1
data.loc[(data['Fare'] > 14.454) & (data['Fare'] <= 31),'Fare_cat'] = 2
data.loc[(data['Fare'] > 31) & (data['Fare'] <= 513),'Fare_cat'] = 3
sns.pointplot(x = 'Fare_cat',y = 'Survived',data=data,hue='Sex')
plt.show()
-
Fare_cat์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์กด๋ฅ ์ด ์ฆ๊ฐํจ
-
Sex์ ๋๋ถ์ด ๋ชจ๋ธ๋ง ์ ์ค์ํ feature๋ก ์์๋จ
2-2. feature ๋ณํ
- ๋ชจ๋ธ์ ์ ํฉํ ์ ์๋ ํํ๋ก feature๋ค์ ๋ณํ
String -> ์์นํ
- ML ๋ชจํ์ ์์นํ ๋ณ์๋ค๋ง ์ฒ๋ฆฌ ๊ฐ๋ฅ
data['Sex'].replace(['male','female'],[0,1],inplace = True)
data['Embarked'].replace(['S','C','Q'],[0,1,2],inplace = True)
data['Initial'].replace(['Mr','Mrs','Miss','Master','Other'],[0,1,2,3,4],inplace = True)
2-3. ๋ถํ์ํ feature ์ ๊ฑฐ
-
Name: ๋ฒ์ฃผํ ๋ณ์๋ก ๋ณํ ๋ถ๊ฐ
-
Age: Age_band ๋ณ์๋ก ๋์ฒด
-
Ticket: ๋ฒ์ฃผํ ๋ณ์๋ก ๋ณํํ๊ธฐ์ ๋๋ฌด ๋ค์ฑ๋ก์
-
Fare: Fare_cat ๋ณ์๋ก ๋์ฒด
-
Cabin: ๋ง์ ๊ฒฐ์ธก์น(NaN), ํ ์น๊ฐ์ด ์ฌ๋ฌ ๊ฐ์ Cabin
-
Fare_range: fare_cat ๋ณ์๋ก ๋์ฒด
-
PassengerId: ๋ฒ์ฃผํ ๋ณ์๋ก ๋ณํ ๋ถ๊ฐ
data.drop(['Name','Age','Ticket','Fare','Cabin','Fare_Range','PassengerId'],axis = 1,inplace = True)
### ์ต์ข
๋ณ์๋ค์ heatmap
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2,annot_kws={'size':20})
fig = plt.gcf()
fig.set_size_inches(18,15)
plt.xticks(fontsize = 14)
plt.yticks(fontsize = 14)
plt.show()
-
๋ช๋ช ๋ณ์๋ค์ด ์์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง์ ํ์ธํ ์ ์์
-
SibSp & Family_Size
-
Parch & Family_Size
-
-
๋ณ์๋ค ๊ฐ์ ์์ ์๊ด๊ด๊ณ๋ ํ์ธํ ์ ์์
- Alone & Family_Size
3. ์์ธก์ ๋ชจ๋ธ๋ง
-
๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์น๊ฐ์ ์์กด ์ฌ๋ถ๋ฅผ ์์ธก
-
ํ์ฉ ์๊ณ ๋ฆฌ์ฆ๋ค
-
์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine)
-
๋ก์ง์คํฑ ํ๊ท(LogisticRegression)
-
๊ฒฐ์ ํธ๋ฆฌ(Decision Tree)
-
K-์ต๊ทผ์ ์ด์(K-Nearest Neighbors)
-๊ฐ์ฐ์ค ๋์ด๋ธ ๋ฒ ์ด์ฆ(Gauss Naive Bayes)
-
๋๋ค ํฌ๋ ์คํธ(RandomForest)
-
๋ก์ง์คํฑ ํ๊ท(LogisticRegression)
-
### ML์ ํ์ํ ๋ชจ๋ library import
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics # accuracy measure
from sklearn.metrics import confusion_matrix # for confusion matrix
### ๋ฐ์ดํฐ ๋ถํ
train, test = train_test_split(data,test_size = 0.3,random_state = 0,stratify = data['Survived'])
train_X = train[train.columns[1:]]
train_Y = train[train.columns[:1]]
test_X = test[test.columns[1:]]
test_Y = test[test.columns[:1]]
X = data[data.columns[1:]]
Y = data['Survived']
3-1. ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ
Support Vector Machines
-
C: ๋ง์ง ์ค๋ฅ๋ฅผ ์ผ๋ง๋ ํ์ฉํ ๊ฒ์ธ๊ฐ
-
ํด์๋ก ๋ง์ง์ด ๋์ด์ง๊ณ ์ค๋ฅ ์ฆ๊ฐ
-
์์์๋ก ๋ง์ง์ด ์ข์์ง๊ณ ์ค๋ฅ ๊ฐ์
-
-
kernel: ์ปค๋ ํจ์ ์ข ๋ฅ
- โlinearโ, โpolyโ, โrbfโ, โsigmoidโ
-
gamma: ์ปค๋ ๊ณ์ ์ง์
- kernel์ด โpolyโ, โrbfโ, โsigmoidโ์ผ ๋ ์ ํจ
โป Reference: ํธ์ฆ์จ ๋จธ์ ๋ฌ๋
### Radial Support Vector Machines(rbf-SVM)
model = svm.SVC(kernel = 'rbf',C = 1,gamma = 0.1) # ๋ชจ๋ธ ๊ฐ์ฒด ์์ฑ
model.fit(train_X,train_Y) # ํ์ต
prediction1 = model.predict(test_X) # ์์ธก
print('Accuracy for rbf SVM is ',metrics.accuracy_score(prediction1,test_Y)) # ํ๊ฐ
Accuracy for rbf SVM is 0.835820895522388
### Linear Support Vector Machine(linear-SVM)
model = svm.SVC(kernel = 'linear',C = 0.1,gamma = 0.1)
model.fit(train_X,train_Y)
prediction2=model.predict(test_X)
print('Accuracy for linear SVM is',metrics.accuracy_score(prediction2,test_Y))
Accuracy for linear SVM is 0.8171641791044776
Logistic Regression
model = LogisticRegression()
model.fit(train_X,train_Y)
prediction3 = model.predict(test_X)
print('The accuracy of the Logistic Regression is',metrics.accuracy_score(prediction3,test_Y))
The accuracy of the Logistic Regression is 0.8134328358208955
๊ฒฐ์ ํธ๋ฆฌ
model = DecisionTreeClassifier()
model.fit(train_X,train_Y)
prediction4 = model.predict(test_X)
print('The accuracy of the Decision Tree is',metrics.accuracy_score(prediction4,test_Y))
The accuracy of the Decision Tree is 0.8059701492537313
K-Nearest Neighbours(KNN)
model = KNeighborsClassifier()
model.fit(train_X,train_Y)
prediction5 = model.predict(test_X)
print('The accuracy of the KNN is',metrics.accuracy_score(prediction5,test_Y))
The accuracy of the KNN is 0.8134328358208955
### n_neignbors ๊ฐ์ ๋ณ๊ฒฝํ๋ฉฐ KNN ๋ชจ๋ธ์ ์ ํ๋ ํ์ธํ๊ธฐ
a_index = list(range(1,11))
a = pd.Series() # ์ ํ๋๊ฐ ์ ์ฅ๋ Series ๊ฐ์ฒด
x = [0,1,2,3,4,5,6,7,8,9,10]
for i in list(range(1,11)):
model = KNeighborsClassifier(n_neighbors = i)
model.fit(train_X, train_Y)
prediction = model.predict(test_X)
a = a.append(pd.Series(metrics.accuracy_score(prediction,test_Y)))
plt.plot(a_index, a)
plt.xticks(x)
fig = plt.gcf()
fig.set_size_inches(12,6)
plt.show()
print()
print('Accuracies for different values of n are:',a.values,'with the max value as ',a.values.max())
Accuracies for different values of n are: [0.73134328 0.76119403 0.79477612 0.80597015 0.81343284 0.80223881 0.82835821 0.83208955 0.84701493 0.82835821] with the max value as 0.8470149253731343
Gaussian Naive Bayes
model = GaussianNB()
model.fit(train_X,train_Y)
prediction6 = model.predict(test_X)
print('The accuracy of the NaiveBayes is',metrics.accuracy_score(prediction6,test_Y))
The accuracy of the NaiveBayes is 0.8134328358208955
Random Forests
model = RandomForestClassifier(n_estimators = 100)
model.fit(train_X,train_Y)
prediction7 = model.predict(test_X)
print('The accuracy of the Random Forests is',metrics.accuracy_score(prediction7,test_Y))
The accuracy of the Random Forests is 0.8059701492537313
-
๋ชจ๋ธ์ ์ ํ์ฑ์ด ๋ถ๋ฅ๊ธฐ์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ์ ์ผํ ์์๋ ์๋
-
๋ถ๋ฅ๊ธฐ๊ฐ ์์ฒด ๊ต์ก์ ์ฌ์ฉํ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ๊ฒฐ์ ํ ์๋ ์์
-
train ๋ฐ test ๋ฐ์ดํฐ๊ฐ ๋ณ๊ฒฝ๋จ์ ๋ฐ๋ผ ์ ํ๋๋ ๋ณ๊ฒฝ๋จ
-
๋ชจํ ๋ถ์ฐ(model variance)
- ์ผ๋ฐํ๋ ๋ชจ๋ธ์ ์ป๊ธฐ ์ํด ๊ต์ฐจ ๊ฒ์ฆ์ ํ์ฉ
3-2. ๊ต์ฐจ ๊ฒ์ฆ(Cross Validation)
-
๋ง์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๊ฐ ๋ถ๊ท ํํจ
-
์ต๋ํ ๋ฐ์ดํฐ ์ธํธ์ ๋ชจ๋ ์ธ์คํด์ค์์ ์๊ณ ๋ฆฌ์ฆ์ trainํ๊ณ test ํด์ผ ํจ
-
๋ฐ์ดํฐ ์ธํธ์ ๋ํด ์๋ ค์ง ๋ชจ๋ ์ ํ๋์ ํ๊ท ์ ์ป๊ธฐ
-
K-Fold ๊ต์ฐจ ๊ฒ์ฆ
-
๋จผ์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ k-๋ถ๋ถ ์งํฉ์ผ๋ก ๋๋๊ธฐ
-
๋ฐ์ดํฐ ์ธํธ๋ฅผ (k = 5) ๋ถ๋ถ์ผ๋ก ๋๋๋ค๊ณ ๊ฐ์ ํ๋ฉด test๋ฅผ ์ํด 1๊ฐ์ ๋ถ๋ถ์ ์ ํ๊ณ 4๊ฐ์ ๋ถ๋ถ์ ๊ฑธ์ณ ์๊ณ ๋ฆฌ์ฆ์ train
-
๊ฐ ๋ฐ๋ณต์์ test ๋ถ๋ถ์ ๋ณ๊ฒฝํ๊ณ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ํด ์๊ณ ๋ฆฌ์ฆ์ ํ๋ จ
- ์ดํ ๊ฐ ๋ฐ๋ณต๋ง๋ค ์ป์ ์ ํ๋์ ์ค์ฐจ๋ฅผ ํ๊ท
-
์๊ณ ๋ฆฌ์ฆ์ด ์ผ๋ถ train ๋ฐ์ดํฐ์ ์ ํฉํ์ง ์๊ฑฐ๋(underfitting) ์ง๋์น๊ฒ ์ ํฉ๋๋ ๊ฒ(overfitting) ๋ฐฉ์ง
### import libraries
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score # score evaluation
from sklearn.model_selection import cross_val_predict # prediction
kfold = KFold(n_splits = 10, random_state = 22, shuffle = True) # k=10, split the data into 10 equal parts
xyz = []
accuracy = []
std = []
classifiers = ['Linear Svm','Radial Svm','Logistic Regression','KNN',
'Decision Tree','Naive Bayes','Random Forest']
models = [svm.SVC(kernel='linear'),svm.SVC(kernel='rbf'),LogisticRegression(),
KNeighborsClassifier(n_neighbors=9),DecisionTreeClassifier(),GaussianNB(),
RandomForestClassifier(n_estimators=100)]
for i in models:
model = i
cv_result = cross_val_score(model,X,Y, cv = kfold,scoring = "accuracy") # ๊ต์ฐจ ๊ฒ์ฆ ์ํ
cv_result = cv_result
xyz.append(cv_result.mean())
std.append(cv_result.std())
accuracy.append(cv_result)
new_models_dataframe2 = pd.DataFrame({'CV Mean':xyz,'Std':std},index=classifiers)
new_models_dataframe2
CV Mean | Std | |
---|---|---|
Linear Svm | 0.784607 | 0.057841 |
Radial Svm | 0.828377 | 0.057096 |
Logistic Regression | 0.799176 | 0.040154 |
KNN | 0.808140 | 0.035630 |
Decision Tree | 0.805855 | 0.042848 |
Naive Bayes | 0.795843 | 0.054861 |
Random Forest | 0.811486 | 0.049518 |
### ์๊ฐํ
plt.subplots(figsize = (12,6))
box = pd.DataFrame(accuracy,index = [classifiers])
box.T.boxplot()
<Axes: >
new_models_dataframe2['CV Mean'].plot.barh(width = 0.8)
plt.title('Average CV Mean Accuracy')
fig = plt.gcf()
fig.set_size_inches(8,5)
plt.show()
-
๋ถ๋ฅ ์ ํ๋๋ ๋ถ๊ท ํ์ผ๋ก ์ธํด ๋๋๋ก ์คํด์ ์์ง๊ฐ ์์ ์ ์์
-
๋ชจ๋ธ์ด ์ด๋์ ์๋ชป๋์๋์ง, ๋๋ ๋ชจ๋ธ์ด ์ด๋ค ํด๋์ค๋ฅผ ์๋ชป ์์ธกํ๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ค์ฐจ ํ๋ ฌ(confusion matrix)์ ๋์์ผ๋ก ์์ฝ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์
์ค์ฐจ ํ๋ ฌ
- ๋ถ๋ฅ๊ธฐ์ ์ํด ๋ง๋ค์ด์ง ์ ํํ ๋ถ๋ฅ์ ์๋ชป๋ ๋ถ๋ฅ์ ์๋ฅผ ์ ๊ณต
f,ax = plt.subplots(3,3,figsize=(12,10))
y_pred = cross_val_predict(svm.SVC(kernel = 'rbf'),X,Y,cv = 10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,0],annot=True,fmt='2.0f')
ax[0,0].set_title('Matrix for rbf-SVM')
y_pred = cross_val_predict(svm.SVC(kernel='linear'),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,1],annot=True,fmt='2.0f')
ax[0,1].set_title('Matrix for Linear-SVM')
y_pred = cross_val_predict(KNeighborsClassifier(n_neighbors=9),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[0,2],annot=True,fmt='2.0f')
ax[0,2].set_title('Matrix for KNN')
y_pred = cross_val_predict(RandomForestClassifier(n_estimators=100),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,0],annot=True,fmt='2.0f')
ax[1,0].set_title('Matrix for Random-Forests')
y_pred = cross_val_predict(LogisticRegression(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,1],annot=True,fmt='2.0f')
ax[1,1].set_title('Matrix for Logistic Regression')
y_pred = cross_val_predict(DecisionTreeClassifier(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[1,2],annot=True,fmt='2.0f')
ax[1,2].set_title('Matrix for Decision Tree')
y_pred = cross_val_predict(GaussianNB(),X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,y_pred),ax=ax[2,0],annot=True,fmt='2.0f')
ax[2,0].set_title('Matrix for Naive Bayes')
plt.subplots_adjust(hspace=0.2,wspace=0.2)
plt.show()
โ ์ค์ฐจ ํ๋ ฌ ํด์
-
์ผ์ชฝ ๋๊ฐ์ : ๊ฐ ํด๋์ค์ ๋ํด ์ํ๋ ์ ํํ ์์ธก์ ์/ ์ค๋ฅธ์ชฝ ๋๊ฐ์ : ์๋ชป๋ ์์ธก์ ์๋ฅผ ํ์
-
rbf-SVM์ ๋ํ ์ฒซ ๋ฒ์งธ ๊ทธ๋ฆผ ํด์
-
์ ํํ ์์ธก์ ์๋ 491(์ฌ๋ง์์ ๊ฒฝ์ฐ) + 247(์์กด์์ ๊ฒฝ์ฐ)์ด๋ฉฐ ํ๊ท CV ์ ํ๋๋ (491+247)/891 = 82.8%
-
์ค๋ฅโ> 58๋ช ์ ์ฌ๋ง์๋ฅผ ์์กด์๋ก ์๋ชป ๋ถ๋ฅํ๊ณ 95๋ช ์ ์ฌ๋ง์๋ฅผ ์์กด์๋ก ์๋ชป ๋ถ๋ฅ
-
๋ชจ๋ ํ๋ ฌ์ ์ดํด๋ณธ ํ, ์ฐ๋ฆฌ๋ rbf-SVM์ด ์ฌ๋งํ ์น๊ฐ์ ์ ํํ๊ฒ ์์ธกํ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์ง๋ง, ๋์ด๋ธ ๋ฒ ์ด์ฆ๋ ์์กดํ ์น๊ฐ์ ์ ํํ๊ฒ ์์ธกํ ๊ฐ๋ฅ์ฑ์ด ๋ ๋๋ค๊ณ ๋งํ ์ ์์
โ ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋
-
ํ์ดํผ ํ๋ผ๋ฏธํฐ: ์๋ก ๋ค๋ฅธ ๋ถ๋ฅ๊ธฐ์ ๋ํ ์๋ก ๋ค๋ฅธ ๋งค๊ฐ ๋ณ์
-
์ด๋ฅผ ์กฐ์ ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ํ์ต ์๋ ๋ณ๊ฒฝ ๋ฑ ๋ ๋์ ๋ชจ๋ธ์ ์ป์ ์ ์์ => ํ๋
### SVM ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋
from sklearn.model_selection import GridSearchCV
C = [0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
gamma = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]
kernel = ['rbf','linear']
hyper = {'kernel':kernel,'C':C,'gamma':gamma}
# ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋
gd = GridSearchCV(estimator = svm.SVC(),param_grid = hyper,verbose = True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)
Fitting 5 folds for each of 240 candidates, totalling 1200 fits 0.8282593685267716 SVC(C=0.4, gamma=0.3)
- C = 0.4, gamma = 0.3์ผ ๋ ์ ํ๋๊ฐ 82.82%๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ
### RandomForest ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋
n_estimators = range(100,1000,100)
hyper = {'n_estimators':n_estimators}
gd = GridSearchCV(estimator=RandomForestClassifier(random_state=0),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)
Fitting 5 folds for each of 9 candidates, totalling 45 fits 0.819327098110602 RandomForestClassifier(n_estimators=300, random_state=0)
- n_estimators = 300์ผ ๋ ์ ํ๋๊ฐ 81.9% ์ ๋๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ
3-3. ์์๋ธ(Ensembling)
-
๋ค์ํ ๋จ์ํ ๋ชจ๋ธ๋ค์ด ๊ฒฐํฉํ์ฌ ํ๋์ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ
- ๋ชจ๋ธ์ ์ ํ๋๋ ์ฑ๋ฅ์ ๋์ด๋ ์ข์ ๋ฐฉ๋ฒ
-
๋ฐฉ๋ฒ
-
Voting Classifier
-
Bagging
-
Boosting
-
VotingClassifier
-
๋ค์ํ ๊ธฐ๊ณ ํ์ต ๋ชจ๋ธ์ ์์ธก์ ๊ฒฐํฉํ๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ
-
๋ชจ๋ ํ์ ๋ชจ๋ธ์ ์์ธก์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ท ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณต
- ์ด๋ ํ์ ๋ชจ๋ธ ๋๋ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋ชจ๋ ๋ค๋ฅธ ์ ํ
from sklearn.ensemble import VotingClassifier
ensemble_lin_rbf = VotingClassifier(estimators = [('KNN',KNeighborsClassifier(n_neighbors=10)),
('RBF',svm.SVC(probability=True,kernel='rbf',C=0.5,gamma=0.1)),
('RFor',RandomForestClassifier(n_estimators=500,random_state=0)),
('LR',LogisticRegression(C=0.05)),
('DT',DecisionTreeClassifier(random_state=0)),
('NB',GaussianNB()),
('svm',svm.SVC(kernel='linear',probability=True))
],
voting = 'soft').fit(train_X,train_Y) # soft voting
print('The accuracy for ensembled model is:',ensemble_lin_rbf.score(test_X,test_Y))
cross = cross_val_score(ensemble_lin_rbf,X,Y, cv = 10, scoring = "accuracy")
print('The cross validated score is',cross.mean())
The accuracy for ensembled model is: 0.8171641791044776 The cross validated score is 0.8249188514357053
Bagging
-
์ผ๋ฐ์ ์ธ ์์๋ธ ๋ฐฉ์
-
๋ฐ์ดํฐ ์ธํธ์ ์์ ํํฐ์ (์ผ๋ถ๋ถ)์ ์ ์ฌํ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ ์ฉํ ๋ค์ ๋ชจ๋ ์์ธก์ ํ๊ท ์ ์ทจํจ์ผ๋ก์จ ์๋
-
ํ๊ท ํ๋ก ์ธํด ๋ถ์ฐ์ด ๊ฐ์๋จ
โ Baged KNN
- ๋ฐฐ๊น ์ ๋ถ์ฐ์ด ๋์ ๋ชจํ์์ ๊ฐ์ฅ ์ ์๋
ex> ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ, ๋๋ค ํฌ๋ ์คํธ
- n_neighbors๋ก ์์ ๊ฐ์ ๊ฐ์ง๋ KNN๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์์
from sklearn.ensemble import BaggingClassifier
model = BaggingClassifier(base_estimator = KNeighborsClassifier(n_neighbors=3),random_state=0,n_estimators=700)
model.fit(train_X,train_Y)
prediction=model.predict(test_X)
print('The accuracy for bagged KNN is:',metrics.accuracy_score(prediction,test_Y))
result = cross_val_score(model,X,Y,cv = 10,scoring='accuracy')
print('The cross validated score for bagged KNN is:',result.mean())
The accuracy for bagged KNN is: 0.832089552238806 The cross validated score for bagged KNN is: 0.8104244694132333
โ Bagged DecisionTree
model = BaggingClassifier(base_estimator=DecisionTreeClassifier(),random_state=0,n_estimators=100)
model.fit(train_X,train_Y)
prediction = model.predict(test_X)
print('The accuracy for bagged Decision Tree is:',metrics.accuracy_score(prediction,test_Y))
result = cross_val_score(model,X,Y,cv = 10,scoring = 'accuracy')
print('The cross validated score for bagged Decision Tree is:',result.mean())
The accuracy for bagged Decision Tree is: 0.8208955223880597 The cross validated score for bagged Decision Tree is: 0.8171410736579275
Boosting
-
๋ถ๋ฅ๊ธฐ์ ์์ฐจ ํ์ต์ ์ฌ์ฉํ๋ ์์๋ธ ๊ธฐ์
- ์ฝํ ๋ชจ๋ธ์ ๋จ๊ณ์ ์ผ๋ก ํฅ์์ํค๋ ๊ฒ
-
๋จผ์ ์ ์ฒด ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ํ๋ จ
-
์ผ๋ถ ์ธ์คํด์ค๋ ๋ง์ง๋ง ์ผ๋ถ ์ธ์คํด์ค๋ ํ๋ฆผ
-
์ดํ ๋ค์ ๋ฐ๋ณต์์ ์๋ชป ์์ธก๋ ์ฌ๋ก์ ๋ฐ ์ง์คํ๊ฑฐ๋ ๋น์ค์ ๋์ด ์๋ชป๋ ์์ธก์ ๋ฐ๋ก์ก์ผ๋ ค ๋ ธ๋ ฅ
- ์ ํ๋๊ฐ ํ๊ณ์ ๋ค๋ค๋ฅผ ๋๊น์ง ์๋ก์ด ๋ถ๋ฅ๊ธฐ๋ฅผ ์ถ๊ฐ์ํค๋ฉฐ ํ์ต
โ AdaBoost(Adaptive Boosting)
-
์ฝํ ๋ถ๋ฅ๊ธฐ: ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ
base_estimator
์ต์ ์์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ณ๊ฒฝ ๊ฐ๋ฅ
from sklearn.ensemble import AdaBoostClassifier
ada = AdaBoostClassifier(n_estimators = 200,random_state = 0,learning_rate = 0.1)
result = cross_val_score(ada,X,Y,cv = 10,scoring = 'accuracy')
print('The cross validated score for AdaBoost is:',result.mean())
The cross validated score for AdaBoost is: 0.8249188514357055
โ Stochastic Gradient Boosting
- ์ฝํ ๋ถ๋ฅ๊ธฐ: ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ
from sklearn.ensemble import GradientBoostingClassifier
grad = GradientBoostingClassifier(n_estimators=500,random_state=0,learning_rate=0.1)
result = cross_val_score(grad,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for Gradient Boosting is:',result.mean())
The cross validated score for Gradient Boosting is: 0.8115230961298376
โ XGBoost
import xgboost as xg
xgboost = xg.XGBClassifier(n_estimators=900,learning_rate=0.1)
result = cross_val_score(xgboost,X,Y,cv=10,scoring='accuracy')
print('The cross validated score for XGBoost is:',result.mean())
The cross validated score for XGBoost is: 0.8160299625468165
- AdaBoost์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ
### AdaBoost - hyper parameter tuning
n_estimators = list(range(100,1100,100))
learn_rate = [0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
hyper = {'n_estimators':n_estimators,'learning_rate':learn_rate}
gd = GridSearchCV(estimator=AdaBoostClassifier(),param_grid=hyper,verbose=True)
gd.fit(X,Y)
print(gd.best_score_)
print(gd.best_estimator_)
Fitting 5 folds for each of 120 candidates, totalling 600 fits 0.8293892411022534 AdaBoostClassifier(learning_rate=0.1, n_estimators=100)
- learning_rate = 0.1, n_estimators = 100์ผ ๋ ์ ํ๋๊ฐ 82.94% ์ ๋๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์
์ต์ ๋ชจํ์ ๋ํ ์ค์ฐจ ํ๋ ฌ
ada = AdaBoostClassifier(n_estimators=100,random_state=0,learning_rate=0.1)
result = cross_val_predict(ada,X,Y,cv=10)
sns.heatmap(confusion_matrix(Y,result),cmap = 'winter',annot=True,fmt='2.0f')
plt.show()
3-4. Feature ์ค์๋
f,ax = plt.subplots(2,2,figsize=(15,12))
### RandomForest
model = RandomForestClassifier(n_estimators=500,random_state=0)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[0,0])
ax[0,0].set_title('Feature Importance in Random Forests')
### AdaBoost
model=AdaBoostClassifier(n_estimators=100,learning_rate=0.1,random_state=0)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[0,1],color='#ddff11')
ax[0,1].set_title('Feature Importance in AdaBoost')
### Gradient Boosting
model=GradientBoostingClassifier(n_estimators=500,learning_rate=0.1,random_state=0)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[1,0],cmap='RdYlGn_r')
ax[1,0].set_title('Feature Importance in Gradient Boosting')
### XGBoost
model=xg.XGBClassifier(n_estimators=900,learning_rate=0.1)
model.fit(X,Y)
pd.Series(model.feature_importances_,X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[1,1],color='#FD0F00')
ax[1,1].set_title('Feature Importance in XgBoost')
plt.show()
โ Observations
-
๊ณตํต์ ์ผ๋ก ์ค์ํ๋ค๊ณ ๋ํ๋๋ feature๋ค: Initial, Fare_cat, Pclass, Family_Size
-
Sex ๊ธฐ๋ฅ์ ์ค์ํ์ง ์์ feature๋ก ๋ณด์
-
RandomForest์์๋ง Sex๊ฐ ์ค์ํด ๋ณด์
-
๊ทธ๋ฌ๋ ๋ง์ ๋ถ๋ฅ๊ธฐ์์ ๋งจ ์์ Initial feature๊ฐ ์์์ ํ์ธํ ์ ์๋๋ฐ, ์ด๋ ๋ ๋ค ์ฑ๋ณ์ ์ธ๊ธ
-