• (이유한님) 캐글 코리아 캐글 스터디 커널 커리큘럼
  • 1st level. Titanic: Machine Learning from Disaster

0. Import libraries

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# matplotlib의 기본 scheme 말고 seaborn scheme을 세팅
# 일일이 graph의 font size 를 지정할 필요 없이 seaborn 의 font_scale 을 사용하면 편리
plt.style.use('seaborn')
sns.set(font_scale =  2.5) 
import missingno as msno

#ignore warnings
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

📌 진행 프로세스

1. 데이터셋 확인

  • null data를 확인하고, 향후 수정

2. 탐색적 데이터 분석(exploratory data analysis)

  • 여러 feature 들을 개별적으로 분석하고, feature들 간의 상관관계를 확인

  • 여러 시각화 툴을 사용하여 insight 얻기

3. feature engineering

  • 모델을 세우기에 앞서, 모델의 성능을 높일 수 있도록 feature 들을 engineering

  • one-hot encoding, class로 나누기, 구간으로 나누기, 텍스트 데이터 처리 등

4. model 만들기

  • sklearn을 사용해 모델 생성

    • 파이썬에서 머신러닝을 할 때는 sklearn을 사용하면 수많은 알고리즘을 일관된 문법으로 사용할 수 있음
  • 딥러닝을 위해 tensorflow, pytorch 등을 사용

5. 모델 학습 및 예측

  • train set을 가지고 모델을 학습시킨 후, test set을 가지고 prediction 수행

6. 모델 평가

  • 예측 성능이 원하는 수준인지 판단

  • 풀려는 문제에 따라 모델을 평가하는 방식도 달라짐

  • 학습된 모델이 어떤 것을 학습 하였는지 확인

1. 데이터셋 확인

  • 파이썬에서 테이블화 된 데이터를 다루는 데 가장 최적화되어 있으며, 많이 쓰이는 라이브러리는 pandas

  • pandas를 사용하여 데이터셋의 간단한 통계적 분석부터, 복잡한 처리들을 간단한 메소드를 사용하여 해낼 수 있음

  • 파이썬으로 데이터 분석을 한다고 하면 반드시 능숙해져야 할 라이브러리

  • 캐글에서 데이터셋은 보통 train, test set으로 나뉘어 있음

### 코랩에서 파일을 불러오기 위한 코드
from google.colab import drive
drive.mount('/content/drive') 
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
df_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ECC 48기 데과B/1주차/data/train.csv')
df_test = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ECC 48기 데과B/1주차/data/test.csv')
### 파일의 일부만 확인

df_train.head()
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C
2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S
4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S
  • 우리가 다루는 문제에서 feature는 Pclass, Age, SibSp, Parch, Fare 이며, 예측하려는 target label 은 Survived 이다.

image.png

  • pd.DataFrame.describe(): 각 feature가 가진 통계치들을 반환
df_train.describe()
PassengerId Survived Pclass Age SibSp Parch Fare
count 891.000000 891.000000 891.000000 714.000000 891.000000 891.000000 891.000000
mean 446.000000 0.383838 2.308642 29.699118 0.523008 0.381594 32.204208
std 257.353842 0.486592 0.836071 14.526497 1.102743 0.806057 49.693429
min 1.000000 0.000000 1.000000 0.420000 0.000000 0.000000 0.000000
25% 223.500000 0.000000 2.000000 20.125000 0.000000 0.000000 7.910400
50% 446.000000 0.000000 3.000000 28.000000 0.000000 0.000000 14.454200
75% 668.500000 1.000000 3.000000 38.000000 1.000000 0.000000 31.000000
max 891.000000 1.000000 3.000000 80.000000 8.000000 6.000000 512.329200
df_test.describe()
PassengerId Pclass Age SibSp Parch Fare
count 418.000000 418.000000 332.000000 418.000000 418.000000 417.000000
mean 1100.500000 2.265550 30.272590 0.447368 0.392344 35.627188
std 120.810458 0.841838 14.181209 0.896760 0.981429 55.907576
min 892.000000 1.000000 0.170000 0.000000 0.000000 0.000000
25% 996.250000 1.000000 21.000000 0.000000 0.000000 7.895800
50% 1100.500000 3.000000 27.000000 0.000000 0.000000 14.454200
75% 1204.750000 3.000000 39.000000 1.000000 0.000000 31.500000
max 1309.000000 3.000000 76.000000 8.000000 9.000000 512.329200
  • PassenserID 숫자와 다른, 그러니까 null data가 존재하는 열(feature)가 있는 것을 확인할 수 있음

  • 이를 좀 더 보기 편하도록 그래프로 시각화해서 살펴보자.

1-1. Null data check

  • 각 컬럼별로 전체 데이터 중 결측치(NaN)의 비율 구하기

  • pd.isnull(): 배열 형태 객체에 결측치가 있는지 확인해주는 함수

### train data

for col in df_train.columns:
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
    print(msg)
column: PassengerId	 Percent of NaN value: 0.00%
column:   Survived	 Percent of NaN value: 0.00%
column:     Pclass	 Percent of NaN value: 0.00%
column:       Name	 Percent of NaN value: 0.00%
column:        Sex	 Percent of NaN value: 0.00%
column:        Age	 Percent of NaN value: 19.87%
column:      SibSp	 Percent of NaN value: 0.00%
column:      Parch	 Percent of NaN value: 0.00%
column:     Ticket	 Percent of NaN value: 0.00%
column:       Fare	 Percent of NaN value: 0.00%
column:      Cabin	 Percent of NaN value: 77.10%
column:   Embarked	 Percent of NaN value: 0.22%
### test data

for col in df_test.columns:
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_test[col].isnull().sum() / df_test[col].shape[0]))
    print(msg)
column: PassengerId	 Percent of NaN value: 0.00%
column:     Pclass	 Percent of NaN value: 0.00%
column:       Name	 Percent of NaN value: 0.00%
column:        Sex	 Percent of NaN value: 0.00%
column:        Age	 Percent of NaN value: 20.57%
column:      SibSp	 Percent of NaN value: 0.00%
column:      Parch	 Percent of NaN value: 0.00%
column:     Ticket	 Percent of NaN value: 0.00%
column:       Fare	 Percent of NaN value: 0.24%
column:      Cabin	 Percent of NaN value: 78.23%
column:   Embarked	 Percent of NaN value: 0.00%
  • Train, Test set 에서 Age(둘다 약 20%), Cabin(둘다 약 80%), Embarked(Train만 0.22%)에 null data가 존재하는 것을 볼 수 있음

  • MSNO라는 라이브러리를 사용하면 null data의 존재를 더 쉽게 볼 수 있음

train set

msno.matrix(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))
<AxesSubplot:>

msno.bar(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))
<AxesSubplot:>

test set

msno.bar(df=df_test.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))
<AxesSubplot:>

1-2. Target Label 확인

  • target label이 어떤 distribution을 가지고 있는지 확인해 봐야 함

  • 지금과 같은 binary classification 문제의 경우에서, 1과 0의 분포가 어떠냐에 따라 모델의 평가 방법이 달라질 수 있음

### target label의 분포 시각화

f, ax = plt.subplots(1, 2, figsize=(18, 8))

df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)
ax[0].set_title('Pie plot - Survived')
ax[0].set_ylabel('')
sns.countplot('Survived', data=df_train, ax=ax[1])
ax[1].set_title('Count plot - Survived')

plt.show()

  • 죽은 사람이 많음

    • 38.4% 가 살아남았음(Survived = 1)
  • target label의 분포가 제법 균일(balanced)함

    • 불균일한 경우, 예를 들어서 100중 1이 99, 0이 1개인 경우에는 만약 모델이 모든것을 1이라 해도 정확도가 99%가 나오게 됩니다.

      • 0을 찾는 문제라면 이 모델은 원하는 결과를 줄 수 없게 됨

2. EDA(Exploratory Data Analysis)

  • 많은 데이터 안에 숨겨진 사실을 찾기 위해선 적절한 *시각화가 필요

  • 시각화 라이브러리는 matplotlib, seaborn, plotly 등이 있음

    • 특정 목적에 맞는 소스 코드를 정리해 두어 필요할 때마다 참고하면 편함

2-1. Pclass

  • Pclass에 따른 생존률의 차이를 살펴볼 예정

  • Pclass는 ordinal, 서수형 데이터

    • 카테고리이면서, 순서가 있는 데이터 타입
  • 엑셀의 피벗 차트와 유사한 작업을 수행하기 위해 pd.DataFrame.groupby()pd.DataFrame.pivot()을 활용

  • ‘Pclass’, ‘Survived’를 가져온 후, pclass로 묶기

    • 그러고 나면 각 pclass 마다 0, 1이 count가 되는데, 이를 평균내면 각 pclass 별 생존률이 나옴
  • 아래와 같이 count() 를 하면 각 class 에 몇 명이 있는 지 확인할 수 있으며, sum()을 하면 216 명 중 생존한(survived = 1) 사람의 총합을 주게 됨

  • pd.crosstab을 사용하면 좀 더 위 과정을 좀 더 수월하게 볼 수 있음

### 각 클래스 내의 인원수 확인
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index = True).count() 
Survived
Pclass
1 216
2 184
3 491
### 각 클래스 내의 사람들 중 생존자 수 파악

df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).sum()
Survived
Pclass
1 136
2 87
3 119
  • as_index = True 옵션: 집계된 출력의 경우 그룹 레이블을 인덱스로 사용하여 개체를 반환
### pd.crosstab 사용

pd.crosstab(df_train['Pclass'], df_train['Survived'], margins = True).style.background_gradient(cmap = 'summer_r')
Survived 0 1 All
Pclass      
1 80 136 216
2 97 87 184
3 372 119 491
All 549 342 891
  • margins = True 옵션: 행/열 합계 추가

  • grouped 객체에 mean() 을 하게 되면, 각 클래스별 생존률을 얻을 수 있음

  • class = 1이면 아래와 같음

    \[\frac{80}{(80+136)}≈0.63\]
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by = 'Survived', ascending = False).plot.bar()
<AxesSubplot:xlabel='Pclass'>

  • 보다시피, Pclass 가 좋을수록(1st) 생존률이 높은 것을 확인할 수 있음

  • sns.countplot을 이용하면 특정 label에 따른 개수를 확인해볼 수 있dma

### sns.countplot 확인

y_position = 1.02
f, ax = plt.subplots(1, 2, figsize = (18, 8))

df_train['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'], ax = ax[0])
ax[0].set_title('Number of Passengers By Pclass', y=y_position)
ax[0].set_ylabel('Count')

sns.countplot('Pclass', hue = 'Survived', data = df_train, ax = ax[1])
ax[1].set_title('Pclass: Survived vs Dead', y = y_position)
plt.show()

  • 클래스가 높을수록 생존 확률이 높은걸 확인할 수 있음

  • Pclass 1, 2, 3 순서대로 63%, 48%, 25% 이다.

  • 이를 통해 생존에 Pclass가 큰 영향을 미친다고 생각해 볼 수 있으며, 나중에 모델을 세울 때 이 feature를 사용하는 것이 좋을 것이라 판단할 수 있음

2-2. Sex

  • 성별로 생존률이 어떻게 달라지는 지 확인

pandas groupby 와 seaborn countplot 을 사용해서 시각화

f, ax = plt.subplots(1, 2, figsize = (18, 8))
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index = True).mean().plot.bar(ax = ax[0])
ax[0].set_title('Survived vs Sex')

sns.countplot('Sex', hue = 'Survived', data = df_train, ax = ax[1])
ax[1].set_title('Sex: Survived vs Dead')
plt.show()

  • 여자가 생존할 확률이 높음
### 결과 집계(groupby)

df_train[['Sex', 'Survived']].groupby(['Sex'], as_index = False).mean().sort_values(by = 'Survived', ascending = False)
Sex Survived
0 female 0.742038
1 male 0.188908
### 피벗 테이블 만들기

pd.crosstab(df_train['Sex'], df_train['Survived'], margins  = True).style.background_gradient(cmap = 'summer_r')
Survived 0 1 All
Sex      
female 81 233 314
male 468 109 577
All 549 342 891
  • Pclass와 마찬가지로, Sex도 예측 모델에 쓰일 중요한 feature임을 알 수 있음

2-3. Both Sex and Pclass

  • Sex, Pclass 두 가지에 관하여 생존이 어떻게 달라지는 지 확인

  • sns.factorplot을 이용하여 손쉽게 3개의 차원으로 이루어진 그래프를 그릴 수 있음

sns.factorplot('Pclass', 'Survived', hue = 'Sex', data = df_train, size = 6, aspect = 1.5)
<seaborn.axisgrid.FacetGrid at 0x7f008c0b8070>

  • 모든 클래스에서 female이 살 확률이 male 보다 높은 걸 알 수 있음

  • 남자, 여자 상관없이 클래스가 좋을수록(숫자가 작을수록) 살 확률 높음

  • 위 그래프는 hue 대신 column으로 하면 아래와 같아짐

sns.factorplot(x = 'Sex', y = 'Survived', col = 'Pclass',
              data = df_train, satureation = .5,
               size = 9, aspect = 1)
<seaborn.axisgrid.FacetGrid at 0x7f008c290130>

sns.factorplot()의 parameters

  • hue: 색 부호화를 위해 column명을 가져옴

    • 어느 column의 값을 기준으로 색을 구분할 것인가
  • aspect: 가로, 세로 비율

2-4. Age

  • Age feature 살펴보기
print('제일 나이 많은 탑승객 : {:.1f} Years'.format(df_train['Age'].max()))
print('제일 어린 탑승객 : {:.1f} Years'.format(df_train['Age'].min()))
print('탑승객 평균 나이 : {:.1f} Years'.format(df_train['Age'].mean()))
제일 나이 많은 탑승객 : 80.0 Years
제일 어린 탑승객 : 0.4 Years
탑승객 평균 나이 : 29.7 Years
### 생존에 따른 age의 histogram

fig, ax = plt.subplots(1, 1, figsize = (9, 5))

sns.kdeplot(df_train[df_train['Survived'] == 1]['Age'], ax = ax)
sns.kdeplot(df_train[df_train['Survived'] == 0]['Age'], ax = ax)

plt.legend(['Survived == 1', 'Survived == 0'])
plt.show()

  • 생존자 중 나이가 어린 경우가 많음

sns.kdeplot()

  • 커널 밀도 추정을 사용하여 일변량(univariate) 또는 이변량(bivariate) 분포를 표시하는 함수
### Age distribution within classes

plt.figure(figsize = (8, 6))

df_train['Age'][df_train['Pclass'] == 1].plot(kind = 'kde')
df_train['Age'][df_train['Pclass'] == 2].plot(kind = 'kde')
df_train['Age'][df_train['Pclass'] == 3].plot(kind = 'kde')

plt.xlabel('Age')
plt.title('Age Distribution within classes')
plt.legend(['1st Class', '2nd Class', '3rd Class'])
<matplotlib.legend.Legend at 0x7f008c51ebe0>

  • Class가 좋을수록 나이 많은 사람의 비중이 커짐
### 나이대에 따른 생존률의 변화
# 나이 범위를 점점 넓혀가며 생존률 변화 확인

cummulate_survival_ratio = []
for i in range(1, 80):
  cummulate_survival_ratio.append(df_train[df_train['Age'] < i]['Survived'].sum() / len(df_train[df_train['Age'] < i]['Survived']))
    
plt.figure(figsize = (7, 7))
plt.plot(cummulate_survival_ratio)
plt.title('Survival rate change depending on range of Age', y = 1.02)
plt.ylabel('Survival rate')
plt.xlabel('Range of Age(0~x)')
plt.show()

  • 나이가 어릴수록 생존률이 확실히 높은 것을 확인할 수 있음

  • 나이가 중요한 feature 로 쓰일 수 있음을 확인할 수 있음

2-5. Pclass, Sex, Age

  • Sex, Pclass, Age, Survived 모두에 대해 시각화

  • sns.violinplot을 통해 여러 변수들에 대한 시각화 수행

    • x축: 우리가 나눠서 보고 싶어하는 case(여기선 Pclass, Sex)

    • y축: 보고 싶어하는 distribution(여기서는 Age)

f,ax = plt.subplots(1,2,figsize = (18,8))

sns.violinplot("Pclass","Age", hue = "Survived", data = df_train, scale = 'count', split = True,ax = ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))

sns.violinplot("Sex","Age", hue="Survived", data=df_train, scale='count', split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))

plt.show()

  • 왼쪽 그림은 Pclass 별로 Age의 distribution 이 어떻게 다른지, 거기에 생존 여부에 따라 구분한 그래프임

  • 오른쪽 그림도 마찬가지로 Sex, 생존에 따른 distribution이 어떻게 다른지 보여주는 그래프임

  • 생존만 봤을 때, 모든 클래스에서 나이가 어릴 수록 생존을 많이 한것을 볼 수 있음

  • 오른쪽 그림에서 보면, 명확히 여자가 생존을 많이 한것을 볼 수 있음

    • 여성과 아이를 먼저 챙긴 것을 볼 수 있음

2-6. Embarked

  • 탑승한 항구

  • 탑승한 곳에 따르 생존률 파악

f, ax = plt.subplots(1, 1, figsize = (7, 7))
df_train[['Embarked', 'Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)
<AxesSubplot:xlabel='Embarked'>

  • 조금의 차이는 있지만 생존률은 대체로 비슷함

    • 그래도 C가 제일 높음
  • 모델에 큰 영향을 미치지 않을 것으로 예상됨

    • but 일단 사용

    • 모델을 만들고 나면 우리가 사용한 feature들이 얼마나 중요한 역할을 했는지 확인해볼 수 있음

### 다른 feature들로 split

f,ax = plt.subplots(2, 2, figsize = (20,15))

sns.countplot('Embarked', data = df_train, ax = ax[0,0])
ax[0,0].set_title('(1) No. Of Passengers Boarded')

sns.countplot('Embarked', hue='Sex', data=df_train, ax=ax[0,1])
ax[0,1].set_title('(2) Male-Female Split for Embarked')

sns.countplot('Embarked', hue='Survived', data=df_train, ax=ax[1,0])
ax[1,0].set_title('(3) Embarked vs Survived')

sns.countplot('Embarked', hue='Pclass', data=df_train, ax=ax[1,1])
ax[1,1].set_title('(4) Embarked vs Pclass')

plt.subplots_adjust(wspace=0.2, hspace=0.5) 
plt.show()

  • Figure(1): 전체적으로 봤을 때, S에서 가장 많은 사람이 탑승

  • Figure(2): C와 Q 는 남녀의 비율이 비슷하고, S는 남자가 더 많음

  • Figure(3): 생존 확률이 S인 경우 많이 낮은 걸 볼 수 있음

  • Figure(4):

    • Class로 split 해서 보니, C가 생존 확률이 높은건 클래스가 높은 사람이 많이 타서 그러함

    • S는 3rd class 가 많아서 생존 확률이 낮게 나옴

2-7. Family - SibSp(형제 자매) + Parch(부모, 자녀)

  • SibSp와 Parch를 합하면 Family가 될 것임
# 자신을 포함해야하니 1을 더함
df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch'] + 1 
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1 
print("Maximum size of Family: ", df_train['FamilySize'].max())
print("Minimum size of Family: ", df_train['FamilySize'].min())
Maximum size of Family:  11
Minimum size of Family:  1
### FamilySize와 생존의 관계

f,ax = plt.subplots(1, 3, figsize = (40,10))

sns.countplot('FamilySize', data = df_train, ax = ax[0])
ax[0].set_title('(1) No. Of Passengers Boarded', y = 1.02)

sns.countplot('FamilySize', hue = 'Survived', data = df_train, ax = ax[1])
ax[1].set_title('(2) Survived countplot depending on FamilySize',  y = 1.02)

df_train[['FamilySize', 'Survived']].groupby(['FamilySize'], as_index = True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax[2])
ax[2].set_title('(3) Survived rate depending on FamilySize',  y=1.02)

plt.subplots_adjust(wspace = 0.2, hspace = 0.5)
plt.show()

  • Figure (1):

    • 가족 크기가 1 ~ 11까지 있음을 볼 수 있음

    • 대부분 1명이고 그 다음으로 2, 3, 4명입니다.

  • Figure (2), (3):

    • 가족 크기에 따른 생존비교

    • 가족이 4명인 경우가 가장 생존 확률이 높음

    • 가족 수가 많아질수록(5, 6, 7, 8, 11) 생존 확률이 낮아짐

    • 가족수가 너무 작아도(1), 너무 커도(5, 6, 8, 11) 생존 확률이 작음

    • 3 ~ 4명 선에서 생존확률이 높은 걸 확인할 수 있음

2-8. Fare

  • Fare는 탑승 요금

  • contious feature임

### histogram

fig, ax = plt.subplots(1, 1, figsize = (8, 8))
g = sns.distplot(df_train['Fare'], color = 'b', label = 'Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc = 'best')

  • distribution이 매우 비대칭인 것을 알 수 있음 -> high skewness

    • 만약 이대로 모델에 넣어준다면 자칫 모델이 잘못 학습할 수도 있음

    • 몇 개 없는 outlier에 대해서 너무 민감하게 반응한다면, 실제 예측 시에 좋지 못한 결과를 부를 수 있음

  • outlier의 영향을 줄이기 위해 Fare에 log를 취함

  • DataFrame의 특정 columns에 공통된 작업(함수)를 적용하고 싶으면 아래의 map 또는 apply를 사용하여 매우 손쉽게 적용할 수 있음

  • 우리가 지금 원하는 것은 Fare columns의 데이터 모두를 log 변환하는 것

    • 파이썬의 간단한 lambda 함수를 이용해 간단한 로그를 적용하는 함수를 map에 인수로 넣어주면, Fare columns 데이터에 그대로 적용됨
# test set 에 있는 nan value를 평균값으로 치환
df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean() 

### 로그 변환
df_train['Fare'] = df_train['Fare'].map(lambda x: np.log(x) if x > 0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda x: np.log(x) if x > 0 else 0)
### 시각화

fig, ax = plt.subplots(1, 1, figsize = (8, 8))
g = sns.distplot(df_train['Fare'], color='b', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc ='best')

  • log를 취하니, 비대칭성이 많이 사라진 것을 볼 수 있음

    • 이런 작업을 사용해 모델이 좀 더 좋은 성능을 내도록 할 수 있음

feature engineering

  • 모델을 학습시키기 위해, 그리고 그 모델의 성능을 높이기 위해 feature들에 여러 조작을 가하거나, 새로운 feature를 추가하는 것

2-9. Cabin

  • NaN이 대략 80%

    • 생존에 영향을 미칠 중요한 정보를 얻어내기가 쉽지는 않음

    • 모델에 적용 x

df_train.head()
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked FamilySize
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 1.981001 NaN S 2
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 4.266662 C85 C 2
2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 2.070022 NaN S 1
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 3.972177 C123 S 2
4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 2.085672 NaN S 1

2-10. Ticket

  • NaN은 없음

  • string data이기에 모델에 적용 전 전처리 필요

df_train['Ticket'].value_counts()
347082      7
CA. 2343    7
1601        7
3101295     6
CA 2144     6
           ..
9234        1
19988       1
2693        1
PC 17612    1
370376      1
Name: Ticket, Length: 681, dtype: int64
  • ticket number는 매우 다양함

    • 특징을 이끌어내어 생존률과 연관지을 수 있음

개인적인 생각

  • 티켓 번호가 너무 다양하다.

    • 탑승객이 481명인데 제일 많은 티켓 번호의 개수가 7이다.

    • 그냥 단체손님인 것 같다.

📚References