[ECC DS 1주차] 타이타닉 튜토리얼 1 - Exploratory data analysis, visualization, machine learning
- (이유한님) 캐글 코리아 캐글 스터디 커널 커리큘럼
- 1st level. Titanic: Machine Learning from Disaster
0. Import libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# matplotlib의 기본 scheme 말고 seaborn scheme을 세팅
# 일일이 graph의 font size 를 지정할 필요 없이 seaborn 의 font_scale 을 사용하면 편리
plt.style.use('seaborn')
sns.set(font_scale = 2.5)
import missingno as msno
#ignore warnings
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
📌 진행 프로세스
1. 데이터셋 확인
- null data를 확인하고, 향후 수정
2. 탐색적 데이터 분석(exploratory data analysis)
-
여러 feature 들을 개별적으로 분석하고, feature들 간의 상관관계를 확인
-
여러 시각화 툴을 사용하여 insight 얻기
3. feature engineering
-
모델을 세우기에 앞서, 모델의 성능을 높일 수 있도록 feature 들을 engineering
-
one-hot encoding, class로 나누기, 구간으로 나누기, 텍스트 데이터 처리 등
4. model 만들기
-
sklearn을 사용해 모델 생성
- 파이썬에서 머신러닝을 할 때는 sklearn을 사용하면 수많은 알고리즘을 일관된 문법으로 사용할 수 있음
-
딥러닝을 위해 tensorflow, pytorch 등을 사용
5. 모델 학습 및 예측
- train set을 가지고 모델을 학습시킨 후, test set을 가지고 prediction 수행
6. 모델 평가
-
예측 성능이 원하는 수준인지 판단
-
풀려는 문제에 따라 모델을 평가하는 방식도 달라짐
-
학습된 모델이 어떤 것을 학습 하였는지 확인
1. 데이터셋 확인
-
파이썬에서 테이블화 된 데이터를 다루는 데 가장 최적화되어 있으며, 많이 쓰이는 라이브러리는
pandas
-
pandas
를 사용하여 데이터셋의 간단한 통계적 분석부터, 복잡한 처리들을 간단한 메소드를 사용하여 해낼 수 있음 -
파이썬으로 데이터 분석을 한다고 하면 반드시 능숙해져야 할 라이브러리
-
캐글에서 데이터셋은 보통 train, test set으로 나뉘어 있음
### 코랩에서 파일을 불러오기 위한 코드
from google.colab import drive
drive.mount('/content/drive')
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
df_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ECC 48기 데과B/1주차/data/train.csv')
df_test = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ECC 48기 데과B/1주차/data/test.csv')
### 파일의 일부만 확인
df_train.head()
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S |
1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th... | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | NaN | S |
3 | 4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 53.1000 | C123 | S |
4 | 5 | 0 | 3 | Allen, Mr. William Henry | male | 35.0 | 0 | 0 | 373450 | 8.0500 | NaN | S |
- 우리가 다루는 문제에서 feature는 Pclass, Age, SibSp, Parch, Fare 이며, 예측하려는 target label 은 Survived 이다.
pd.DataFrame.describe()
: 각 feature가 가진 통계치들을 반환
df_train.describe()
PassengerId | Survived | Pclass | Age | SibSp | Parch | Fare | |
---|---|---|---|---|---|---|---|
count | 891.000000 | 891.000000 | 891.000000 | 714.000000 | 891.000000 | 891.000000 | 891.000000 |
mean | 446.000000 | 0.383838 | 2.308642 | 29.699118 | 0.523008 | 0.381594 | 32.204208 |
std | 257.353842 | 0.486592 | 0.836071 | 14.526497 | 1.102743 | 0.806057 | 49.693429 |
min | 1.000000 | 0.000000 | 1.000000 | 0.420000 | 0.000000 | 0.000000 | 0.000000 |
25% | 223.500000 | 0.000000 | 2.000000 | 20.125000 | 0.000000 | 0.000000 | 7.910400 |
50% | 446.000000 | 0.000000 | 3.000000 | 28.000000 | 0.000000 | 0.000000 | 14.454200 |
75% | 668.500000 | 1.000000 | 3.000000 | 38.000000 | 1.000000 | 0.000000 | 31.000000 |
max | 891.000000 | 1.000000 | 3.000000 | 80.000000 | 8.000000 | 6.000000 | 512.329200 |
df_test.describe()
PassengerId | Pclass | Age | SibSp | Parch | Fare | |
---|---|---|---|---|---|---|
count | 418.000000 | 418.000000 | 332.000000 | 418.000000 | 418.000000 | 417.000000 |
mean | 1100.500000 | 2.265550 | 30.272590 | 0.447368 | 0.392344 | 35.627188 |
std | 120.810458 | 0.841838 | 14.181209 | 0.896760 | 0.981429 | 55.907576 |
min | 892.000000 | 1.000000 | 0.170000 | 0.000000 | 0.000000 | 0.000000 |
25% | 996.250000 | 1.000000 | 21.000000 | 0.000000 | 0.000000 | 7.895800 |
50% | 1100.500000 | 3.000000 | 27.000000 | 0.000000 | 0.000000 | 14.454200 |
75% | 1204.750000 | 3.000000 | 39.000000 | 1.000000 | 0.000000 | 31.500000 |
max | 1309.000000 | 3.000000 | 76.000000 | 8.000000 | 9.000000 | 512.329200 |
-
PassenserID 숫자와 다른, 그러니까 null data가 존재하는 열(feature)가 있는 것을 확인할 수 있음
-
이를 좀 더 보기 편하도록 그래프로 시각화해서 살펴보자.
1-1. Null data check
-
각 컬럼별로 전체 데이터 중 결측치(NaN)의 비율 구하기
-
pd.isnull()
: 배열 형태 객체에 결측치가 있는지 확인해주는 함수
### train data
for col in df_train.columns:
msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
print(msg)
column: PassengerId Percent of NaN value: 0.00% column: Survived Percent of NaN value: 0.00% column: Pclass Percent of NaN value: 0.00% column: Name Percent of NaN value: 0.00% column: Sex Percent of NaN value: 0.00% column: Age Percent of NaN value: 19.87% column: SibSp Percent of NaN value: 0.00% column: Parch Percent of NaN value: 0.00% column: Ticket Percent of NaN value: 0.00% column: Fare Percent of NaN value: 0.00% column: Cabin Percent of NaN value: 77.10% column: Embarked Percent of NaN value: 0.22%
### test data
for col in df_test.columns:
msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_test[col].isnull().sum() / df_test[col].shape[0]))
print(msg)
column: PassengerId Percent of NaN value: 0.00% column: Pclass Percent of NaN value: 0.00% column: Name Percent of NaN value: 0.00% column: Sex Percent of NaN value: 0.00% column: Age Percent of NaN value: 20.57% column: SibSp Percent of NaN value: 0.00% column: Parch Percent of NaN value: 0.00% column: Ticket Percent of NaN value: 0.00% column: Fare Percent of NaN value: 0.24% column: Cabin Percent of NaN value: 78.23% column: Embarked Percent of NaN value: 0.00%
-
Train, Test set 에서 Age(둘다 약 20%), Cabin(둘다 약 80%), Embarked(Train만 0.22%)에 null data가 존재하는 것을 볼 수 있음
-
MSNO
라는 라이브러리를 사용하면 null data의 존재를 더 쉽게 볼 수 있음
train set
msno.matrix(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))
<AxesSubplot:>
msno.bar(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))
<AxesSubplot:>
test set
msno.bar(df=df_test.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))
<AxesSubplot:>
1-2. Target Label 확인
-
target label이 어떤 distribution을 가지고 있는지 확인해 봐야 함
-
지금과 같은 binary classification 문제의 경우에서, 1과 0의 분포가 어떠냐에 따라 모델의 평가 방법이 달라질 수 있음
### target label의 분포 시각화
f, ax = plt.subplots(1, 2, figsize=(18, 8))
df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)
ax[0].set_title('Pie plot - Survived')
ax[0].set_ylabel('')
sns.countplot('Survived', data=df_train, ax=ax[1])
ax[1].set_title('Count plot - Survived')
plt.show()
-
죽은 사람이 많음
- 38.4% 가 살아남았음(Survived = 1)
-
target label의 분포가 제법 균일(balanced)함
-
불균일한 경우, 예를 들어서 100중 1이 99, 0이 1개인 경우에는 만약 모델이 모든것을 1이라 해도 정확도가 99%가 나오게 됩니다.
- 0을 찾는 문제라면 이 모델은 원하는 결과를 줄 수 없게 됨
-
2. EDA(Exploratory Data Analysis)
-
많은 데이터 안에 숨겨진 사실을 찾기 위해선 적절한 *시각화가 필요
-
시각화 라이브러리는
matplotlib
,seaborn
,plotly
등이 있음- 특정 목적에 맞는 소스 코드를 정리해 두어 필요할 때마다 참고하면 편함
2-1. Pclass
-
Pclass에 따른 생존률의 차이를 살펴볼 예정
-
Pclass는 ordinal, 서수형 데이터
- 카테고리이면서, 순서가 있는 데이터 타입
-
엑셀의 피벗 차트와 유사한 작업을 수행하기 위해
pd.DataFrame.groupby()
와pd.DataFrame.pivot()
을 활용 -
‘Pclass’, ‘Survived’를 가져온 후, pclass로 묶기
- 그러고 나면 각 pclass 마다 0, 1이 count가 되는데, 이를 평균내면 각 pclass 별 생존률이 나옴
-
아래와 같이
count()
를 하면 각 class 에 몇 명이 있는 지 확인할 수 있으며,sum()
을 하면 216 명 중 생존한(survived = 1) 사람의 총합을 주게 됨 -
pd.crosstab
을 사용하면 좀 더 위 과정을 좀 더 수월하게 볼 수 있음
### 각 클래스 내의 인원수 확인
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index = True).count()
Survived | |
---|---|
Pclass | |
1 | 216 |
2 | 184 |
3 | 491 |
### 각 클래스 내의 사람들 중 생존자 수 파악
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).sum()
Survived | |
---|---|
Pclass | |
1 | 136 |
2 | 87 |
3 | 119 |
as_index = True
옵션: 집계된 출력의 경우 그룹 레이블을 인덱스로 사용하여 개체를 반환
### pd.crosstab 사용
pd.crosstab(df_train['Pclass'], df_train['Survived'], margins = True).style.background_gradient(cmap = 'summer_r')
Survived | 0 | 1 | All |
---|---|---|---|
Pclass | |||
1 | 80 | 136 | 216 |
2 | 97 | 87 | 184 |
3 | 372 | 119 | 491 |
All | 549 | 342 | 891 |
-
margins = True
옵션: 행/열 합계 추가 -
grouped 객체에 mean() 을 하게 되면, 각 클래스별 생존률을 얻을 수 있음
-
class = 1이면 아래와 같음
\[\frac{80}{(80+136)}≈0.63\]
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by = 'Survived', ascending = False).plot.bar()
<AxesSubplot:xlabel='Pclass'>
-
보다시피, Pclass 가 좋을수록(1st) 생존률이 높은 것을 확인할 수 있음
-
sns.countplot
을 이용하면 특정 label에 따른 개수를 확인해볼 수 있dma
### sns.countplot 확인
y_position = 1.02
f, ax = plt.subplots(1, 2, figsize = (18, 8))
df_train['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'], ax = ax[0])
ax[0].set_title('Number of Passengers By Pclass', y=y_position)
ax[0].set_ylabel('Count')
sns.countplot('Pclass', hue = 'Survived', data = df_train, ax = ax[1])
ax[1].set_title('Pclass: Survived vs Dead', y = y_position)
plt.show()
-
클래스가 높을수록 생존 확률이 높은걸 확인할 수 있음
-
Pclass 1, 2, 3 순서대로 63%, 48%, 25% 이다.
-
이를 통해 생존에 Pclass가 큰 영향을 미친다고 생각해 볼 수 있으며, 나중에 모델을 세울 때 이 feature를 사용하는 것이 좋을 것이라 판단할 수 있음
2-2. Sex
- 성별로 생존률이 어떻게 달라지는 지 확인
pandas groupby 와 seaborn countplot 을 사용해서 시각화
f, ax = plt.subplots(1, 2, figsize = (18, 8))
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index = True).mean().plot.bar(ax = ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex', hue = 'Survived', data = df_train, ax = ax[1])
ax[1].set_title('Sex: Survived vs Dead')
plt.show()
- 여자가 생존할 확률이 높음
### 결과 집계(groupby)
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index = False).mean().sort_values(by = 'Survived', ascending = False)
Sex | Survived | |
---|---|---|
0 | female | 0.742038 |
1 | male | 0.188908 |
### 피벗 테이블 만들기
pd.crosstab(df_train['Sex'], df_train['Survived'], margins = True).style.background_gradient(cmap = 'summer_r')
Survived | 0 | 1 | All |
---|---|---|---|
Sex | |||
female | 81 | 233 | 314 |
male | 468 | 109 | 577 |
All | 549 | 342 | 891 |
- Pclass와 마찬가지로, Sex도 예측 모델에 쓰일 중요한 feature임을 알 수 있음
2-3. Both Sex and Pclass
-
Sex, Pclass 두 가지에 관하여 생존이 어떻게 달라지는 지 확인
-
sns.factorplot
을 이용하여 손쉽게 3개의 차원으로 이루어진 그래프를 그릴 수 있음
sns.factorplot('Pclass', 'Survived', hue = 'Sex', data = df_train, size = 6, aspect = 1.5)
<seaborn.axisgrid.FacetGrid at 0x7f008c0b8070>
-
모든 클래스에서 female이 살 확률이 male 보다 높은 걸 알 수 있음
-
남자, 여자 상관없이 클래스가 좋을수록(숫자가 작을수록) 살 확률 높음
-
위 그래프는 hue 대신 column으로 하면 아래와 같아짐
sns.factorplot(x = 'Sex', y = 'Survived', col = 'Pclass',
data = df_train, satureation = .5,
size = 9, aspect = 1)
<seaborn.axisgrid.FacetGrid at 0x7f008c290130>
sns.factorplot()
의 parameters
-
hue: 색 부호화를 위해 column명을 가져옴
- 어느 column의 값을 기준으로 색을 구분할 것인가
-
aspect: 가로, 세로 비율
2-4. Age
- Age feature 살펴보기
print('제일 나이 많은 탑승객 : {:.1f} Years'.format(df_train['Age'].max()))
print('제일 어린 탑승객 : {:.1f} Years'.format(df_train['Age'].min()))
print('탑승객 평균 나이 : {:.1f} Years'.format(df_train['Age'].mean()))
제일 나이 많은 탑승객 : 80.0 Years 제일 어린 탑승객 : 0.4 Years 탑승객 평균 나이 : 29.7 Years
### 생존에 따른 age의 histogram
fig, ax = plt.subplots(1, 1, figsize = (9, 5))
sns.kdeplot(df_train[df_train['Survived'] == 1]['Age'], ax = ax)
sns.kdeplot(df_train[df_train['Survived'] == 0]['Age'], ax = ax)
plt.legend(['Survived == 1', 'Survived == 0'])
plt.show()
- 생존자 중 나이가 어린 경우가 많음
sns.kdeplot()
- 커널 밀도 추정을 사용하여 일변량(univariate) 또는 이변량(bivariate) 분포를 표시하는 함수
### Age distribution within classes
plt.figure(figsize = (8, 6))
df_train['Age'][df_train['Pclass'] == 1].plot(kind = 'kde')
df_train['Age'][df_train['Pclass'] == 2].plot(kind = 'kde')
df_train['Age'][df_train['Pclass'] == 3].plot(kind = 'kde')
plt.xlabel('Age')
plt.title('Age Distribution within classes')
plt.legend(['1st Class', '2nd Class', '3rd Class'])
<matplotlib.legend.Legend at 0x7f008c51ebe0>
- Class가 좋을수록 나이 많은 사람의 비중이 커짐
### 나이대에 따른 생존률의 변화
# 나이 범위를 점점 넓혀가며 생존률 변화 확인
cummulate_survival_ratio = []
for i in range(1, 80):
cummulate_survival_ratio.append(df_train[df_train['Age'] < i]['Survived'].sum() / len(df_train[df_train['Age'] < i]['Survived']))
plt.figure(figsize = (7, 7))
plt.plot(cummulate_survival_ratio)
plt.title('Survival rate change depending on range of Age', y = 1.02)
plt.ylabel('Survival rate')
plt.xlabel('Range of Age(0~x)')
plt.show()
-
나이가 어릴수록 생존률이 확실히 높은 것을 확인할 수 있음
-
나이가 중요한 feature 로 쓰일 수 있음을 확인할 수 있음
2-5. Pclass, Sex, Age
-
Sex, Pclass, Age, Survived 모두에 대해 시각화
-
sns.violinplot
을 통해 여러 변수들에 대한 시각화 수행-
x축: 우리가 나눠서 보고 싶어하는 case(여기선 Pclass, Sex)
-
y축: 보고 싶어하는 distribution(여기서는 Age)
-
f,ax = plt.subplots(1,2,figsize = (18,8))
sns.violinplot("Pclass","Age", hue = "Survived", data = df_train, scale = 'count', split = True,ax = ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Sex","Age", hue="Survived", data=df_train, scale='count', split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()
-
왼쪽 그림은 Pclass 별로 Age의 distribution 이 어떻게 다른지, 거기에 생존 여부에 따라 구분한 그래프임
-
오른쪽 그림도 마찬가지로 Sex, 생존에 따른 distribution이 어떻게 다른지 보여주는 그래프임
-
생존만 봤을 때, 모든 클래스에서 나이가 어릴 수록 생존을 많이 한것을 볼 수 있음
-
오른쪽 그림에서 보면, 명확히 여자가 생존을 많이 한것을 볼 수 있음
- 여성과 아이를 먼저 챙긴 것을 볼 수 있음
2-6. Embarked
-
탑승한 항구
-
탑승한 곳에 따르 생존률 파악
f, ax = plt.subplots(1, 1, figsize = (7, 7))
df_train[['Embarked', 'Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)
<AxesSubplot:xlabel='Embarked'>
-
조금의 차이는 있지만 생존률은 대체로 비슷함
- 그래도 C가 제일 높음
-
모델에 큰 영향을 미치지 않을 것으로 예상됨
-
but 일단 사용
-
모델을 만들고 나면 우리가 사용한 feature들이 얼마나 중요한 역할을 했는지 확인해볼 수 있음
-
### 다른 feature들로 split
f,ax = plt.subplots(2, 2, figsize = (20,15))
sns.countplot('Embarked', data = df_train, ax = ax[0,0])
ax[0,0].set_title('(1) No. Of Passengers Boarded')
sns.countplot('Embarked', hue='Sex', data=df_train, ax=ax[0,1])
ax[0,1].set_title('(2) Male-Female Split for Embarked')
sns.countplot('Embarked', hue='Survived', data=df_train, ax=ax[1,0])
ax[1,0].set_title('(3) Embarked vs Survived')
sns.countplot('Embarked', hue='Pclass', data=df_train, ax=ax[1,1])
ax[1,1].set_title('(4) Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()
-
Figure(1): 전체적으로 봤을 때, S에서 가장 많은 사람이 탑승
-
Figure(2): C와 Q 는 남녀의 비율이 비슷하고, S는 남자가 더 많음
-
Figure(3): 생존 확률이 S인 경우 많이 낮은 걸 볼 수 있음
-
Figure(4):
-
Class로 split 해서 보니, C가 생존 확률이 높은건 클래스가 높은 사람이 많이 타서 그러함
-
S는 3rd class 가 많아서 생존 확률이 낮게 나옴
-
2-7. Family - SibSp(형제 자매) + Parch(부모, 자녀)
- SibSp와 Parch를 합하면 Family가 될 것임
# 자신을 포함해야하니 1을 더함
df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch'] + 1
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1
print("Maximum size of Family: ", df_train['FamilySize'].max())
print("Minimum size of Family: ", df_train['FamilySize'].min())
Maximum size of Family: 11 Minimum size of Family: 1
### FamilySize와 생존의 관계
f,ax = plt.subplots(1, 3, figsize = (40,10))
sns.countplot('FamilySize', data = df_train, ax = ax[0])
ax[0].set_title('(1) No. Of Passengers Boarded', y = 1.02)
sns.countplot('FamilySize', hue = 'Survived', data = df_train, ax = ax[1])
ax[1].set_title('(2) Survived countplot depending on FamilySize', y = 1.02)
df_train[['FamilySize', 'Survived']].groupby(['FamilySize'], as_index = True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax[2])
ax[2].set_title('(3) Survived rate depending on FamilySize', y=1.02)
plt.subplots_adjust(wspace = 0.2, hspace = 0.5)
plt.show()
-
Figure (1):
-
가족 크기가 1 ~ 11까지 있음을 볼 수 있음
-
대부분 1명이고 그 다음으로 2, 3, 4명입니다.
-
-
Figure (2), (3):
-
가족 크기에 따른 생존비교
-
가족이 4명인 경우가 가장 생존 확률이 높음
-
가족 수가 많아질수록(5, 6, 7, 8, 11) 생존 확률이 낮아짐
-
가족수가 너무 작아도(1), 너무 커도(5, 6, 8, 11) 생존 확률이 작음
-
3 ~ 4명 선에서 생존확률이 높은 걸 확인할 수 있음
-
2-8. Fare
-
Fare는 탑승 요금
-
contious feature임
### histogram
fig, ax = plt.subplots(1, 1, figsize = (8, 8))
g = sns.distplot(df_train['Fare'], color = 'b', label = 'Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc = 'best')
-
distribution이 매우 비대칭인 것을 알 수 있음 -> high skewness
-
만약 이대로 모델에 넣어준다면 자칫 모델이 잘못 학습할 수도 있음
-
몇 개 없는 outlier에 대해서 너무 민감하게 반응한다면, 실제 예측 시에 좋지 못한 결과를 부를 수 있음
-
-
outlier의 영향을 줄이기 위해 Fare에 log를 취함
-
DataFrame의 특정 columns에 공통된 작업(함수)를 적용하고 싶으면 아래의
map
또는apply
를 사용하여 매우 손쉽게 적용할 수 있음 -
우리가 지금 원하는 것은 Fare columns의 데이터 모두를 log 변환하는 것
- 파이썬의 간단한
lambda 함수
를 이용해 간단한 로그를 적용하는 함수를 map에 인수로 넣어주면, Fare columns 데이터에 그대로 적용됨
- 파이썬의 간단한
# test set 에 있는 nan value를 평균값으로 치환
df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean()
### 로그 변환
df_train['Fare'] = df_train['Fare'].map(lambda x: np.log(x) if x > 0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda x: np.log(x) if x > 0 else 0)
### 시각화
fig, ax = plt.subplots(1, 1, figsize = (8, 8))
g = sns.distplot(df_train['Fare'], color='b', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc ='best')
-
log를 취하니, 비대칭성이 많이 사라진 것을 볼 수 있음
- 이런 작업을 사용해 모델이 좀 더 좋은 성능을 내도록 할 수 있음
feature engineering
- 모델을 학습시키기 위해, 그리고 그 모델의 성능을 높이기 위해 feature들에 여러 조작을 가하거나, 새로운 feature를 추가하는 것
2-9. Cabin
-
NaN이 대략 80%
-
생존에 영향을 미칠 중요한 정보를 얻어내기가 쉽지는 않음
-
모델에 적용 x
-
df_train.head()
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | FamilySize | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 1.981001 | NaN | S | 2 |
1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th... | female | 38.0 | 1 | 0 | PC 17599 | 4.266662 | C85 | C | 2 |
2 | 3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 2.070022 | NaN | S | 1 |
3 | 4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 3.972177 | C123 | S | 2 |
4 | 5 | 0 | 3 | Allen, Mr. William Henry | male | 35.0 | 0 | 0 | 373450 | 2.085672 | NaN | S | 1 |
2-10. Ticket
-
NaN은 없음
-
string data이기에 모델에 적용 전 전처리 필요
df_train['Ticket'].value_counts()
347082 7 CA. 2343 7 1601 7 3101295 6 CA 2144 6 .. 9234 1 19988 1 2693 1 PC 17612 1 370376 1 Name: Ticket, Length: 681, dtype: int64
-
ticket number는 매우 다양함
- 특징을 이끌어내어 생존률과 연관지을 수 있음
개인적인 생각
-
티켓 번호가 너무 다양하다.
-
탑승객이 481명인데 제일 많은 티켓 번호의 개수가 7이다.
-
그냥 단체손님인 것 같다.
-