[ECC DS 2์ฃผ์ฐจ] 2. Interactive Porto Insights - A plot.ly Tutorial
0. Introduction
-
์ด์ ์๊ฐ ๋ด๋ ์ ๋ณดํ ์ฒญ๊ตฌ๋ฅผ ์์ํ ํ๋ฅ ์ ์์ธกํ๋ ํ๋ก์ ํธ
-
Python ๋์ ์๊ฐํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ธ
plot.ly
๋ฅผ ํ์ฉ -
ํด๋น ๋ ธํธ๋ถ์์ ํ์ฉํ
plot.ly
์ ์ฌ๋ฌ ๊ธฐ๋ฅ๋ค-
๋จ์ ๊ฐ๋ก barplot: target ๋ณ์ ๋ถํฌ๋ฅผ ๊ฒ์ฌํ๋ ๋ฐ ์ฌ์ฉ
-
์๊ด๊ณ์ heatmap: ์ฌ๋ฌ feature๋ค ๊ฐ์ ์๊ด ๊ด๊ณ ํ์ธ
-์ฐ์ ๋ plot: RandomForest ๋ฐ GradientBoosting ๋ชจ๋ธ์์ ์์ฑ๋ feature ์ค์๋ ๋น๊ต
-
์์ง barplot: ์ฌ๋ฌ feature๋ค์ ๋์์ผ๋ก ์ค์๋๊ฐ ๋์ ์์๋๋ก ๋ด๋ฆผ์ฐจ์ ์ ๋ ฌ
-
3D ์ฐ์ ๋ plot
-
๐ ํด๋น ๋ ธํธ๋ถ์ ๋ชฉํ
-
๋ฐ์ดํฐ ํ์ง ์ ๊ฒ: ๋ชจ๋ ๊ฒฐ์ธก๊ฐ/Null๊ฐ(-1์ธ ๊ฐ) ์๊ฐํ ๋ฐ ํ๊ฐ
-
feature ๊ฒ์ฌ ๋ฐ ํํฐ๋ง
-
๋์ ๋ณ์์ ๋ํ ์๊ด๊ด๊ณ ๋ฐ ํ์ ์ํธ ์ ๋ณด ๊ทธ๋ฆผ
-
์ดํญ, ๋ฒ์ฃผํ ๋ฐ ๊ธฐํ ๋ณ์์ ๊ฒ์ฌ
-
ํ์ต ๋ชจ๋ธ์ ํตํ feature ์ค์๋ ์์ ๋งค๊ธฐ๊ธฐ
-
ํ์ต ๊ณผ์ ์ ๊ธฐ๋ฐํ์ฌ feature๋ค์ ์์ํ ํ ์ ์๋๋ก ๋์์ฃผ๋ n building Random Forest์ Gradient Boosted model
1. Import Libraries & Data Loading
plotly ๊ฒฐ๊ณผ ์ถ๋ ฅ ๊ด๋ จ
### ๊ด๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ import
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import plotly.offline as py
py.init_notebook_mode(connected = True)
import plotly.graph_objs as go
import plotly.tools as tls
import plotly.io as pio
pio.renderers.default = "svg"
import chart_studio
chart_studio.tools.set_credentials_file(username = 'username', api_key = 'api_key')
import warnings
from collections import Counter
from sklearn.feature_selection import mutual_info_classif
warnings.filterwarnings('ignore')
### Colab Notebook์์ render ํ ์ ์๋๋ก ํด์ฃผ๋ ํจ์
def configure_plotly_browser_state():
import IPython
display(IPython.core.display.HTML('''
<script src="/static/components/requirejs/require.js"></script>
<script>
requirejs.config({
paths: {
base: '/static/base',
plotly: 'https://cdn.plot.ly/plotly-latest.min.js?noext',
},
});
</script>
'''))
### ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
train = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/ECC 48แแ
ต แแ
ฆแแ
ชB/2แแ
ฎแแ
ก/data/train.csv")
train.head()
id | target | ps_ind_01 | ps_ind_02_cat | ps_ind_03 | ps_ind_04_cat | ps_ind_05_cat | ps_ind_06_bin | ps_ind_07_bin | ps_ind_08_bin | ... | ps_calc_11 | ps_calc_12 | ps_calc_13 | ps_calc_14 | ps_calc_15_bin | ps_calc_16_bin | ps_calc_17_bin | ps_calc_18_bin | ps_calc_19_bin | ps_calc_20_bin | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 7 | 0 | 2 | 2 | 5 | 1 | 0 | 0 | 1 | 0 | ... | 9 | 1 | 5 | 8 | 0 | 1 | 1 | 0 | 0 | 1 |
1 | 9 | 0 | 1 | 1 | 7 | 0 | 0 | 0 | 0 | 1 | ... | 3 | 1 | 1 | 9 | 0 | 1 | 1 | 0 | 1 | 0 |
2 | 13 | 0 | 5 | 4 | 9 | 1 | 0 | 0 | 0 | 1 | ... | 4 | 2 | 7 | 7 | 0 | 1 | 1 | 0 | 1 | 0 |
3 | 16 | 0 | 0 | 1 | 2 | 0 | 0 | 1 | 0 | 0 | ... | 2 | 2 | 4 | 9 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 17 | 0 | 0 | 2 | 0 | 1 | 0 | 1 | 0 | 0 | ... | 3 | 1 | 1 | 3 | 0 | 0 | 0 | 1 | 1 | 0 |
5 rows ร 59 columns
### train ๋ฐ์ดํฐ์ ํ, ์ด ๊ฐ์ ํ์
ํ๊ธฐ
rows = train.shape[0]
columns = train.shape[1]
print("The train dataset contains {0} rows and {1} columns".format(rows, columns))
The train dataset contains 595212 rows and 59 columns
2. ๋ฐ์ดํฐ ํ์ธํ๊ธฐ(Data Quality Check)
2-1. Null๊ฐ/๊ฒฐ์ธก์น ํ์ธ
### Null๊ฐ ํ์ธ
# ๋ชจ๋ ์ด์ ๋ํด isnull ๊ฒ์ฌ๋ฅผ ์คํํ๊ธฐ ์ํด any()๋ฅผ ๋ ๋ฒ ์ ์ฉ
train.isnull().any().any()
False
- Null ๊ฐ ๊ฒ์ฌ์์ False๋ฅผ ๋ฐํํ์ง๋ง ์ฌ์ค
-1
๋ํ ๊ฒฐ์ธก์น๋ฅผ ์๋ฏธํ๋ค๋ ์ ์ ์ฃผ์ํด์ผ ํจ
### ๊ฒฐ์ธก์น ํ์ธ
# ๋ชจ๋ -1์ null๋ก ์ฝ๊ฒ ๋์ฒดํ ์ ์๋๋ก ๊ฐ์ -1์ด ํฌํจ๋ ์ด ํ์ธํ๊ธฐ
train_copy = train
train_copy = train_copy.replace(-1, np.NaN) # -1 -> NaN
2-2. ๊ฒฐ์ธก์น ์๊ฐํ
missingno
ํจํค์ง ํ์ฉ
import missingno as msno
# ์ด๋ณ null ๋๋ ๊ฒฐ์ธก๊ฐ
msno.matrix(df = train_copy.iloc[:,2:39], figsize = (20, 14), color = (0.42, 0.1, 0.05))
-
์์ง์ ์ด๋์ด ๋นจ๊ฐ์ ๋ (๋๋ฝ๋์ง ์์ ๋ฐ์ดํฐ)์ ๊ฒน์ณ์ง ๋น ํฐ์ ๋ ๋ ํน์ ์ด์ ๋ฐ์ดํฐ์ ๊ฒฐ์ธก์ ๋ฐ์
-
ํด๋น ๊ฒฝ์ฐ ์ ์ฒด 59๊ฐ feature ์ค 7๊ฐ์ feature๊ฐ ์ค์ ๋ก null ๊ฐ์ ํฌํจํ๊ณ ์์์ ์ ์ ์์
-
๊ฒฐ์ธก๊ฐ์ด ์๋ ์ด์ ์ค์ ๋ก ์ด 13๊ฐ
-
๊ฒฐ์ธก ํ๋ ฌ ๊ทธ๋ฆผ์ด ํ๋์ ๊ทธ๋ฆผ์ ์ฝ 40๊ฐ์ ํ์ ํ์์๋ง ์ ํฉํ ์ ์๊ธฐ ๋๋ฌธ -> ์ผ๋ถ ์ด์ด ์๋ต๋ ์ํ
-
๋ชจ๋ null์ ์๊ฐํ ํ๋ ค๋ฉด
figsize
์ธ์๋ฅผ ๋ณ๊ฒฝํ๊ณ ๋ฐ์ดํฐ ํ๋ ์์ ๋ถํ
-
-
-
์ ์ธ๋ 7๊ฐ์ ์ปฌ๋ผ:
-
ps_ind_05_cat
-
ps_reg_03
-
ps_car_03_cat
-
ps_car_05_cat
-
ps_car_07_cat
-
ps_car_09_cat
-
ps_car_14
-
-
๋๋ถ๋ถ์ ๊ฒฐ์ธก๊ฐ์ _cat์ด ๋ถ์ ์ด์์ ๋ฐ์
-
ps_reg_03
,ps_car_03_cat
,ps_car_05_cat
์ด์ ๊ฒฝ์ฐ ๋๋ถ๋ถ์ ๊ฐ์ด ๋๋ฝ๋จ-> Null์ ๋ํด -1์ ์ ์ฒด์ ์ผ๋ก ๋์ฒดํ๋ ๊ฒ์ ๊ทธ๋ค์ง ์ข์ ๋ณด์ด์ง x
2-3. Target ๋ณ์ ํ์ธํ๊ธฐ
-
target ๊ฐ์ ํด๋์ค/๋ผ๋ฒจ/์ ๋ต์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ์ ๊ณต๋๋ฉฐ, ํ์ต๋ ํจ์๊ฐ ์ผ๋ฐํ ๋ฐ ์์ธก์ ์ ํ ์ ์๊ธฐ๋ฅผ ๋ฐ๋
-
๋ฐ์ดํฐ๋ฅผ ๋ชฉํ๊ฐ์ ๊ฐ์ฅ ์ ๋งคํํ๋ ํจ์๋ฅผ ํ์ตํ๊ธฐ ์ํด ์ฃผ์ด์ง ๋ฐ์ดํฐ(์ฐ๋ฆฌ์ ๊ฒฝ์ฐ id ์ด์ ์ ์ธํ ๋ชจ๋ train ๋ฐ์ดํฐ)์ ํจ๊ป ์ง๋ ํ์ต ๋ชจ๋ธ์ ์๋ก์ด ๋ณด์ด์ง ์๋ ๋ฐ์ดํฐ์ ํจ๊ป ์ฌ์ฉ
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
data = [go.Bar(
x = train["target"].value_counts().index.values,
y = train["target"].value_counts().values,
text ='Distribution of target variable'
)]
layout = go.Layout(
title='Target variable distribution'
)
fig = go.Figure(data = data, layout = layout)
py.iplot(fig, filename = 'basic-bar')
- target ๋ณ์๊ฐ ๊ต์ฅํ ๋ถ๊ท ํํ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์์์ ํ์ธํ ์ ์์
2-4. ๋ฐ์ดํฐ ํ์ (dtype) ํ์ธ
-
train ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐ์ดํฐ ์ ํ ํ์ธ
- ์ ์, ๋ฌธ์ ๋๋ ์ค์
-
Python ์ํ์ค์์ ๊ณ ์ ํ ์ ํ์ ์นด์ดํธ๋ฅผ ๊ฐ์ ธ์ค๊ธฐ ์ํด
Collections
๋ชจ๋์ ๊ฐ์ ธ์ฌ ๋Counter()
๋ฉ์๋๋ฅผ ํ์ฉ
Counter(train.dtypes.values)
Counter({dtype('int64'): 49, dtype('float64'): 10})
-
train data๋ ์ด 59๊ฐ์ ์ปฌ๋ผ์ ๊ฐ์ง๊ณ ์์
- ์ ์/์ค์ 2๊ฐ์ ๋ฐ์ดํฐ ํ์ ์ผ๋ก ๊ตฌ์ฑ๋จ
-
๋ฐ์ดํฐ์
_bin
,_cat
๋ฐ_reg
์ ๊ฐ์ ์ ๋ฏธ์ฌ๊ฐ ๋ถ์ด์์-
_bin
: ์ด์งํ(binary) feature -
_cat
: ๋ฒ์ฃผํ feature -
_reg
: ์ฐ์/์์ํ feature
-
train_float = train.select_dtypes(include = ['float64'])
train_int = train.select_dtypes(include = ['int64'])
2-5. ์๊ด๊ณ์ Plot
a) ์ค์ํ feature๋ค์ ์๊ด๊ณ์ ์๊ฐํ
-
sns.heatmap()
ํ์ฉ -
pandas ๋ฐ์ดํฐ ํ๋ ์์๋ Pearson ์๊ด๊ด๊ณ๋ฅผ ๊ณ์ฐํ๋
corr()
๋ฐฉ๋ฒ์ด ๋ด์ฅ๋์ด ์์
colormap = plt.cm.magma
plt.figure(figsize = (16,12))
plt.title('Pearson correlation of continuous features', y = 1.05, size = 15)
sns.heatmap(train_float.corr(),linewidths = 0.1,vmax = 1.0, square = True,
cmap = colormap, linecolor = 'white', annot = True)
-
๋๋ถ๋ถ์ feature๋ค ๊ฐ์ ์๊ด๊ณ์๊ฐ 0์์ ํ์ธํ ์ ์์
-
์์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ feature๋ค์ ์
-
(ps_reg_01, ps_reg_03)
-
(ps_reg_02, ps_reg_03)
-
(ps_car_12, ps_car_13)
-
(ps_car_13, ps_car_15)
-
b) ์ ์ํ feature๋ค์ ์๊ด๊ณ์ ์๊ฐํ
-
Plotly
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ด ๊ด๊ณ ๊ฐ์ ์ด ์ง๋๋ฅผ ๋ํ์์ผ๋ก ์์ฑ -
์ด์ ์ plotly plot๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก
go()
๋ฅผ ํธ์ถํ์ฌ heatmap ๊ฐ์ฒด๋ฅผ ์์ฑ-
x์ถ๊ณผ y์ถ์ ์ด ์ด๋ฆ์ ์ฌ์ฉ
-
์๊ด ๊ด๊ณ ๊ฐ์ z์ถ์์ ์ ๊ณต
-
### ์ ์ heatmap
train_int = train_int.drop(["id", "target"], axis = 1)
colormap = plt.cm.bone
plt.figure(figsize = (21,16))
plt.title('Pearson correlation of categorical features', y = 1.05, size = 15)
sns.heatmap(train_int.corr(),linewidths = 0.1,vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=False)
### ๋์ heatmap ์์ฑ
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
data = [
go.Heatmap(
z= train_int.corr().values,
x=train_int.columns.values,
y=train_int.columns.values,
colorscale='Viridis',
reversescale = False,
opacity = 1.0 )
]
layout = go.Layout(
title='Pearson Correlation of Integer-type features',
xaxis = dict(ticks='', nticks=36),
yaxis = dict(ticks='' ),
width = 900, height = 700)
fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename='labelled-heatmap')
-
correlation plot์์ ๊ฐ์ด 0์ธ ์ ์ด ์๋นํ ๋ง์ด ๊ด์ฐฐ๋จ
- ์๋ก ์ ํ ์๊ด ๊ด๊ณ๊ฐ ์ ํ ์๋ feature๋ค์ด ๋ง์
-
์ฃผ์ฑ๋ถ ๋ถ์(PCA)๊ณผ ๊ฐ์ ์ฐจ์ ์ถ์ ๋ณํ์ ์ํํ๋ ค๋ ๊ฒฝ์ฐ์๋ ์ด๋ ์ ๋์ ์๊ด ๊ด๊ณ๊ฐ ํ์
2-6. ์ํธ ์ ๋ณด Plot
-
target ๋ณ์์ target ๋ณ์๊ฐ ๊ณ์ฐ๋๋ ํด๋น ํ์ ์ฌ์ด์ ์ํธ ์ ๋ณด๋ฅผ ๊ฒ์ฌํ ์ ์๊ฒ ํด์ฃผ๋ ์ ์ฉํ ๋๊ตฌ
-
๋ถ๋ฅ ๋ฌธ์ ์ ๊ฒฝ์ฐ Sklearn์
mutual_info_classif()
๋ฉ์๋๋ฅผ ํธ์ถ-
k - ๊ทผ์ ์ด์ ๊ฑฐ๋ฆฌ์ ์ํธ๋กํผ ์ถ์ ์ ๊ธฐ๋ฐํ ๋น๋ชจ์ ๋ฐฉ๋ฒ์ ์์กด
-
๋ ๋๋ค ๋ณ์ ์ฌ์ด์ ์์กด์ฑ์ ์ธก์
- 0(๋๋ค ๋ณ์๊ฐ ์๋ก ๋ ๋ฆฝ์ ์ธ ๊ฒฝ์ฐ)์์ ๋ ๋์ ๊ฐ(์ผ๋ถ ์ข ์์ฑ์ ๋ํ๋)๊น์ง ๋ฒ์๋ฅผ ๊ฐ์ง
-
target์ ์ ๋ณด๊ฐ feature ๋ด์ ์ผ๋ง๋ ํฌํจ๋ ์ ์๋์ง ํ์ ํ ์ ์์
-
mf = mutual_info_classif(train_float.values, train.target.values,
n_neighbors = 3, random_state = 17)
print(mf)
[0.02599971 0.00767074 0.00617141 0.01855302 0.00158483 0.00338192 0.01668813 0.0134428 0.01334669 0.01348572]
2-7. ์ด์ง(binary) ๋ณ์ ํ์ธ
-
์ด์ง ๋ณ์: ๊ฐ์ผ๋ก 1 ๋๋ 0 ์ค ํ๋๋ง ์ฌ์ฉํ๋ ๋ณ์
-
์ด์ง ๊ฐ์ ํฌํจํ๋ ๋ชจ๋ ์ด์ ์ ์ฅํ ๋ค์ ๋ค์๊ณผ ๊ฐ์ด vertical barplot์ ์์ฑ
bin_col = [col for col in train.columns if '_bin' in col] # ์ด์ง ๋ณ์ ์ถ์ถ
zero_list = [] # ๊ฐ์ด 0
one_list = [] # ๊ฐ์ด 1
for col in bin_col:
zero_list.append((train[col] == 0).sum())
one_list.append((train[col] == 1).sum())
### ์๊ฐํ
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
# 0
trace1 = go.Bar(
x = bin_col,
y = zero_list ,
name = 'Zero count'
)
# 1
trace2 = go.Bar(
x = bin_col,
y = one_list,
name = 'One count'
)
data = [trace1, trace2]
layout = go.Layout(
barmode = 'stack',
title = 'Count of 1 and 0 in binary variables'
)
fig = go.Figure(data = data, layout = layout)
py.iplot(fig, filename='stacked-bar')
ps_ind_10_bin
,ps_ind_11_bin
,ps_ind_12_bin
,ps_ind_13_bin
์์ 0์ ๊ฐ์ ๊ฐ์ง๋ ๋ณ์๋ค์ ๋น์จ์ด ๋์์ ํ์ธํ ์ ์์
2-8. ๋ฒ์ฃผํ(categorical) ๋ณ์์ ์์ํ(ordinal) ๋ณ์ ํ์ธ
โ ๋๋ค ํฌ๋ ์คํธ๋ฅผ ํตํ ๊ธฐ๋ฅ ์ค์๋
-
train ๋ฐ์ดํฐ๋ฅผ RandomForestClassifier๋ก ๋ง์ถ๊ณ ๋ชจ๋ธ์ด ํ๋ จ์ ๋ง์น ํ feature๋ค์ ์์ ํ์
-
์ ์ฉํ ๊ธฐ๋ฅ ์ค์๋๋ฅผ ์ป๋ ๋ฐ ๋ง์ ๋งค๊ฐ ๋ณ์ ์กฐ์ ์ด ํ์ํ์ง ์๊ณ ๋ถ๊ท ํ feature์ ๋ํด์๋ ๋งค์ฐ ๊ฐ๋ ฅํ ์์๋ธ ๋ชจ๋ธ(Bootstrap ์ง๊ณ ํ์ ์ ์ฉ๋ ์ฝํ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ํ์ต์์ ์์๋ธ)์ ์ฌ์ฉํ๋ ๋น ๋ฅธ ๋ฐฉ๋ฒ
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators = 150, max_depth = 8, min_samples_leaf = 4,
max_features = 0.2, n_jobs = -1, random_state = 0)
rf.fit(train.drop(['id', 'target'],axis = 1), train.target)
features = train.drop(['id', 'target'],axis = 1).columns.values
print("----- Training Done -----")
----- Training Done -----
์๊ฐํ
-
RandomForest๋ฅผ ํ์ต์ํจ ํ
feature_importances_
์์ฑ์ ํธ์ถํ์ฌ feature ์ค์๋ ๋ชฉ๋ก์ ์ป๊ณ plotly์ ์ฐ์ ๋ plot์ ์๊ฐํ -
Scatter
๋ช ๋ น์ ์คํํ๊ณ ์ด์ ์ plotly plot์ ๋ฐ๋ผ y์ถ๊ณผ x์ถ์ ์ ์ํด์ผ ํจmarker
์์ฑ: ์ ์ ํฌ๊ธฐ, ์์ ๋ฐ ์ฒ๋๋ฅผ ์ ์/์ ์ด
### ์๊ฐํ(์ฐ์ ๋)
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
trace = go.Scatter(
y = rf.feature_importances_,
x = features,
mode = 'markers',
marker = dict(
sizemode = 'diameter',
sizeref = 1,
size = 13,
#size= rf.feature_importances_,
#color = np.random.randn(500), #set color equal to a variable
color = rf.feature_importances_,
colorscale='Portland',
showscale=True
),
text = features
)
data = [trace]
layout= go.Layout(
autosize= True,
title= 'Random Forest Feature Importance',
hovermode= 'closest',
xaxis= dict(
ticklen= 5,
showgrid=False,
zeroline=False,
showline=False
),
yaxis=dict(
title= 'Feature Importance',
showgrid=False,
zeroline=False,
ticklen= 5,
gridwidth= 2
),
showlegend= False
)
fig = go.Figure(data=data, layout=layout)
py.iplot(fig,filename='scatter2010')
### ์๊ฐํ(barplot)
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
x, y = (list(x) for x in zip(*sorted(zip(rf.feature_importances_, features),
reverse = False)))
trace2 = go.Bar(
x = x, # feature importance
y = y, # feature name
marker = dict(
color = x,
colorscale = 'Viridis',
reversescale = True
),
name = 'Random Forest Feature importance',
orientation = 'h',
)
layout = dict(
title = 'Barplot of Feature importances',
width = 900, height = 2000,
yaxis = dict(
showgrid = False,
showline = False,
showticklabels = True,
# domain=[0, 0.85],
))
fig1 = go.Figure(data=[trace2])
fig1['layout'].update(layout)
py.iplot(fig1, filename='plots')
์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ์๊ฐํ
-
๋จ์ํ๊ฒ ํ๊ธฐ ์ํด
Decisiontree(max_depth = 3)
๋ฅผ ์ ํฉ -
sklearn.export_graphviz
์์ ๊ทธ๋ํ ์๊ฐํ ์์ฑ์ผ๋ก ๋ด๋ณด๋ด๊ธฐ๋ฅผ ์ฌ์ฉ
from sklearn import tree
from IPython.display import Image as PImage
from subprocess import check_call
from PIL import Image, ImageDraw, ImageFont
import re
decision_tree = tree.DecisionTreeClassifier(max_depth = 3)
decision_tree.fit(train.drop(['id', 'target'],axis=1), train.target)
# Export our trained model as a .dot file
with open("tree1.dot", 'w') as f:
f = tree.export_graphviz(decision_tree,
out_file=f,
max_depth = 4,
impurity = False,
feature_names = train.drop(['id', 'target'],axis=1).columns.values,
class_names = ['No', 'Yes'],
rounded = True,
filled= True )
#Convert .dot to .png to allow display in web notebook
check_call(['dot','-Tpng','tree1.dot','-o','tree1.png'])
# Annotating chart with PIL
img = Image.open("tree1.png")
draw = ImageDraw.Draw(img)
img.save('sample-out.png')
PImage("sample-out.png",)
โ Gradient Boosting์ ํตํ ๊ธฐ๋ฅ ์ค์๋
- ๊ฐ ๋จ๊ณ์์ ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ(๊ธฐ๋ณธ์ ์ผ๋ก Sklearn ๊ตฌํ์ ํธ์ฐจ๋ก ์ค์ ๋จ)์ ์ ํฉํ ์ ์ง ๋จ๊ณ๋ณ ๋ฐฉ์์ผ๋ก ์งํ๋จ
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(n_estimators = 100, max_depth = 3, min_samples_leaf = 4,
max_features = 0.2, random_state = 0)
gb.fit(train.drop(['id', 'target'],axis = 1), train.target)
features = train.drop(['id', 'target'],axis = 1).columns.values
print("----- Training Done -----")
----- Training Done -----
### ์๊ฐํ(์ฐ์ ๋)
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
trace = go.Scatter(
y = gb.feature_importances_,
x = features,
mode='markers',
marker=dict(
sizemode = 'diameter',
sizeref = 1,
size = 13,
#size= rf.feature_importances_,
#color = np.random.randn(500), #set color equal to a variable
color = gb.feature_importances_,
colorscale='Portland',
showscale=True
),
text = features
)
data = [trace]
layout= go.Layout(
autosize= True,
title= 'Gradient Boosting Machine Feature Importance',
hovermode= 'closest',
xaxis= dict(
ticklen= 5,
showgrid=False,
zeroline=False,
showline=False
),
yaxis=dict(
title= 'Feature Importance',
showgrid=False,
zeroline=False,
ticklen= 5,
gridwidth= 2
),
showlegend= False
)
fig = go.Figure(data=data, layout=layout)
py.iplot(fig,filename='scatter2010')
### ์๊ฐํ(barplot)
configure_plotly_browser_state() # ๋งค ๊ทธ๋ํ ์ถ๋ ฅ ์ ํธ์ถํด์ค๋ค.
x, y = (list(x) for x in zip(*sorted(zip(gb.feature_importances_, features),
reverse = False)))
trace2 = go.Bar(
x=x ,
y=y,
marker=dict(
color=x,
colorscale = 'Viridis',
reversescale = True
),
name='Gradient Boosting Classifer Feature importance',
orientation='h',
)
layout = dict(
title='Barplot of Feature importances',
width = 900, height = 2000,
yaxis=dict(
showgrid=False,
showline=False,
showticklabels=True,
))
fig1 = go.Figure(data=[trace2])
fig1['layout'].update(layout)
py.iplot(fig1, filename='plots')
- RandomForest์ GradientBoost ํ์ต ๋ชจ๋ธ์์ ๋ชจ๋
ps_car_13
feature๋ฅผ ๊ฐ์ฅ ์ค์ํ ํน์ง์ผ๋ก ์ ํํจ
3. ๊ฒฐ๋ก
-
Null ๊ฐ๊ณผ ๋ฐ์ดํฐ ํ์ง์ ๊ฒ์ฌํ๊ณ , feature๋ค ๊ฐ์ ์ ํ ์๊ด๊ด๊ณ๋ฅผ ์กฐ์ฌํ์ฌ Porto Seguro ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์๋นํ ๊ด๋ฒ์ํ๊ฒ ๊ฒ์ฌํจ
-
์ผ๋ถ feature์ ๋ถํฌ๋ฅผ ๊ฒ์ฌํ๊ณ ๋ชจ๋ธ์ด ์ค์ํ๋ค๊ณ ์๊ฐํ๋ ๊ธฐ๋ฅ์ ์๋ณํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ํ์ต ๋ชจ๋ธ(RandomForest ๋ฐ GradientBoosting ๋ถ๋ฅ๊ธฐ)์ ๊ตฌํ