노트(델파이 & 오렌지 그리고): 오렌지로 데이터 사이언스 스쿨 따라하기(1) seaborn.pairplot

2022년 5월 20일 금요일

오렌지로 데이터 사이언스 스쿨 따라하기(1) seaborn.pairplot

"데이터 사이언스 스쿨"은 파이썬, 수학, 머신러닝등을 아주 잘 설명해 놓아 학습하기 좋습니다. 더군다나 군더더기 광고가 없어서 짜증나지 않게 관련정보를 획득 할 수 있습니다.

가끔 오렌지로 머신러닝을 따라하는데 파이썬 코드로 설명해 놓아 오렌지에 없는 것들이 있어 파이썬스크립트위젯으로 해결하곤 합니다.

1. 아래는 4.1의 회귀분석 예제의 보스턴 집값예측을 따라 해봅니다. 오렌지의 캔바스를 아래와 같이 구성합니다.

2. Datasets Widget을 선택하여 Housing 자료를 읽어 옵니다.

3. 각 Feature등에 대한 설명은 "데이터 사이언스 스쿨"에서 갖어 왔습니다. 이하는 생략합니다.

sklearn 패키지의 datasets 서브패키지는 회귀분석을 공부하기 위한 예제를 제공한다. 그 중 load_boston() 명령으로 받을 수 있는 보스턴 주택 가격 데이터는 다음과 같은 데이터이다. 보스턴의 506개 타운(town)의 13개 독립변수값로부터 해당 타운의 주택가격 중앙값을 예측하는 문제다. 사용할 수 있는 특징 데이터는 다음과 같다.

독립변수
CRIM: 범죄율
INDUS: 비소매상업지역 면적 비율
NOX: 일산화질소 농도
RM: 주택당 방 수
LSTAT: 인구 중 하위 계층 비율
B: 인구 중 흑인 비율
PTRATIO: 학생/교사 비율
ZN: 25,000 평방피트를 초과 거주지역 비율
CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0
AGE: 1940년 이전에 건축된 주택의 비율
RAD: 방사형 고속도로까지의 거리
DIS: 직업센터의 거리
TAX: 재산세율
종속변수 : 보스턴 506개 타운의 1978년 주택 가격 중앙값 (단위 1,000 달러)

Data Table Widget을 선택하여 데이터를 살펴봅니다. 타겟변수(종속변수)가 MEDV 이군요

4. 관련 내용을 읽어가다보면 스캐터플롯(scatter plot = pairplot)이 있는데 오렌지에서는 없어서...

5. Python Script Widget을 선택하여 아래 내용을 복사&붙여넣기하고 [RUN] 버튼을 누르면 그래프를 볼 수 있습니다. (얼마전까지 이게 안되는 갑다하고 넘어갔었습니다)

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = in_data.to_pandas_dfs()
df = pd.concat(df, axis=1)
sns.pairplot(df[["MEDV", "RM", "AGE", "CHAS"]])
plt.show()