"데이터 사이언스 스쿨"은 파이썬, 수학, 머신러닝등을 아주 잘 설명해 놓아 학습하기 좋습니다. 더군다나 군더더기 광고가 없어서 짜증나지 않게 관련정보를 획득 할 수 있습니다.
가끔 오렌지로 머신러닝을 따라하는데 파이썬 코드로 설명해 놓아 오렌지에 없는 것들이 있어 파이썬스크립트위젯으로 해결하곤 합니다.
1. 아래는 4.1의 회귀분석 예제의 보스턴 집값예측을 따라 해봅니다. 오렌지의 캔바스를 아래와 같이 구성합니다.
2. Datasets Widget을 선택하여 Housing 자료를 읽어 옵니다.
3. 각 Feature등에 대한 설명은 "데이터 사이언스 스쿨"에서 갖어 왔습니다. 이하는 생략합니다.
sklearn 패키지의 datasets 서브패키지는 회귀분석을 공부하기 위한 예제를 제공한다. 그 중 load_boston()
명령으로 받을 수 있는 보스턴 주택 가격 데이터는 다음과 같은 데이터이다. 보스턴의 506개 타운(town)의 13개 독립변수값로부터 해당 타운의 주택가격 중앙값을 예측하는 문제다. 사용할 수 있는 특징 데이터는 다음과 같다.
독립변수
CRIM
: 범죄율INDUS
: 비소매상업지역 면적 비율NOX
: 일산화질소 농도RM
: 주택당 방 수LSTAT
: 인구 중 하위 계층 비율B
: 인구 중 흑인 비율PTRATIO
: 학생/교사 비율ZN
: 25,000 평방피트를 초과 거주지역 비율CHAS
: 찰스강의 경계에 위치한 경우는 1, 아니면 0AGE
: 1940년 이전에 건축된 주택의 비율RAD
: 방사형 고속도로까지의 거리DIS
: 직업센터의 거리TAX
: 재산세율종속변수 : 보스턴 506개 타운의 1978년 주택 가격 중앙값 (단위 1,000 달러)
Data Table Widget을 선택하여 데이터를 살펴봅니다. 타겟변수(종속변수)가 MEDV 이군요
4. 관련 내용을 읽어가다보면 스캐터플롯(scatter plot = pairplot)이 있는데 오렌지에서는 없어서...
5. Python Script Widget을 선택하여 아래 내용을 복사&붙여넣기하고 [RUN] 버튼을 누르면 그래프를 볼 수 있습니다. (얼마전까지 이게 안되는 갑다하고 넘어갔었습니다)
6. 아래와 같이 결과를 볼 수 있습니다. (저장해 두었다가 변수만 바꾸어가면 다른 경우에도 사용 할 수 있겠습니다. 저장하는 방법은 이전에 올렸었습니다. More버튼눌러서....)
RM이 상관도가 제일 높군요
댓글 없음:
댓글 쓰기