노트(델파이 & 오렌지 그리고): 오렌지3로 주성분분석 (PCA)

2022년 5월 6일 금요일

오렌지3로 주성분분석 (PCA)

파이썬을 활용한 데이터·AI 분석 사례 (건강보험심사평가원 발행) 페이퍼를 보면서 오렌지3를 익히고 있습니다.

오렌지3 만으로도 이러한 분석이 가능한 걸 알면 의료분야 많은 교수님들이 좋아 할 것 같습니다. 저는 의료분야는 문외한이라 페이퍼에 나온 것을 오렌지로 구현해본 것 뿐입니다.

1. 주성분분석(Principal Component Analysis)

여러 특성(feature)가운데 대표 특성을 찾아 분석하는 방식으로, 대표 특성의 선별은 자료의 차원을 고차원에서 하위 차원으로 축소하는 (차원축소)기법을 활용한다.

2. 분석연습

위스콘신 암센터 569명의 유방암 진료 환자 샘플 데이터를 PCA에 활용하였다. 암 진단에 필요한 속성 정보와 양성(Benign)/악성(malignant) 진단 결과로 분류된 환자 데이터이다. 해당 데이터 세트를 검토하여 유방암 진단에 설명력이 높은 주성분들을 찾아본다.

3. 일단 오렌지를 실행하고 > 위젯을 아래와 같이 배치합니다.

주된 루트는 파이썬스트립트 > 프리프로세스 > 주성분분석(PCA)입니다.

4. 파이썬스크립트를 더블크릭하고 내용을 아래와 같이 수정하고 [RUN] 버튼을 눌러 실행합니다.

from sklearn.datasets import load_breast_cancer
import numpy as np
from Orange.data import Table, Domain, ContinuousVariable, DiscreteVariable

cancer = load_breast_cancer()

ifeature = list(cancer.feature_names)
jfeature = [istr.replace(' ', '_') for istr in ifeature]
iclass = DiscreteVariable('target',cancer.target_names)
domain = Domain([ContinuousVariable(istr) for istr in jfeature], iclass)

out_data = Table.from_numpy(domain, cancer.data, cancer.target)