오렌지에서 Decision Tree 와 Logistic Regression 정확성 비교를 해보겠습니다. 먼저 연습에서 자주 사용되는 가공되기 전의 Titanic 데이터를 다운받습니다. Titanic 이번에는 titanic.xls입니다.
1. 오렌지의 캔바스에 위젯을 아래와 같이 배치하고 연결합니다. 진행해 가면서 연결해도 됩니다.
2. 엑셀을 실행하여 Titanic.xls를 불러와 Age열의 선택합니다(E열).
아래쪽에 평균값 29.88을 확인합니다.
3. 엑셀 메뉴에서 [편집 > 찾기 > 이동... > 특수...] 한다음 아래처럼 필드 값 없음(1)을 선택하고 확인(2) 합니다.
4. (1)의 위치에 29.88을 입력하고 Ctrl + Enter 키를 누룹니다(두키 같이)
5. 빈칸이 채워졌슴을 확인하고 저장한 다음 엑셀을 종료하고
6. 저장한 파일을 오렌지의 File Widget에서 불러옵니다. 이때 survived 의 Role을 Target으로 변경합니다.
7. Tree Viewer Widget 에서 확인하고 (여성, 1등실이 확연히 생존율이 높음)
8. Test and Score Widget에서 Tree Model 과 Logistic Regression 모델을 비교합니다.
Tree 보다 Logistics Regression이 더 정밀하다고 볼 수 있겠네요. 그렇지만 CA가 비숫한 것으로 정확성은 비슷하다고 판단됩니다.
9. 이는 ROC Analysis Widget에서 확인할수 있습니다.
10. 그런데... 미싱데이터를 채워주었는데 파일위젯에서 미싱율은 변화가 없네요.(궁금)
댓글 없음:
댓글 쓰기