2022년 5월 16일 월요일

오렌지에서 이상치 처리는 Outliers Wedget으로

 오렌지에서 이상치 데이터를 처리하는 위젯은 Outliers Widget을 사용합니다. Row Select Widget에서도 수동으로 값을 입력하여 처리할 수 있습니다.

1. 먼저 연습에서 자주 사용되는 가공되기 전의 Titanic 데이터를 다운받습니다.  Titanic 

2. 오렌지의 캔바스에 위젯을 아래와 같이 배치하고 연결합니다. 진행해 가면서 연결해도 됩니다.

3. File Wedget을 선택하여 다운받은 Titanic.csv를 불러옵니다. 이미지는 생락합니다.

4. Select Columns Wedget을 선택하여 아래와 같이 설정합니다. 

이상값 감지에 도움이 될 것으로 생각되는 열만 포함하게 됩니다.

5. Preprocess Wedget을 선택하여 표준화(1)와 빠진자료 처리(2)를 추가하고 [Apply] 버튼(5)을 선택합니다.


6. Outliers Wedget을 선택하여 아래와 같이 설정합니다. (이 위젯은 Unsupervised 도구상자에 있습니니다)

데이터 포인트 사이의 유클리드 거리를 계산하고 다른 데이터 포인트에서 가장 멀리 떨어진 포인트를 이상값으로 제외하는 거리 기반 이상값 감지 알고리즘을 사용할 것입니다. 유클리드 거리는 각 개별 속성에 대해 두 데이터 포인트 사이의 거리를 사용합니다. 저는 5%만 제외하렵니다. 이를 위해 표준화를 먼저 한 것입니다.

7. Distibutions Widget 과 Distributions Widget (1)을 선택하여 비교합니다.


모평균과 편차가 약간 차이가 있군요

8. Data Table Wedget을 선택하여 어떤 자료가 예외 처리되었는지 확인해보십시요. Data Table Widget 의 2번재 입력은 라인을 더블크릭하여 다음과 같이 지정해야 합니다.

댓글 없음:

델파이 12.1이냐 11.3이냐?

 델파이가 12.1이 나왔습니다. 혹시 11.3버전의 커뮤니티버전이 필요하시는분이 있을 수 있을 것 같아 https://altd.embarcadero.com/.../RADStudio_11_3_esd_28... 와 이것 찾느랴 엄청고생함.