2022년 5월 2일 월요일

연관규칙분석(Association Rule Analysis)

연관분석

  • 대량의 트랜잭션 정보로부터 개별 데이터(변수) 사이에서 연관규칙(x면 y가 발생)을 찾는 것
  • 가령 슈퍼마켓의 구매내역에서 특정 물건의 판매 발생 빈도를 기반으로 ‘A물건을 구매하는 사람들은 B물건을 구매하는 경향이 있다.’라는 규칙을 찾을 수 있다. 
  • 다른 말로 장바구니 분석(Market Basket Analysis)이라 한다. 

신뢰도(Confidence)
  • 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
  • 즉 우유를 구매했을 때 식빵이 장바구니로 함께 들어갈 확률이 바로 신뢰도인 것이다. 

지지도(Support)
  • 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율이다. 
  • 장을 본 목록을 확인했을 때 우유와 식빵이 꼭 함께 있을 확률이다.

향상도(Lift)
  • A가 주어지지 않은 상태에서 B의 확률에 대하여 A가 주어졌을 때 B의 확률 증가비율
  • 만일 A에대해 B가 등장할 경우와 A에 대해 C가 등장할 경우의 두 신뢰도가 같다면 어떻게 해야 할까? 
  • 대개 이럴때 향상도 지표가 활용된다. 
  • A에 대해 B가 등장 가능성이 높은지 C가 등장 가능성이 더 높은지를 확인하는 지표로 향상도가 있다.


1. 오렌지에서 연관분석 하기

2. 데이터 보기
3. 결과 보기

4. 건강보험심사평가원에서 나온 파이썬을 활용한 데이터.AI분석사례를 오렌지로 구현해보았습니다. 그런데 파이썬으로 구현할때와는 조금씩 다르네요...

5. 달걀과 양파 두 품목 모두를 구매할 확률(지지도)의 가장 큰값은 0.6이고, 달걀을 무매 할때 양파를 구매할 가능성은 100%로 보이네요. 저도 잘 이해를 못하겠어요.... 저는 통계 전문가가 아니어서 신뢰도, 지지도, 향상도가 돌아서면 감감 합니다.

 

댓글 없음:

tensorflow gpu 사용하기에서

 tensorflow 설치시 주의해야 한다. # Anything above 2.10 is not supported on the GPU on Windows Native python - m pip install "tensorflow<2.11...