2022-11-13 데이터마이닝_8

1. 연관규칙 2

가. 실습 1

library(arules)
library(arulesViz)
food <- read.csv("food.csv", header = TRUE, sep =",")

str(food)
food$egg <- as.factor(food$egg)
food$ramen <- as.factor(food$ramen)
food$tuna <- as.factor(food$tuna)
food$coldrice <- as.factor(food$coldrice)
food$cola <- as.factor(food$cola)
food$onion <- as.factor(food$onion)

rules <- apriori(food, parameter = list(supp=0.5, conf = 0.5))

inspect(rules)

plot(rules, method = 'graph')Code language: PHP (php)

(1) 질문?

왜 힘들게 하나하나 수동으로 factor로 바꿔주어야 하는가?

stringsAsFactors = TRUE로 한 번에 바꿔도 되지 않는가?

food <- read.csv("food.csv", header = TRUE, sep =",", stringsAsFactors = TRUE)
# 데이터들이 숫자여서 string이 아니라 Factor로 변환되지 않음Code language: PHP (php)
inspect(rules)
plot(rules, method = 'graph')Code language: JavaScript (javascript)


나. 실습 2

tran <- read.transactions('wish.txt', format = "basket", sep = ",")
rule <- apriori(tran, parameter = list(supp = 0.1, conf = 0.1))
inspect(rule)Code language: PHP (php)

(1) 결과 해석

lhs, rhs, support, confidence, coverage, lift, count 순서로 출력

1 ~ 17번 : 특정한 연관관계 없음.18번 : ‘고급 자전거’를 선택하는 선택한 사람이 ‘제주도에 바다가 보이는 20평땅’을 선택할 경우지지도 (support) : 전체에서 둘을 동시에 선택한 사람이 12퍼센트신뢰도 (confidence) : ‘고급 자전거’를 선택한 사람들 중에서 둘을 동시에 선택한 사람이 71퍼센트향상도 (lift) : 1보다 크면 연관성이 있고, 1이면 없고, 1보다 작으면 서로 연관성 더 없음.

출처 : https://codedragon.tistory.com/9774


2. Orange

Orange는 기계학습 및 데이터 시각화에 사용되는 오픈소스 툴킷이다.

설치 : https://orangedatamining.com/download/#macos


가. 실습 1

그래픽과 drag & drop 방식을 사용해서 쉽게 사용할 수 있다.

file 아이콘을 누르고 condition 항목을 target으로 설정한다.

tree viewer를 열고 설정을 조절하면 tree를 볼 수 있다.

Confusion matrix도 확인할 수 있다.

Test and Score에 입력으로 file과 model을 연결해주고 출력으로 confusion matrix를 연결해주면 된다.

이렇게 하면 confusion matrix도 확인할 수 있다.


댓글 남기기