2022-10-14 데이터마이닝_6

Featured image for 2022-10-14 데이터마이닝_6

1. K-means 대표적인 비지도 학습. 데이터를 이용해서 k개로 분류. k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘이다. 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 각 그룹의 중심 (centroid)과 그룹 내의 데이터 오브젝트와의 거리의 제곱합을 비용 함수로 정하고, 이 함숫값을 최소화하는 방향으로 각 데이터 오브젝트의 소속 그룹을 업데이트해 줌으로써 클러스터링을 수행하게 된다. 알고리즘은 … 더 읽기

2022-10-06 데이터마이닝_5

Featured image for 2022-10-06 데이터마이닝_5

1. Random Forest 기계 학습에서의 랜덤 포레스트는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종이다. 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. ( 출처 : https://ko.wikipedia.org/wiki/랜덤_포레스트 ) ( 출처 : https://eunsukimme.github.io/ml/2019/11/26/Random-Forest/ ) 임의의 여러 개의 Decision tree를 만들기에 Random forest라고 하는 것 같다. Random Forest의 구체적인 원리는 수업의 … 더 읽기

2022-09-28 데이터마이닝_4

Featured image for 2022-09-28 데이터마이닝_4

의사결정 트리 (Decison Tree) 결정 트리(decision tree)는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다. 모델 학습 시 각 변수마다 중요도(feature importance)를 계산한다. 출처 : https://data-make.tistory.com/75 출처 : https://ko.wikipedia.org/wiki/결정_트리 조건부 추론 트리 (Conditional Inference Tree) 조건부 추론 트리는 의사결정 트리(Decision Tree) + 통계적 유의성 확인(변수의 유의성)이 가능한 수치를 제공해주는 Tree다. … 더 읽기

2022-09-21 데이터마이닝_3

Featured image for 2022-09-21 데이터마이닝_3

wordcloud 데이터를 시각화하는 패키지 중 하나다. 위와 같은 단어로 이뤄진 이미지를 만들 수 있다. 참고 : https://cran.r-project.org/web/packages/wordcloud/wordcloud.pdf 패키지 설치 패키지 로드 새로 켜서 사용할 때마다 로드해주기. wordcloud 실행 table 함수는 ‘분할표’를 출력해주는 함수입니다. (단어의 수를 세어줌) ?????????????? 네? wordcloud 폰트 깨짐 문제 폰트 깨짐 ㅅㄱ 맥북 m1으로 rstudio로 wordcloud를 실행할 경우 한글 폰트를 못 찾아서 … 더 읽기

2022-09-20 데이터마이닝_2

Featured image for 2022-09-20 데이터마이닝_2

변수 생성 c() : 데이터나 객체를 하나로 결합(Conbine)하는 함수. 데이터 프레임 생성 데이터 호출 데이터 평균 구하기 데이터 프레임 복사 변수 이름 바꾸기 변수 및 데이터 프레임 삭제 데이터 파악하기 데이터를 가지고 노는 방법 6가지를 더 알아보자. 준비 가. head() 데이터 앞부분 출력 나. tail() 데이터 뒷부분 출력 다. View() 뷰어 창에서 데이터 확인 편하게 … 더 읽기

2022-09-13 데이터마이닝_1

Featured image for 2022-09-13 데이터마이닝_1

데이터 마이닝 대용량의 데이터 창고로부터 유용한 정보를 캐내는(mining) 작업을 의미. 데이터 간의 관계, 패턴, 규칙 등을 자동화되거나 반자동화된 도구를 이용해서 찾아낸다. 이를 모형화하여 기업의 경쟁력을 확보하여 의사결정을 돕는 일련의 과정. 대용량 DB가 구축된 전 분야에서 활용된다. 도입 배경 치열한 경쟁상황 속세어 정보/지식의 필요성 증대. 일단 과거에 비하여 데이터가 많이 축적되었다. 그리고 데이터 분석 및 컴퓨팅 … 더 읽기