Statistics3 [Data mining] Itemset mining - GSP algorithm, Apriori algorithm [ Motivation ] Sequence data를 다룰 일이 있어서, Markov chain를 사용하던 와중에 "sequence pattern matching"에 대해서 찾아보게 되었다. Sequence Pattern Matching는 크게 String mining과 itemset mining로 나뉠 수 있다. 이 중에, itemset mining에 관심이 생겼고, 그에 대표적인 알고리즘인 GSP와 Apriori에 대해서 찾아보았다. [ Itemset Mining ] (Frequent) Itemset mining이란, 주어진 sequence에서 가장 빈번하게 발생되는 item들의 set을 (= itemset) 구하는 것을 의미합니다. -> 우리가 흔히 말하는 pattern matching에서 patt.. 2021. 8. 30. [ BPT ] Frequentist 관점에서의 Prob. 의 문제점 Frequency 기반으로 하는 Probability를 mathematical basis로 사용할 수 없는 이유 1. Restrictive "Frequency" 는 결국 finite number of outcome을 기반으로 한다. -> sample space가 infinte한 경우에는 사용이 불가능하다 2. Circular Probability 를 정의하기 위해 Probability를 사용한다. Ex. 52장의 트럼프 카드가 있을 때에, 스페이드 카드가 나올 확률 -> 13/52 = 1/4 위의 결과는, 각 카드가 나올 가능성이 equally likely = equally probable을 가정한 결과이다. 즉, 확률 정의를 위해 확률을 사용하기 때문에 순환 논리를 사용하는 오류가 있다. 3. Limi.. 2021. 8. 21. PCA - Principal Component Analysis Motivation 주어진 데이터의 차원이 너무 많은 경우에, 분석 및 시각화가 힘들어진다. → multivariate 분석에도 차원이 높으면 분석 및 계산 시간이 매우 증가한다. → 인간의 지각으로는 3차원 이상은 시각화를 하기도 힘들고, 인지하기도 힘들다 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내주는 요소를 찾아내는 방법 (Reference : https://adnoctum.tistory.com/977) 사용하는 목적 및 예시 => 차원 축소, 변수 추출 Assumptions PCA의 가정 - ver.1 - 데이터를 나타내는 submanifold는 직선의 basis를 가지고 있다. ( linear basis / linear kernel(?)을 가정한다 ) 큰 분산을 갖는 방향이 중.. 2021. 1. 17. 이전 1 다음