본문 바로가기
728x90
반응형

전체 글266

[경제용어] ISM과 PMI 지수 ISM 보고서 Institute for supply management, 줄여서 ISM이라 부르는 미국 공급자 관리 협회에서 매달 정기적으로 제조업, 서비스, 보고서를 공개한다. 미국의 제조업 부문의 건전성에 대한 정보를 제공하기에 투자자들, 정책 입안자 등 많은 사람들이 중요하게 보는 지표이다. 설문조사에 기반한 보고서로, 신규주문, 생산, 고용, 공급업체 납품, 재고, 가격, 수출 주문, 수입 주문 등 다양한 주제를 다룬다. 그리고 그 결과를 바탕으로 PMI 지수를 발표한다. PMI, Purchasing Manager Inde, 구매 관리자 지수 https://www.ismworld.org/supply-management-news-and-reports/reports/ism-report-on-busin.. 2023. 4. 22.
[Data Science] Missing Values 데이터를 살펴보면 결측치가 있는 경우를 종종 볼 수 있고 그 원인도 다양하다.센서가 고장나서 데이터 수집이 중단되었거나, (설문조사의 경우) 무응답이나 응답 거부를 하거나, object(instance, record)에 모두 대응되지않는 attribute가 있는 경우(임신 여부)가 있을 수 있다. 결측치를 0으로 대체하거나 평균/중앙값으로 대체할 수 있다.그러나 결측치는 항상 결측값이 아니다. 경우에 따라 그 값을 추정할 수 있다.이전에 결측값의 종류를 파악해보자.  Types of Missing Values결측치 종류에 대하여 설명하기 전에 몇가지 notation을 정리하겠다.$X_{obs}$: 우리의 관심이 되는 변수(attribute)의 관측 값. 이 값이 존재한다면 true value를 $X$라 .. 2023. 4. 21.
[Data Science] Chi-square test. 카이제곱검정 카이제곱검정목적동질성 검정과 독립성 검정 두 가지 검정이 가능하다. 동질성 검정: 데이터가 이항분포/정규분포와 동일한지 검정.독립성 검정: 두개 이상의 데이터가 서로 독립인지 검정. 이번 포스팅은 독립성 검정에 대하여 다룬다. 독립성 검정범주형 데이터(categorical attribute)에 대하여 두 데이터가 서로 독립인지 확인하는 검정이다.가설 검정$H_0$: 두 데이터는 독립이다. (실제 세계에서 서로 다른 두 변수는 독립으로 보는 것이 일반적이다.)$H_a$: 두 데이터는 독립이 아니다. (서로 상관성이 존재한다.) 검정 순서1. 두 범주형 데이터의 contigency table을 이용하여 Observed value($O_i$)와 Expected value($E_i$)를 구한다.2. 검정통계량 .. 2023. 4. 20.
GAT, GraphSAGE GAT, Graph Attention NetworksIdeaGCN의 경우, 모든 이웃 노드들로부터 동일한 가중치를 갖는다.그렇지만 경우에 따라 이웃 노드를로부터 얻는 정보의 가중치가 다를 수 있다. (많은 경우가 그럴 것이다.)이제 이웃 노드들로부터 얻는 임베딩 $\mathbf{h}_u^{l}$에 가중치 $\alpha{vu}$를 곱한다.이 수식은 GCN을 보다 일반화 한것으로 볼 수 있다.GCN이라면 $\alpha{vu} \cfrac{1}{|N(v)|}$ 으로 간주할 수 있다.Not all neighbors are equally important !Computing the attention weight노드 $u$가 노드 $v$에 메시징을 할 때, 그 중요도를 $e_{vu}$라 하고 attention we.. 2023. 4. 19.
[GCN] Graph Convolutional Network Ideanode의 neighborhood는 computation graph를 정의한다.message는 relational information과 attribute information 모두 포함할 수 있다.Neighborhood Aggregationnode는 이웃 노드의 정보를 neural network를 통해 정보를 집계한다. 모든 노드는 이웃 노드로부터 정의된다.그렇다면 어떤 Neural Network를 사용할 것인가? 어떻게 집계할 것인가?GCN, Graph Convolutional NetworkBasic Approach어떤 neural network를 사용할 것인가? → weight matrix를 사용하는 기본형태. $\mathbf{B}$와 $\mathbf{W}$를 사용할 것이다.어떤 종류의 집계.. 2023. 4. 18.
[Data Science] Association Rule Mining - Excercises Transaction Data Setup5개의 거래가 있는 아래 데이터에 대하여, min_sup=60%, min_conf=80%라 하자.전체 transaction data가 5개이므로, min_sup 60% = 3개이다.(1) Apriori먼저 1-frequent itemset을 만들고 min_sup=3이 안되는 아이템을 지워 ($L_1$)을 만들자 $L_1$으로 self-join을 하여(임시 $C_2$)를 구한다. 그리고 $L_1$에 없는 아이템이 있다면(이 경우에는 없다) 그 후보는 pruning하여 $C_2$를 구한다.이렇게 구한 $C_2$ 중에서 min_sup=3 이상이 되는 itemset만 남겨 $L_2$를 만든다.$L_2$를 self-join을 하면 다음과 같다.그런데 {M, O, K}의 경우.. 2023. 4. 17.
728x90
반응형