본문 바로가기
728x90
반응형

전체 글267

[Data Science] Measuring Data Similarity and Dissimilarity Data Matrix$n$개의 object와 $p$개의 attribute를 갖는 데이터가 있다고 하자. 우리는 이런 데이터를 $n \times p$ matrix로 표현할 수 있다. \[ \begin{bmatrix} x_{11} & \cdots & x_{1f} & \cdots & x_{1p} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{i1} & \cdots & x_{if} & \cdots & x_{ip} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ x_{n1} & \cdots & x_{nf} & \cdots & x_{np} \\ \end{bmatrix} \]이 때 $1$번째 object의 데이터는 $x_1 = (x.. 2023. 3. 22.
[경제용어] 블랙 스완, 화이트 스완, 그레이 스완, 그린 스완 블랙 스완, Black Swan (리스크 관리, 재무관리에서) 매우 드물고 예측할 수 없으며 중요한 영향을 미치는 사건이다. 경재학 용어로 블랙스완 사건은 경제에 중대한 결과(보통 안좋은 결과)를 초래하는 예기치 못한 중대 사건을 의미한다. 갑작스러운 주식 시장 붕괴와 같은 경제적 사건 뿐만 아니라, 대규모 자연재해, 세계적 전염병 대유행, 테러 등도 포함된다. 매우 예측하기 어렵고(사실상 예측 불가능하고), 경제에 매우 큰 영향을 주며, 사건은 매우 드물지만 (주로) 갑작스럽게 발생하는 경우에만 블랙스완이라고 부른다. Note: 블랙 스완, 화이트 스완, 그레이 스완에 해당하는 사건은 반드시 경제와 관련되지 않아도 된다. 2008년 글로벌 금융 위기 2019년 COVID-19 팬데믹 911 테러는 세계.. 2023. 3. 22.
[Data Science] Data Preprocessing (1) - Overview 왜 데이터 전처리를 해야하는가?실제 데이터베이스에서 데이터를 추출하여 살펴보면 제대로 된 데이터가 없다는 것을 알 것이다. 데이터가 잘 있어야 머신러닝이든 딥러닝이든 할 것이다. 데이터가 좋지 않으면 제아무리 최신 SOTA, cutting-edge 모델이어도 소용없다. (GIGO, Garbage In, Garbage Out) 잘 모르겠다면 캐글, 데이콘에 올라온 아무 데이터를 다운받아서 살펴보자. 당장 기본적인 타이타닉 데이터에 Age, Cabin에는 비어있는 데이터가 많이 있다. 심지어 대회에 올라온 데이터는 굉장히 많이 정제된 데이터임에도 불구하고 제공된 데이터 그대로 활용할 수는 없을 것이다. 그래도 잘 모르겠다면, GPS로 길찾기를 해본 경험을 떠올려보자. 항상 내 위치가 제대로 있었는가? 그렇지.. 2023. 3. 21.
확률변수의 변환, Change of Variable Section 6. One-Dimensional Change of VariableIntroduction확률변수 $X$의 분포를 알고 있다고 하자. (즉, 확률질량/밀도함수도 유도할 수 있다.)이 때 어떤 확률변수 $Y$가 $X$의 함수로 이루어져 있다고 하자. ($Y = h(X), h:\mathbb{R} \to \mathbb{R}$)즉 $Y(s) = h(X(s)), s \in S$일 때, $Y$의 분포를 알 수 있을까?Discrete Case이산확률변수의 경우, 굉장히 직관적으로 이해할 수 있다. $h(x) = y$을 만족하는 $x$의 집합이 존재하여 $P(X \in \{x : h(x)=y \})$를 직접 계산하면 된다.이산확률변수 $X$의 확률(질량)함수를 $p_X$라 하자. 함수 $h:\mathbb{.. 2023. 3. 21.
누적분포함수, Cumulative Distribution Function (CDF) Keywordcumulative distribution function, distribution function, quartiles, mixture distribution누적분포함수, 분포함수, 사분위수, 혼합분포Section 5 Cumulative Distribution Function확률변수 $X$가 구간 $(-\infty, x]$의 원소가 되는 즉 $P(X \in (-\infty, x]) = P(X \le x)$인 함수를 생각할 수 있다.Cumulative distribution function, 누적분포함수확률변수 $X$에 대하여 $\mathbb{R} \to [0, 1]$로 정의되는 누적분포함수를 다음과 같이 정의한다.\[ F_X(x) = P(x \le X) \]※ cumulative distri.. 2023. 3. 21.
[CS224w] Colab 2 - PyG, OGB, GNN Device 런타임 > 런타임 유형 변경 > 하드웨어 가속기 > GPU로 설정하고 저장 Setup import torch import os print("PyTorch has version {}".format(torch.__version__)) PyTorch has version 1.13.1+cu116 # Install torch geometric if 'IS_GRADESCOPE_ENV' not in os.environ: !pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.13.1+cu116.html !pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.13.. 2023. 3. 21.
728x90
반응형