본문 바로가기
728x90
반응형

스터디228

[pandas] [판다스] 판다스 기초 pandas는 크게 3가지 Object로 구성되어있다. Index, Series, DataFrame Index object Series와 DataFrame은 index 객체를 포함하고있고, index를 바탕으로 데이터를 조작/변형할 수 있다. Series는 1개의 index를, DataFrame은 2개의 index(row index, column index)를 갖고 있다. Index는 immutable array이고 ordered set이다. multi-set이므로 repeated value를 가질 수 있다. ind = pd.Index([2, 3, 5, 5, 11]) print(ind) print(ind.size, ind.shape, ind.ndim, ind.dtype) ----- result -----.. 2023. 2. 15.
[NumPy] 넘파이 - 선형대수 numpy.linalg 모듈에 선형대수 관련 함수들이 있다. 내부적으로는 원래 선형대수 라이브러리인 BLAS와 LAPACK을 바탕으로 구현되어있다고 한다. (이 두 라이브러리를 사용하진 않았지만 아마 함수 이름이나 API가 같을 것으로 예상된다.) 또한 Scipy와도 많은 부분이 공통된 함수가 있는데, 일부 기능은 Scipy가 더 많이 가지고 있다. 예를 들어, LU-decomposition은 numpy.linalg에는 없지만 scipy.linalg에는 있다고 한다. numpy 1.10.0 부터는, 2차원 행렬의 곱셈에 한해 numpy.matmul 대신에 @ 를 대신할 수 있다고 한다. 포스팅에서는 자주 사용하는 몇 개의 함수만 살펴보고 모든 함수에 대한 설명은 도큐먼트를 참고하자 Matrix and v.. 2023. 2. 14.
시계열 데이터의 상관성 구하기 (time-series correlation) 서로 다른 시계열 데이터의 상관성을 어떻게 알 수 있을까?그리고 두 데이터의 길이가 다르다면?? 공통적인 주의사항으로, 상관관계를 인과관계로 해석해서는 안된다는 것임을 통계학 수업에서 많이 들어봤을 것이다.1. Pearson Correlation Coefficient (PCC, Pearson's r)통계 시간에 배우는 그 피어슨-상관계수 맞다.  \[ \rho_{X, \ Y} = \cfrac{\text{cov}(X, \ Y)}{\sigma_X \sigma_Y} = \cfrac{\mathbb{E}[XY] - \mathbb{E}[X] \mathbb{E}[Y]}{\sqrt{\mathbb{E}[X^2] - (\mathbb{E}[X])^2} \sqrt{\mathbb{E}[Y^2] - (\mathbb{E}[Y])^.. 2023. 2. 12.
[선형대수학] LU-Decompositions linear system(연립방정식)을 풀 때, 가우스 소거법과 가우스-조르당 소거법 2가지 방법을 통해 문제를 풀 수 있었다. [Review]가우스 소거법: 기본행연산을 통해 행사다리꼴(row echelon form)로 만드는 알고리즘가우스-조르당 소거법: 기본행연산을 통해 기약행사다리꼴(reduced row echelon form)로 만드는 알고리즘행사다리꼴: leading 1 아래의 모든 수가 0인  행렬기약행사다리꼴: leading 1 위 아래 모든 수가 0인 행렬위의 소거법의 경우 small-scale에서는 괜찮을지 모르나, 실제 large-scale에서 컴퓨터의 연산을 사용해도 roundoff error, memory usage, speed 면에서 효과적이지 못하다.$n$개의 미지수를 포함하는.. 2023. 2. 7.
[CS224W] 3. Node Embeddings Embedding Nodesgraph의 두 node의 similarity가 embedding space에서도 비슷해야한다.Graph의 두 노드 $u$, $v$가 임베딩 ENC를 통해 embedding space에 매핑된 임베딩벡터를 각가 $\mathbf{z}_u, \mathbf{z}_v$라 하면 ENC($u$) = $\mathbf{z}_u$, ENC($v$) = $\mathbf{z}_v$이다. 이때\[ \text{similarity}(u, v) \approx \mathbf{z}_v^T \mathbf{z}_u \]인 ENC()와 similarity()를 정의해야한다.Shallow Encoding가장 단순한 방법으로 embedding-lookup이다. 즉\[ \text{ENC}(v) = \mathbf{z}_.. 2023. 1. 28.
[CS224W] 2. Feature Engineering for ML in Graphs ML tasks reviewsNode-level prediction → Node featuresLink-level prediction → Link featuresGraph-level prediction → Graph featuresNode-level prediction$G = (V, E)$가 주어질 때, 함수 $f: V \to \mathbb{R}$를 학습한다.Goal: 네트워크의 노드의 구조와 위치를 특성화한다.Node FeaturesNode degreeNode centralityClustering coefficientGraphletsNode Centralitynode degree는 importance를 포착하지 않는다. node centrality $c_v$는 node importance를 지닌다.no.. 2023. 1. 23.
728x90
반응형