본문 바로가기
728x90
반응형

분류 전체보기249

20 Ways of Encoding Categorical Features Library for Categorical Features Encoding [3]의 파이썬 패키지에 다양한 categorical encoding이 구현되어있다. import category_encoders as ce encoder = ce.BackwardDifferenceEncoder(cols=[...]) encoder = ce.BaseNEncoder(cols=[...]) encoder = ce.BinaryEncoder(cols=[...]) encoder = ce.CatBoostEncoder(cols=[...]) encoder = ce.CountEncoder(cols=[...]) encoder = ce.GLMMEncoder(cols=[...]) encoder = ce.GrayEncoder(cols=[.... 2024. 1. 30.
Multivariate Gaussian Distribution (다변량 정규분포, 다변량 가우시안 분포) Multivariate Gaussian Distribution and its joint, marginal, conditional, MLEMultivariate Gaussian Distribution다변량 가우시안 분포는 다음과 같은 확률밀도함수(pdf)를 갖는다. \[ p(x; \mu, \Sigma) = \cfrac{1}{(2 \pi)^{n/2} |\Sigma|^{1/2}} \exp \left[ -\cfrac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu) \right] \]이때 $n$은 데이터의 차원, $x \in \mathbb{R}^{n}$, $\mu \in \mathbb{R}^{n}$, $\Sigma \in \mathbb{R}^{n \times n}$ 이다.$x$는 random ve.. 2024. 1. 23.
Non-negative Matrix Factorization (NMF), 비음수 행렬 분해 Non-negative Matrix Factorization (NMF) and its Applications Basic Concepts 행렬 $V \in \mathbb{R}^{n \times m}$를 두 행렬 $W \in \mathbb{R}^{n \times r}$, $H \in \mathbb{R}^{r \times m}$의 곱으로 분해하는 방법이다. 이름에서 알 수 있듯이 $V$, $W$, $H$의 모든 원소들은 음수가 아니다. \[ V \approx HW \] Objective Function Objective는 다음과 같다. \[ \underset{W, H \ge 0}{\min} \| V - WH \|_F^2 \] $\| \cdot \|_F$는 Frobenius norm이다. 예를 들어 $\| A .. 2024. 1. 2.
[CS246] Counting Frequent Elements in a stream Exponentially Decaying Window: Finding Frequent Recent Items from Stream Motivation 이번 포스팅에서는 2가지 문제에 관심을 갖는다. (1) Finding most common elements (2) Finding most common recent elements Example 최근 영화 중에서 가장 많이 예매된 것은? (Amazon과 같은) 전자상거래의 stream data 중에서 최근 판매된 인기 상품은? (Twitter, 이제는 X) SNS에서 최근 가장 활발한 유저는? Sliding Window: What is "recent"? 어떤 기준으로 최근(recent) 정보를 반영할 수 있을까? 가장 기본적으로 떠오르는 생각은 sliding.. 2023. 12. 28.
[CS246] Flajolet-Martin (FM) Algorithm: Counting Distinct Elements from Data Stream Flajolet-Martin (FM) Algorithm: Counting Distinct Elements from Data Stream Problem Definition data stream은 크기가 $N$인 집합으로 간주할 수 있다. Applications website에 방문하는 (unique한) 유저 수는 얼마인가? web crawling으로 얻은 website에 존재하는 word의 수는? 지난 주에 판매한 상품 품목(distinct products) 개수는? Real Problem Obvious approach: dictionary 자료구조를 이용한다. (key:element, value: counting) 그러나 우리는 (data stream의 크기에 비해) 매우 적은 저장공간만 가진다. (li.. 2023. 12. 22.
vscode 업데이트로 접속이 안될 때 vscode가 업데이트 하더니 또 접속이 안되는 것 같다... mobaxterm에서는 접속이 되는 걸 보아 vscode 문제인 것 같다 vscode-server 삭제 후 재접속 rm -rf ~/.vscode-server 그리고 다시 vscode로 접속해서 접속을 기다리면 된다. (시간이 오래 걸린다) 삭제가 안될 때 rm: cannot remove '[DIRECTORY_NAME]': Device or resource busy 어떤 프로세스가 해당 파일을 점유하고 있기 때문이다. 해당 프로세스를 찾아서 kill해주자 $ lsof +D ~/.vscode-server reference https://support.cs.jhu.edu/wiki/Trouble_Logging_In_Using_VS_Code_With_.. 2023. 12. 19.
728x90
반응형