본문 바로가기
728x90
반응형

스터디/데이터사이언스88

[CS246] Bandits (4) - Thompson Sampling Thompson Sampling: Probability-Based Bandit Algorithm Thompson sampling은 각 행동이 최적인 확률에 비례하여 세션을 arm에 할당한다.결과분포는 집합 \( \{ 0, 1 \} \) 으로 가정한다.이는 각 행동은 성공($1$) 또는 실패($0$)를 의미한다.그리고 확률 \( \theta \) 로 동전을 던지면 이 동전은(동전의 결과는) 베르누이 분포를 따른다.그리고 \( \theta \)를 추정하기 위해 \( 0 \)과 \( 1 \)의 개수를 세어간다. \( k \)개의 arm이 있고, 각 arm의 파라미터를 \( \theta_i \)라 하자.즉 \( \boldsymbol{\theta} = ( \theta_1, \theta_2, \dots, \thet.. 2024. 10. 26.
Multiple Linear Regression (2) - Evaluation Multiple Linear Regression - Evaluation, Analysis 다중선형회귀 모델을 fitting하면 끝인가? 그렇지 않다.다중선형회귀 모델의 기본 가정을 위반하지 않는지 확인해야 한다.기본가정을 위반하지 않아야 unseen data에 대해서도 적절한 inference를 할 수 있다.그렇지 않으면 garbage value를 얻을 것이다. $R_{adj}^2$: 조정된 결정계수결정계수($R^2$)는 회귀모형이 주어진 데이터에 얼마나 잘 맞는지 평가하는 지표이다.종속변수의 변동성을 설명하는 독립변수의 비율을 의미한다.$0 \le R^2 \le 1$이며 값이 클 수혹 모델이 데이터를 잘 설명한다는 뜻이다.그러나 독립변수가 많아지면 이 식이 왜곡될 수 있다.$R^2$는 독립변수가 많아지.. 2024. 10. 14.
Multiple Linear Regression (1) - Modeling Multiple Linear Regression (다중선형회귀)Setupresponse variable $y$가 $k$개의 input variable $x_1, x_2, \dots, x_k$의 함수로 모델링한다고 하자. 즉\[ y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki} + \epsilon_i \] coefficient $\beta_0, \beta_1, \dots, \beta_k$는 unknown prameter이고 $\epsilon_i$는 $N(0, \sigma^2)$를 따르는 error term이다. $k=1$인 경우에는 이전에 설명한 단순선형회귀(simple linear regression)이라 한다.  $\mathbf{x} = (x_1, x.. 2024. 10. 12.
LG Aimers 4기 본선 해커톤 후기 (대회, 여담, 사진) LG Aimers 4: Hackathon, 인화원, Career, etc. 본선이 4/6~4/7 1박 2일동안 진행되었다.수상하지 못했지만 데이터 대회를 처음 참여한 것 치고 잘 한것 같아서 좋았고 또 아쉬웠다. 1. 온라인 교육1월 한달 동안 LG AI 연구원에서 국내 저명한 교수님들의 강의를 제공해주었다.원래 온라인 교육은 한달이지만, 온라인 해커톤(이하 예선)때도 참고할 수 있도록 2월까지 강의를 듣게 해주었다.강의주제는 다음과 같다.AI 윤리수학SVD를 설명하기 위한 선형대수Convex Optimization, 경사하강법PCA기계학습ML 기본 이론최근 LLM 연구 동향 및 성과 (GPT-4, Bard, PaLM, LLaMA)지도학습지도학습 개념선형회귀경사하강법, SGD선형분류기, softmaxSV.. 2024. 4. 10.
[CS246] Bandits (3) - UCB1 Algorithm UCB: Upper confidence sampling algorithm Confidence Intervalsconfidence interval(신뢰구간)은 특정 확률로 평균이 있다는 확신할 수 있는 값의 범위이다.단순 확률로 해석하기 어렵다. 필요하면 아래 신뢰구간(confidence interval)과 신용구간(credible interval)을 참고.https://trivia-starage.tistory.com/175 [Bayesian Learning] Frequentism vs BayesianismIntroduction to Bayesian 통계적 방법으로 빈도주의(frequentism)과 베이지안(bayesianism)이 있고 이 둘의 차이를 정리해보았다. 빈도주의 관점 (Frequentism).. 2024. 3. 6.
[CS246] Bandits (2) - Epsilon-Greedy Algorithm Epsilon-Greedy AlgorithmAlgorithmFor $t=1:T$ 동안 다음의 단계로 Explore/Exploit를 결정한다.$\epsilon_t = O(\frac{1}{t})$. $\epsilon_t$는 time $t$가 지날때마다 $1/t$로 감소한다$\epsilon_t$의 확률로 Explore: arm은 uniformly at random하게 선택하고, 선택된 arm을 탐색$1-\epsilon_t$의 확률로 Exploit: empirical mean이 가장 높은 arm을 선택한다. Auer et al. 에 따르면, 적절한 $\epsilon_t$를 고르면 다음이 성립한다고 한다.\[ R_T = O(k \log T) \Rightarrow \cfrac{R_T}{T} = O\left( \cf.. 2024. 2. 27.
728x90
반응형