본문 바로가기
스터디/데이터사이언스

데이터분석 전문가 (ADP) 필기 합격 후기 (36회)

by 궁금한 준이 2026. 3. 7.
728x90
반응형

ADP (데이터 분석 전문가) 필기 합격 후기 (36회)

36회 점수 결과 (필기)

기본 정보

컴퓨터공학 학사, 데이터사이언스 석사

공백기를 더이상 늘일수없어서 공백기 방어해보고자 ADP 응시를 마음먹었다. 

(그리고 머리가 싱싱할때 실기 합격을 하고싶었다)

 

시험접수할땐 백수였는데, 시험 응시할때는 인턴중이었다.

 

필기 공부 방법

자격증에 공부 방법이 있는가 싶지만...

내가 이쪽 전공이고 공부를 많이 하긴 했지만...

그럼에도 날먹하고싶었다

하지만 ADsP, 빅분기에 비해 인터넷에 돌아다니는 정보가 없어서 곤란했다.

빅분기 시험때 교재 오개념/오탈자/성의없는문제 등에 데여서 책을 사고 싶지 않았지만...

어쩔수 없이 파랭이 책을 구입했다.

그래도 파랭이 책은 이론 설명도 충실하고, 모의고사, 기출문제 복원도 성의있게 있어서 다행이었다.

특히 내가 제일 모르는 2단원 데이터처리기술은 이 책이 도움이 되었다.

데이터 엔지니어, IT인프라 내용이 많아서 힘들었는데 그만큼 내가 모르는 거니까

(통계, 데이터마이닝에는 안그랬는데 딥러닝 관련해서는 오개념이 있긴 했다)

 

오픈카톡방, 네이버카페도 들어가봤는데 별로 도움은 안됐다. 

(스터디 모집해서 같이 공부하는 건 좋아보였다)

시험 후기

너무 추운 날씨.

시험장에 절반정도는 응시하지 않았다.

1시간이 되니까 먼저 제출하고 나가시는 분도 2명정도 있었다.

시험지 파본확인으로 서술형을 봤는데 주성분분석(PCA)가 나와서 살짝 당황했다.

보통 예측 모델 위주로 나왔던거같은데 (로지스틱, 선형, MLP, 그리고 저번엔 1D-CNN이 나왔다고 그러던데)

그래도 나이브베이즈보단 낫지

그래서 그런지 4단원에 PCA 내용은 못 본거 같았다. 

 

객관식은 무난했던거같았다. 

4단원에서 헷갈리는 선지는 없었던것 같은데 생각보다 점수가 낮았다 (시계열이랑 연관규칙 쪽인가?)

 

 

서술형: 주성분분석(PCA) 손으로 계산

각 열은 국어, 수학, 영어 점수의 증감이고, 각 행은 학생이다.

문제에서 평균화를 하지 않아도 된다고 했는데, 사실 평균을 계산해보면 이미 centering이 된 데이터임을 확인할 수 있다. (이미 각 열의 평균이 0임)

 

(1) 공분산은 $\text{Cov}(X_i, X_j) = E[X_i X_j] - E[X_i]E[X_j]$ 식을 이용해서 풀었다.

나머지를 못풀어도 (1)은 통계라서 3점을 얻을 수 있었다.

(2) - (5)

PCA 식이 기억이 안나서... 처음에 백지로 내고 재시험 각을 보려다가...

문제에 "엄밀한 증명은 하지 않아도됨" 이런 문구가 있어서 부분점수 노리려고 PCA의 주성분 벡터를 눈으로 계산하자(!?)로 방향을 잡았다. (시험 끝나고 다시 공식보고 제대로 풀었더니 다행이 맞았음)

마음의 눈으로 바라보면(?) 처음 2x2 행렬과 마지막 세번째 축이 분리되어서 PC3 = x3이고,

2x2 행렬 블록에서 변동이 가장 큰 쪽은 x1과 x2이고 1열과 2열의 숫자 순서만 다르므로 

PC1 = x1 + x2, PC2 = -x1 + x2

그리고 나머지 분산은 3열에만 해당되므로 PC3 = x3 이라고 주장했다

(당연히 이렇게 풀면 안된다)

(그래도 3x3 공분산행렬은 답안지에 썼다, 부분 점수 영끌을 위해)

 

 

원래 풀이:

표본공분산을 구해야하므로 

\[ \Sigma = \cfrac{1}{n-1} X^\top X \]

를 계산하면 된다. 그런데 (1)에 이미 $\text{Cov}(X_3, X_1)=0, \text{Cov}(X_3, X_2)=0$을 보였으므로 행렬 곱셈 없이 이미 각 엔트리를 계산할 수 있다. 게다가 표본공분산 행렬은 대칭이므로 금방 채울 수 있다.

\[ \Sigma = \begin{bmatrix} * & * & 0 \\ * & * & 0 \\ 0 & 0 & * \end{bmatrix} \]

(구체적인 문제 복원은 문제가 될 것 같아서 가림)

 

이 3x3 행렬에서 특성방정식을 풀어서 고윳값을 먼저 구하면 $\lambda_1 = * $, $\lambda_2 = * $, $\lambda_3= * $

그리고 $(\Sigma - \lambda_i I)v_i = 0$를 만족하는 $v_i$를 구하면 고유벡터이다.

$v_1 = \frac{1}{\sqrt{2}}[1, 1, 0]^\top$, $v_2 = \frac{1}{\sqrt{2}}[-1, 1, 0]^\top$, $v_3 = [0, 0, 1]^\top$

(일반적으로 고유벡터 크기를 1로 정규화함)

(방향만 똑같으면 되므로 수학적으로 $v_2 = \frac{1}{\sqrt{2}}[1, -1, 0]^\top$ 이렇게 써도 됨)

따라서 $\text{PC1} = v_1$, $\text{PC2} = v_2$, $\text{PC3} = v_3$

 

2개의 주성분으로 설명되는 분산은 $(\lambda_1 + \lambda_2)/(\lambda_1 + \lambda_2 + \lambda_3) \approx 0.99$ 이다.

 

점수를 보고 난 후:

"표본"공분산이라서 (n-1)을 해야하는데 n으로 나눠서 여러가지로 감점이 된 것 같았다.

그리고 로딩(loading)이 무엇을 의미하는지 몰라서 그 부분을 분산 크기로 해서 감점이 된 것 같았다.

그래도 주성분을 찍기로 한 것 치고 잘 구해서 운좋게 반타작 했다.

 

팁? (언제까지 유효할지 알 수 없음)

파랭이 책을 펼쳐보면 중간 사이드에 네모 박스로 "XX는 시험에 자주 출제되니 알아두세요"가 있는데, 이거 확실히 마지막 벼락치기 할때 도움이 되었다. 

 

네이버 카페를 보면 스터디원을 구해서 하는데 강제성을 가지는건 언제나 좋다.

스터디할때 필기나 내용정리에 매몰되어서 정작 암기를 못하는 불상사만 나지 않아야겠다.

 

1단원 - ADsP, 빅분기에도 있는 내용.

데이터사이언스 역량으로 하드스킬이나 소프트스킬에 매몰되면 오답이다. 무조건 둘다 잘해야한다.

빅데이터 특징, 비식별화, 형식지와 암묵지, DIKW, 빅데이터 변화(특히 인과=>상관관계), 위기요인 주제마다 한문제씩 나온 것 같다.

왠지 데이터 많으면 인과관계 잘 설명할 수 있을 것 같지만 아니다 (실제로 인과관계 찾기가 더 힘들다)

 

2단원 - 4문제 정도는 오픈소스인 하둡계열 위주로 출제된 것 같았다.

실무 경험이 없어서 공부할때 그게 그거 같았지만, 그래도 목적에 맞는 툴 이름은 외워야한다.

정형 용도인지, 비정형 용도인지, 메모리 기반인지, 파일 기반인지 등

시험장에서 문제 은행같은 느낌이 많이 드는 단원 (파랭이 책에 몇개는 그대로 시험장에 나왔다)

 

3단원 - 여기는 ADsP, 빅분기에도 있는 내용. 

 

4단원 - ADP 응시자라면 금방 익힐 수 있을 것 같다.

딥러닝, 생성형AI를 실무에 도입된지 꽤 됐는데 올드해보일 수 있지만 통계 기초 다진다는 마인드.

그렇다고 수리통계보다사 쉬운 통계이기도 하고, 헷갈리는 표본추출(샘플링), 가설검정 확실히 하자.

선형회귀, 로지스틱, 변수선택 등 R코드 해석 방법은 충분히 익히기

특히 회귀 변수 해석할때 상관성이 높은거지 인과관계는 아님!

시계열 내용이 좀 부실한데 나오는 문제는 좀 정해진 것 같다.

 

5단원 - 쉽다고 생각했는데 의외의 복병이 있음.

분량이 많은 것에 비해 내용은 쉬우니 먼저 공부해도 될 듯하다.

 

서술형 - PCA도 이제 서술형 나오는 것을 보니 앞으로는 아무거나 막 낼 것 같다.

예전에는 데이너 마이닝이나 예측 모델 계산이었던 거 같은데?

엄연히 딥러닝과 텍스트 마이닝도 시험범위이므로 셀프-어텐션 계산도 시키려나...?

PCA는 원래 R코드 해석으로 많이 나왔는데, 4단원 R코드 해석 문제에서 서술형으로 만들만한 문제가 있을지도 모르겠다.

 

바로 이어지느 36회 실기에는 응시하지 않을 것 같다....

상반기에는 전환형 인턴에 집중하고 나중에 전환 여부에 따라 37회나 38회 실기에 응시할 것 같다.

728x90
반응형