TBEC-병선쌤

상관분석, t-검정, 분산분석, 회귀분석, 요인분석, 효과크기 지표, 회귀방정식(SEM) 본문

연구/논문 읽기

상관분석, t-검정, 분산분석, 회귀분석, 요인분석, 효과크기 지표, 회귀방정식(SEM)

영감을 주는 병선쌤 2026. 3. 23. 11:46

기본 지표를 넘어 데이터 속 숨겨진 인과관계와 실질적 영향력을 분석해 봅니다.

지난 포스팅에서 변수의 개념과 M, SD, t, p값 같은 기초적인 통계 지표들을 살펴봤는데요. 오늘은 그보다 한 걸음 더 나아가, 실제 논문의 몸통을 구성하는 분석 기법들과 결과의 실질적 위력을 보여주는 효과 크기에 대해 제가 공부한 내용을 정리해 보았습니다. 여전히 영어 원서 다독(Extensive Reading)이라는 주제를 예시로 삼아 복습해 볼게요.

1. 통계의 기초 체력: 관계와 차이 이해하기

데이터가 가진 기본적인 연결 고리와 집단 간의 차이를 더 깊게 파악하는 단계입니다.

가. 상관분석(Correlation Analysis): 둘이 얼마나 친해?

두 변수가 서로 얼마나 밀접하게 관련되어 있는지를 수치로 확인하는 방법입니다. 한 변수가 변할 때 다른 변수가 어떻게 변하는지 연관성만 확인하며, 직접적인 인과관계를 의미하지는 않는다는 점이 포인트입니다.

💡 예시: 영어 단어를 많이 아는 학생일수록 원서를 읽는 속도도 빠를까? 만약 r=0.6이 나왔다면, 어휘력이 풍부할수록 읽기 속도가 빨라지는 경향이 꽤 뚜렷하다고 볼 수 있습니다.

나. T-검정(T-test): 두 집단이 정말 다를까?

두 집단의 평균 점수 차이가 단순한 운인지, 아니면 통계적으로 의미가 있는 진짜 차이인지 확인하는 분석입니다. 지난번에 배운 것처럼 비교하려는 집단이 딱 2개일 때 사용합니다.

❓ T-검정에서 T는 무엇을 의미할까?

T는 특별한 단어의 약자가 아닙니다. 이 검정법을 만든 윌리엄 고셋이 당시 회사 규정상 본명을 쓸 수 없어 사용한 필명이 Student였고, 그가 정립한 분포가 바로 t-분포입니다. t값은 쉽게 말해 내가 찾은 신호(평균 차이)를 잡음(데이터의 변동성)으로 나눈 값입니다. t가 클수록 잡음을 뚫고 나온 차이가 선명하다는 뜻이죠!

💡 예시: 원서 읽기 클럽에 참여한 그룹의 평균 점수가 80점, 참여하지 않은 그룹이 70점일 때, t값이 2.0 이상으로 충분히 크다면 이 10점 차이는 진짜 클럽 활동의 효과라고 볼 수 있습니다.

다. 분산분석(ANOVA, Analysis of Variance): 세 집단 이상일 땐?

Analysis of Variance의 줄임말로, 집단이 3개 이상일 때 사용합니다. 세 그룹 중 어디선가는 유의미한 차이가 있는지 전반적인 상태를 훑어주는 분석입니다.

💡 예시: 독서 시간 없음, 30분 미만, 30분 이상인 세 그룹의 영어 성적을 비교하여, 독서량에 따라 실력 차이가 발생하는지 한꺼번에 확인합니다.

2. 본격적인 인과관계: 회귀분석 vs 요인분석

단순한 차이 비교를 넘어 현상의 원인을 찾거나 개념을 정립할 때 쓰는 방법들입니다. 인과지도를 그리는 핵심 도구들이죠.

가. 회귀분석(Regression Analysis): 원인과 결과의 힘

어떤 변수가 다른 변수에 얼마나 영향을 주는지 수치화합니다. 독립변수(X)가 1만큼 변할 때 종속변수(Y)가 얼마나 강력하게 예측되는지 그 무게를 잽니다.

현실 적용: 하루 독서 시간을 10분 늘리면 영어 점수가 평균적으로 5점 상승한다는 예측 모델을 만들 수 있습니다.

나. 요인분석(Factor Analysis): 보이지 않는 마음 찾기

동기나 태도처럼 눈에 보이지 않는 마음을 숫자로 바꾸는 과정입니다. 여러 질문을 던져서 결국 이 응답자들이 공통적으로 말하고자 하는 핵심 개념이 무엇인지 묶어주는 과정이라고 이해했습니다.

현실 적용: '나는 영어책이 좋다', '도서관에 자주 간다'는 여러 문항을 분석하여 '독서 흥미'라는 하나의 개념으로 정리함.

3. 통계의 꽃, 구조방정식(SEM) 복습

구조방정식(Structural Equation Modeling)은 앞서 배운 요인분석(측정 모델)과 회귀분석(구조 모델)을 결합한 통합 기법입니다. 공부를 해보니 단순히 두 기법을 합친 것 이상의 정교함이 있더라고요.

📘 구조방정식의 핵심 개념 정리

1) 두 개의 기둥: 측정 모델과 구조 모델

  • 측정 모델 (Measurement Model): 설문 문항들이 내가 의도한 개념(잠재변수)을 얼마나 잘 설명하는지 확인합니다. 확인적 요인분석(CFA)을 통해 "이 문항들이 정말 '독서 흥미'를 측정하는 게 맞나?"를 검증하는 단계입니다.
  • 구조 모델 (Structural Model): 이렇게 검증된 개념들 사이의 인과관계를 확인합니다. "독서 흥미가 높으면 정말 어휘력이 늘어날까?"와 같은 연구 가설을 경로(Path)를 통해 검증하는 단계입니다.

2) 변수의 종류: 잠재변수 vs 측정변수

  • 잠재변수 (Latent Variable): 직접 관찰하거나 측정할 수 없는 추상적 개념입니다. 보통 그림에서는 타원(동그라미)으로 그립니다.
  • 측정변수 (Observed Variable): 잠재변수를 측정하기 위해 실제 설문한 문항 값입니다. 그림에서는 사각형(네모)으로 표시합니다.

3) 모델 적합도 (Model Fit)

구조방정식에서는 내가 세운 모델이 실제 데이터와 얼마나 일치하는지 확인하는 과정이 필수적입니다. CFI, TLI, RMSEA 같은 지수들을 확인하여 "이 지도가 실제 지형과 얼마나 잘 맞는가"를 판정하게 됩니다.

💡 공부하며 깨달은 구조방정식의 진짜 강점

1) 잠재변수의 활용: 직접 잴 수 없는 독서 흥미 같은 개념을 변수로 쓸 수 있어 교육학 연구에 최적화되어 있습니다.

2) 측정 오차의 통제: 설문 응답 과정의 사소한 실수를 별도의 오차항으로 분리해내어, 개념 간의 순수한 영향력만 계산해 줍니다.

3) 복잡한 경로 분석: 다독 -> 어휘력 -> 성적의 전체 흐름에서 발생하는 매개 효과를 한꺼번에 검증할 수 있어 연구의 깊이가 달라집니다.

4. 실질적인 의미: 효과 크기(Effect Size) 지표들

공부하다 보니 단순히 p값이 0.05보다 작다고 해서 결과가 대단한 게 아니라는 걸 알게 되었습니다. 실제 그 효과가 얼마나 강력한가를 말해주는 효과 크기가 진짜 핵심이었습니다. 여러 예시를 통해 다시 한번 정리해 볼게요.

🔍 r=0.5가 크다는 기준은 어디서 왔을까?

통계학자 제이콥 코헨(Jacob Cohen)은 사회과학 연구들을 분석해 관례적인 기준을 제시했습니다. r=0.1은 작음(Small), r=0.3은 중간(Medium), r=0.5 이상은 큼(Large)으로 봅니다. r=0.7이라면 설명력이 무려 49%($r^2$)에 달하기 때문에 교육 현장에서는 거의 운명공동체 수준의 강력한 신호로 받아들여집니다.

✔ 상관계수 r

두 변수가 얼마나 끈끈하게 연결되어 있는지를 보여줍니다.

[예시 1] r=0.7이라면, 원서 독서량과 영어 성적은 거의 운명을 같이 하는 수준의 아주 강한 관계라고 해석할 수 있습니다.

[예시 2] r=0.4라면, AI 챗봇과의 대화 횟수가 늘어날 때 말하기 자신감이 어느 정도 비례해서 높아지는 적절한 관계를 의미합니다.

✔ 에타제곱 η²

독립변수가 결과의 차이를 몇 퍼센트나 책임지고 있는지 설명해 줍니다.

[예시 1] η²=0.25라면, 학생들의 성적 차이 중 25%는 오로지 독서 방법의 차이 때문에 발생했다는 아주 높은 설명력을 의미합니다.

[예시 2] η²=0.10이라면, 수업 방식(대면 vs 비대면)이 학습 몰입도 차이의 10%를 결정한다는 뜻으로, 교육 현장에서 충분히 주목할 만한 수치입니다.

✔ 코헨의 d

평균 차이를 표준편차 단위로 보여줍니다. 0.8이 넘으면 누가 봐도 큰 효과입니다.

[예시 1] d=0.8이라면, 독서 클럽 학생들의 평균 성적이 일반 학생들보다 약 표준편차의 0.8배만큼 앞에 있다는 뜻입니다. 이는 독서 클럽 상위 학생이 대조군의 약 79%보다 더 나은 성적을 보일 정도로 확연한 차이입니다.

[예시 2] d=0.5라면, VR 기기를 활용한 영단어 암기 그룹이 일반 텍스트 그룹보다 중간 정도(Medium)의 뚜렷한 실력 우위를 점하고 있음을 의미합니다.

✔ 코헨의 f

ANOVA에서 쓰이며, f=0.436이면 d로 환산 시 약 0.87로 대단히 큰 효과임을 뜻합니다.

[예시 1] 세 그룹 이상의 평균을 비교할 때 f=0.40 이상이 나왔다면, 그룹 간의 차이가 데이터 전체의 흔들림을 압도할 만큼 강력하다는 현장의 신호로 받아들여집니다.

[예시 2] 세 가지 다른 피드백 유형(칭찬 위주, 교정 위주, 혼합형)에 따른 학습 만족도를 비교했을 때 f=0.30 정도가 나왔다면, 피드백 방식에 따라 학생들의 만족도가 꽤 확실하게 갈린다는 것을 시사합니다.

오늘 공부는 여기서 마칩니다. 하나씩 정리해 보니 복잡했던 통계 지도가 조금씩 그려지는 것 같네요! 다음에도 더 유익한 리뷰로 찾아오겠습니다.

통계 복습 퀴즈 로딩 중...