TBEC-병선쌤

상관분석, t-검정, 분산분석, 회귀분석, 요인분석, 효과크기 지표, 회귀방정식(SEM) 본문

연구/논문 읽기

상관분석, t-검정, 분산분석, 회귀분석, 요인분석, 효과크기 지표, 회귀방정식(SEM)

영감을 주는 병선쌤 2026. 3. 23. 11:46

오늘의 통계 공부 일지: 기초를 넘어 구조방정식까지

지난번 변수와 기본 지표 정리에 이어, 오늘은 더 깊은 인과관계의 지도를 그려봅니다.

 

지난 포스팅에서 변수의 개념과 M, SD, t, p값 같은 기초적인 통계 지표들을 살펴봤는데요. 오늘은 그보다 한 걸음 더 나아가, 실제 논문의 몸통을 구성하는 분석 기법들과 결과의 실질적 위력을 보여주는 효과 크기에 대해 제가 공부한 내용을 정리해 보았습니다. 여전히 영어 원서 다독(Extensive Reading)이라는 주제를 예시로 삼아 복습해 볼게요.

1. 통계의 기초 체력: 관계와 차이 이해하기

데이터가 가진 기본적인 연결 고리와 집단 간의 차이를 더 깊게 파악하는 단계입니다.

가. 상관분석(Correlation Analysis): 둘이 얼마나 친해?

두 변수가 서로 얼마나 밀접하게 관련되어 있는지를 수치로 확인하는 방법입니다. 한 변수가 변할 때 다른 변수가 어떻게 변하는지 연관성만 확인하며, 직접적인 인과관계를 의미하지는 않는다는 점이 포인트입니다.

💡 예시: 영어 단어를 많이 아는 학생일수록 원서를 읽는 속도도 빠를까? 만약 r=0.6이 나왔다면, 어휘력이 풍부할수록 읽기 속도가 빨라지는 경향이 꽤 뚜렷하다고 볼 수 있습니다.

나. T-검정(T-test): 두 집단이 정말 다를까?

두 집단의 평균 점수 차이가 단순한 운인지, 아니면 통계적으로 의미가 있는 진짜 차이인지 확인하는 분석입니다. 지난번에 배운 것처럼 비교하려는 집단이 딱 2개일 때 사용합니다.

❓ T-검정에서 T는 무엇을 의미할까?

T는 특별한 단어의 약자가 아닙니다. 이 검정법을 만든 윌리엄 고셋이 당시 회사 규정상 본명을 쓸 수 없어 사용한 필명이 Student였고, 그가 정립한 분포가 바로 t-분포입니다. t값은 쉽게 말해 내가 찾은 신호(평균 차이)를 잡음(데이터의 변동성)으로 나눈 값입니다. t가 클수록 잡음을 뚫고 나온 차이가 선명하다는 뜻이죠!

💡 예시: 원서 읽기 클럽에 참여한 그룹의 평균 점수가 80점, 참여하지 않은 그룹이 70점일 때, t값이 2.0 이상으로 충분히 크다면 이 10점 차이는 진짜 클럽 활동의 효과라고 볼 수 있습니다.

다. 분산분석(ANOVA, Analysis of Variance): 세 집단 이상일 땐?

Analysis of Variance의 줄임말로, 집단이 3개 이상일 때 사용합니다. 세 그룹 중 어디선가는 유의미한 차이가 있는지 전반적인 상태를 훑어주는 분석입니다.

💡 예시: 독서 시간 없음, 30분 미만, 30분 이상인 세 그룹의 영어 성적을 비교하여, 독서량에 따라 실력 차이가 발생하는지 한꺼번에 확인합니다.

2. 본격적인 인과관계: 회귀분석 vs 요인분석

단순한 차이 비교를 넘어 현상의 원인을 찾거나 개념을 정립할 때 쓰는 방법들입니다.

가. 회귀분석(Regression Analysis): 원인과 결과의 힘

어떤 변수가 다른 변수에 얼마나 영향을 주는지 수치화합니다. 독립변수(X)가 1만큼 변할 때 종속변수(Y)가 얼마나 변하는지 그 무게를 잽니다.

현실 적용: 하루 독서 시간을 10분 늘리면 영어 점수가 평균적으로 5점 상승한다는 예측 모델을 만들 수 있습니다.

나. 요인분석(Factor Analysis): 보이지 않는 마음 찾기

여러 문항을 던져서 결국 이 응답자들이 공통적으로 말하고자 하는 핵심 개념이 무엇인지 묶어주는 과정입니다.

현실 적용: 책 읽는 게 즐겁다, 도서관이 편안하다라는 여러 응답을 분석하여 독서 태도라는 하나의 개념으로 정리합니다.

3. 통계의 꽃, 구조방정식(SEM) 복습

구조방정식은 앞서 배운 요인분석(측정 모델)과 회귀분석(구조 모델)을 결합한 통합 기법입니다. 추상적인 개념들 사이의 복잡한 인과지도를 그리는 데 아주 효과적이죠.

💡 공부하며 깨달은 구조방정식의 강점

1) 잠재변수의 활용: 직접 잴 수 없는 독서 흥미 같은 개념을 변수로 쓸 수 있습니다.

2) 측정 오차의 통제: 설문 응답 과정의 사소한 실수를 걸러내 순수한 영향력만 계산해 줍니다.

3) 복잡한 경로 분석: 다독 -> 어휘력 -> 성적의 전체 흐름을 한꺼번에 검증합니다.

4. 실질적인 의미: 효과 크기(Effect Size) 지표들

단순히 p값이 0.05보다 작다고 해서 결과가 대단한 게 아니라는 사실을 알게 되었습니다. 실제 그 효과가 얼마나 강력한가를 말해주는 효과 크기가 진짜 핵심이었습니다. 여러 예시를 통해 다시 한번 정리해 볼게요.

🔍 r=0.5가 크다는 기준은 어디서 왔을까?

통계학자 제이콥 코헨(Jacob Cohen)은 사회과학 연구들을 분석해 관례적인 기준을 제시했습니다. r=0.1은 작음(Small), r=0.3은 중간(Medium), r=0.5 이상은 큼(Large)으로 봅니다. r=0.7이라면 설명력이 무려 49%($r^2$)에 달하기 때문에 교육 현장에서는 거의 운명공동체 수준의 강력한 신호로 받아들여집니다.

✔ 상관계수 r

두 변수가 얼마나 끈끈하게 연결되어 있는지를 보여줍니다.

[예시 1] r=0.7이라면, 원서 독서량과 영어 성적은 거의 운명을 같이 하는 수준의 아주 강한 관계라고 해석할 수 있습니다.

[예시 2] r=0.4라면, AI 챗봇과의 대화 횟수가 늘어날 때 말하기 자신감이 어느 정도 비례해서 높아지는 적절한 관계를 의미합니다.

✔ 에타제곱 η²

독립변수가 결과의 차이를 몇 퍼센트나 책임지고 있는지 설명해 줍니다.

[예시 1] η²=0.25라면, 학생들의 성적 차이 중 25%는 오로지 독서 방법의 차이 때문에 발생했다는 아주 높은 설명력을 의미합니다.

[예시 2] η²=0.10이라면, 수업 방식(대면 vs 비대면)이 학습 몰입도 차이의 10%를 결정한다는 뜻으로, 교육 현장에서 충분히 주목할 만한 수치입니다.

✔ 코헨의 d

평균 차이를 표준편차 단위로 보여줍니다. 0.8이 넘으면 누가 봐도 큰 효과입니다.

[예시 1] d=0.8이라면, 독서 클럽 학생들의 평균 성적이 일반 학생들보다 약 표준편차의 0.8배만큼 앞에 있다는 뜻입니다. 이는 독서 클럽 상위 학생이 대조군의 약 79%보다 더 나은 성적을 보일 정도로 확연한 차이입니다.

[예시 2] d=0.5라면, VR 기기를 활용한 영단어 암기 그룹이 일반 텍스트 그룹보다 중간 정도(Medium)의 뚜렷한 실력 우위를 점하고 있음을 의미합니다.

✔ 코헨의 f

ANOVA에서 쓰이며, f=0.436이면 d로 환산 시 약 0.87로 대단히 큰 효과임을 뜻합니다.

[예시 1] 세 그룹 이상의 평균을 비교할 때 f=0.40 이상이 나왔다면, 그룹 간의 차이가 데이터 전체의 흔들림을 압도할 만큼 강력하다는 현장의 신호로 받아들여집니다.

[예시 2] 세 가지 다른 피드백 유형(칭찬 위주, 교정 위주, 혼합형)에 따른 학습 만족도를 비교했을 때 f=0.30 정도가 나왔다면, 피드백 방식에 따라 학생들의 만족도가 꽤 확실하게 갈린다는 것을 시사합니다.

오늘 공부는 여기서 마칩니다. 하나씩 정리해 보니 복잡했던 통계 지도가 조금씩 그려지는 것 같네요! 

2026.03.17 - [연구/논문 읽기] - 논문 데이터로 보는 통계 수치의 비밀(M, SD, t, p)

 

논문 데이터로 보는 통계 수치의 비밀(M, SD, t, p)

논문을 읽다 보면 보이는 통계 수치들이 있습니다. 각종 알파벳으로 이뤄진 암호 같은 통계 수치들... 한번 살펴보도록 하겠습니다. 1. 집단의 점수 분포 확인하기 (M, SD)먼저 집단이 전반적으로

www.tbec.kr

 

2026.03.17 - [연구/논문 읽기] - 독립, 종속, 조절, 통제 변인의 이해

 

독립, 종속, 조절, 통제 변인의 이해

논문을 읽으며 필요한 개념 몇가지를 정리하려고 합니다. 자세히 들여다보지 않으면 헷갈리는 '변인'들의 개념에 대해 정의해보고 이를 깊이 이해할 수 있는 방법을 AI의 도움을 받아 개념을 완

www.tbec.kr

 

통계 복습 퀴즈 로딩 중...