I. 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기
1. 통계학의 정의
▶ 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
▶ 통계학은 관심 또는 연구의 대상이 되는 모집단(Population)으로 부터 자료를 수집, 정리, 요약을 하고, 표본(수집한자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
2. 통계학의 분류
2-1. 기술 통계학(Descriptive Statustics)
▶ 요약 통계량, 그래프, 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
▶ 표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함
2-2. 추론 통계학(Inference Statistics)
▶ 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로 부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법
▶ 점 추정, 구간 추정을 하거나 가설을 검정함
용어1) 모집단 : 관심의 대상이 되는 집단
용어2) 표본 : 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터
2-2-1. 가설(Hypothesis) 검정
▶ 추론을 할때 가장 많이 사용되는 기법
▶ 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
☞ "저 가설은 일단 기각할꺼야"라는 사람들이 널리 인정하고 있는 가설을 귀무가설로 지정해 놓고, 그 귀무 가설을 기각 시킴으로써, 귀무 가설의 반대 개념인 우리의 대립 가설을 사람들한테 납득 시키는 데 있다.
2-2-1-1. 귀무 가설(H0, 영 가설)
▶ 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설 (사람들이 널리 인정하고 있는 가설)
2-2-1-2. 대립 가설(H1, 연구 가설)
▶ 귀무 가설에 대립하는 명제.
▶ 귀무 가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있슴.
☞ 귀무 가설이 틀렸다고 해도, 귀무 가설이 100% 틀렸다는 뜻은 아니며, 대립 가설이 100% 맞다는 뜻도 아님.
P-Value(유의확률)값이 5% 미만이면 귀무 가설을 기각할 수 있기 때문에, 확률적으로 대립 가설이 높을 뿐임을 증명함. (선택된 표본이 신뢰구간(95%)외에 위치(5%미만)할 경우 귀무 가설은 기각되며, 대립 가설이 받아 들여짐.)
2-2-2. 가설 검정의 기준
2-2-2-1. p-value (유의 확률)
▶ 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인'통계치가 관측될 확률
▶ 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것
▶ 하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님
2-2-2-2. t-test
▶ 두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정
2-2-2-2-1. t-test의 시행 단계
▶ 적합한 t-test 방법을 선택하기 위한 F 검정 필요
변수(집단)선택 → F-검정 → t-test→ 결과 해석
1) F 검정
▶ 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
(p-value가 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없고, 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있다.)
f-검정의 귀무 가설
두 집단의 분산에 유의미한 차이가 없다. (p >= 유의수준)
f-검정의 대립 가설
두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)
2) '분산에 대한 두 집단'을 F-검정 시행
ex) F-검정시행 결과 'P(F<=f)단측 검정 '값이 '0.073401303' 일 경우와 같이
P값이 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없는 것으로 보고
→ 등분산 가정 t-test 를 진행 (귀무 가설이 우세)
ex) F-검정시행 결과 'P(F<=f)단측 검정' 값이 '0.073401303' 일 경우와 같이
P값이 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있는 것으로 보고
→ 이분산 가정 t-test 를 진행 (대립 가설이 우세)
F-검정은 두 집단의 분산 차이를 검정해
각 상황에 맞는 t-test 방법을 선정하기 위해 사용
3) t-test 검정
▶ 두 집단의 평균에 통계적으로 유의미한 차이가 있는지를 검정
(p-value가 0.05보다 크면 두 집단의 평균에 유의미한 차이가 없고, 0.05보다 작으면 두 집단의 평균에 유의미한 차이가 있다.)
t-test의 귀무 가설
두 집단의 평균에 유의미한 차이가 없다. (p >= 유의수준)
t-test의 대립 가설
두 집단의 평균에 유의미한 차이가 있다. (p < 유의수준)
4) '등분산 가정 두 집단'을 t-test 검정 시행
ex) '등분산 가정 두 집단'의 't-검정'시행 결과 'P(T<=t)양측 검정' 값이 '0.343888632' 일 경우와 같이
→ P값이 0.05보다 크면 두 집단의 평균에 유의미한 차이가 없음.
5) '이분산 가정 두 집단'을 t-test 검정 시행
ex) '이분산 가정 두 집단'의 't-검정'시행 결과 'P(T<=t)양측 검정' 값이 '0.028381631' 일 경우와 같이
→ P값이 0.05보다 작으면 두 집단의 평균에 유의미한 차이가 있음.
2-2-3. 회귀 분석의 개념
▶ 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석
1) 목적 : 두 변수(독립 변수, 종속 변수) 간의 관계를 파악하고 미래 값을 예측
y = a x + b
종속변수 독립변수
(알아야 할 값) (알고 있는 값)
▶ 두 변수 간의 관계를 파악해 우리가 알고 싶은 값을 예측하는 것
2-2-3-1. 회귀 분석의 종류
1) 선형 회귀 분석 : 함수식이 선형 함수 식일때
1-1) 단순형 회귀 분석 : 독립 변수(x)가 한 개일때
1-2) 다중 선형 회귀 분석 : 독립 변수(x)가 여러 개일때
2) 비선형 회귀 분석 : 함수식이 선형 함수 식이 아닐 때
2-2-4. 시계열 데이터 분석
▶ 시간의 흐름에 따라 발생된 데이터를 분석하는 기법
(시간을 이어 늘어뜨린 데이터 / 시간의 흐름에 따라 정리한 데이터)
2-2-4-1. 시계열 데이터의 유형
▶ 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질
1) 정상 시계열 데이터 : 그래프상 일정한 패턴이 존재
2) 비정상 시계열 데이터 : 그래프상 일정한 패턴이 없음
'데이터 분석 (DA)' 카테고리의 다른 글
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 9주차 (DA_MySQL) (0) | 2025.02.14 |
---|---|
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 8주차 (DA_MySQL) (0) | 2025.02.06 |
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 4주차 (DA_Python) (0) | 2025.01.12 |
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 3주차 (DA_Python) (0) | 2025.01.04 |
[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 1주차 (DA_Excel, Statistics) (2) | 2024.12.22 |