본문 바로가기

데이터 분석 (DA)

[패스트캠퍼스] 데이터 분석 부트캠프 17기 - 2주차 (DA_Statistics)

I. 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기

  1. 통계학의 정의

    ▶ 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야

    ▶ 통계학은 관심 또는 연구의 대상이 되는 모집단(Population)으로 부터 자료를 수집, 정리, 요약을 하고, 표본(수집한자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

 

  2. 통계학의 분류

    2-1. 기술 통계학(Descriptive Statustics)

      ▶  요약 통계량, 그래프, 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법

      ▶  표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함

 

    2-2. 추론 통계학(Inference Statistics)

      ▶ 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로 부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법

      ▶ 점 추정, 구간 추정을 하거나 가설을 검정함

  

        용어1) 모집단 : 관심의 대상이 되는 집단

        용어2) 표본 : 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터

 

      2-2-1. 가설(Hypothesis) 검정

        ▶ 추론을 할때 가장 많이 사용되는 기법

        ▶ 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

 

          ☞ "저 가설은 일단 기각할꺼야"라는 사람들이 널리 인정하고 있는 가설을 귀무가설로 지정해 놓고, 그 귀무 가설을 기각 시킴으로써, 귀무 가설의 반대 개념인 우리의 대립 가설을 사람들한테 납득 시키는 데 있다.

 

        2-2-1-1. 귀무 가설(H0, 영 가설)

          기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설 (사람들이 널리 인정하고 있는 가설)

 

        2-2-1-2. 대립 가설(H1, 연구 가설)

          귀무 가설에 대립하는 명제. 

           귀무 가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있슴.

 

          ☞ 귀무 가설이 틀렸다고 해도, 귀무 가설이 100% 틀렸다는 뜻은 아니며, 대립 가설이 100% 맞다는 뜻도 아님.

               P-Value(유의확률)값이 5% 미만이면 귀무 가설을 기각할 수 있기 때문에, 확률적으로 대립 가설이 높을 뿐임을 증명함. (선택된 표본이 신뢰구간(95%)외에 위치(5%미만)할 경우 귀무 가설은 기각되며, 대립 가설이 받아 들여짐.)

 

      2-2-2. 가설 검정의 기준

        2-2-2-1. p-value (유의 확률)

          ▶ 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인'통계치가 관측될 확률

           관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것

           하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님

 

        2-2-2-2. t-test

           두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

 

 

          2-2-2-2-1. t-test의 시행 단계

             적합한 t-test 방법을 선택하기 위한 F 검정 필요

 

                  변수(집단)선택  →  F-검정 →  t-test→  결과 해석

 

 

             1) F 검정

               ▶ 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

                   (p-value가 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없고, 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있다.)

 

                  f-검정의 귀무 가설

                  두 집단의 분산에 유의미한 차이가 없다. (p >= 유의수준)

                  f-검정의 대립 가설

                  두 집단의 분산에 유의미한 차이가 있다. (p < 유의수준)

 

             2) '분산에 대한 두 집단'을 F-검정 시행

                

                ex) F-검정시행 결과 'P(F<=f)단측 검정 '값이 '0.073401303' 일 경우와 같이

 

                P값이 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없는 것으로 보고

                → 등분산 가정 t-test 를 진행 (귀무 가설이 우세)

 

                ex) F-검정시행 결과 'P(F<=f)단측 검정' 값이 '0.073401303' 일 경우와 같이

 

                P값이 0.05보다 작으면 두 집단의 분산에 유의미한 차이가 있는 것으로 보고

                → 이분산 가정 t-test 를 진행 (대립 가설이 우세)

   

 

                       F-검정은 두 집단의 분산 차이를 검정해 

                       각 상황에 맞는 t-test 방법을 선정하기 위해 사용

 

             3) t-test 검정

               ▶ 두 집단의 평균에 통계적으로 유의미한 차이가 있는지를 검정

                   (p-value가 0.05보다 크면 두 집단의 평균에 유의미한 차이가 없고, 0.05보다 작으면 두 집단의 평균에 유의미한 차이가 있다.)

 

                  t-test의 귀무 가설

                  두 집단의 평균에 유의미한 차이가 없다. (p >= 유의수준)

                  t-test의 대립 가설

                  두 집단의 평균에 유의미한 차이가 있다. (p < 유의수준)

 

             4) '등분산 가정 두 집단'을 t-test 검정 시행

 

                ex) '등분산 가정 두 집단'의 't-검정'시행 결과 'P(T<=t)양측 검정' 값이 '0.343888632' 일 경우와 같이

 

                  P값이 0.05보다 크면 두 집단의 평균에 유의미한 차이가 없음.

 

             5) '이분산 가정 두 집단'을 t-test 검정 시행

 

                ex) '이분산 가정 두 집단'의 't-검정'시행 결과 'P(T<=t)양측 검정' 값이 '0.028381631' 일 경우와 같이

 

                →  P값이 0.05보다 작으면 두 집단의 평균에 유의미한 차이가 있음.

 

 

 

      2-2-3. 회귀 분석의 개념

        ▶ 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

        1) 목적 : 두 변수(독립 변수, 종속 변수) 간의 관계를 파악하고 미래 값을 예측

                  y         =         a   x      +     b    

                종속변수                    독립변수

           (알아야 할 값)              (알고 있는 값)

 

        ▶ 두 변수 간의 관계를 파악해 우리가 알고 싶은 값을 예측하는 것

 

        2-2-3-1. 회귀 분석의 종류

          1) 선형 회귀 분석 : 함수식이 선형 함수 식일때

              1-1) 단순형 회귀 분석 : 독립 변수(x)가 한 개일때

 

              1-2) 다중 선형 회귀 분석 : 독립 변수(x)가 여러 개일때

 

           2) 비선형 회귀 분석 : 함수식이 선형 함수 식이 아닐 때

 

 

      2-2-4. 시계열 데이터 분석

        ▶ 시간의 흐름에 따라 발생된 데이터를 분석하는 기법

             (시간을 이어 늘어뜨린 데이터 / 시간의 흐름에 따라 정리한 데이터)

 

        2-2-4-1. 시계열 데이터의 유형

          ▶ 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질

 

          1) 정상 시계열 데이터 : 그래프상 일정한 패턴이 존재

          2) 비정상 시계열 데이터 : 그래프상 일정한 패턴이 없음