데이터 분석 준전문가/제4과목

제2장 통계분석

표독's 2016. 2. 17. 13:10

제2장 통계분석

학습목표

통계 기법에 대한 이해

가설 검정에 대한 이해

기술 통계 값에 대한 이해

시계열에 대한 이해

다양한 시계열 모형에 대한 이해

회귀분석에 대한 이해

최적 회귀 방정식 선택법에 대한 이해

다차원척도법 개념 이해

주성분 분석 개념 이해


제1절 통계분석의 이해


1. 통계


총조사 : 대상집단 모두를 조사하

표본조사 : 조사하고자 하는 대상 집단 전체를 모집단 이라하고, 모집단을 구성하는 개체를 원소라고 하며, 조사하기 위해 뽑은 모집단의 일부 원소들을 표본이라고 한다. 또한 표본 관측에 의해 구하고자 하는 모집단에 대한  정보를 모수라고 한다. 


표본을 추출 하는 방법


1)단순랜덤추출법 : 

  각 원소에 1~N까지의 번호를 부여 한뒤. 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출하는 방법


2)계통추출법 : 

  단순랜덤추출법의 변형된 형태로 N개의 원소로 구성된 모집단에서 n개를 표본으로 추출할 때 이용된다. 모든 원소들에 1, 2, 3 ... N의 일련번호 부여 후 순서대로 나열 후 n 개씩 구간으로 나누어 첫 구간에서 임의 선택후 K개씩 띄어서 표본을 추출


3)집락추출법 : 

  모집단이 몇 개의 집락이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다.


4)층화추출법 : 

  상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 추출하는 방법. 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층으로 나눈 후, 각 층에서 표본을 랜덤하게 추출하는 방법


측정 

실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것을 측정이라고 한다.


측정 방법 


1)명목척도 : 

  측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도 / 성별, 출생지

2)순서척도 : 

  측정 대상의 특성이 서열관계를 관측하는 척도로 선택사항이 일정한 순서로 돼 있으며, 특정  서비스의 선호도를 (아주좋다, 좋다, 그저그렇다, 싫어한다, 아주 싫어한다) 구분하는 경우 자주 쓴다.

3)구간척도 : 

  측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없다. / 온도, 지수 등

4)비율척도 : 

  적대적 기준인 0값이 존재하고 모든 사칙연산이 가능하며 제일 많은 정보를 가진 척도 / 무게, 나이, 연간소득, 제품가격


2. 통계분석

통계분석이란 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정을 말한다. 이러한 의사결정을 통계학에서는 

통계적 추론이라고 한다. 통계적 추론 이외에도 수집된 자료를 정리 요약하기 위해 사용되는 기초적인 통계를 기술통계라고 한다.


통계적 추론

추정 : '대상 집단의 특성값(모수)이 무엇일까?'를 추측

가설검정 : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설의 채택여부를 결정

예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행함.


기술통계

숫자로 표현하는 방식 : 평균, 표준편차, 중위수, 최빈값, %

그림으로 표현하는 방식 : 막대그래프, 원그래프, 꺽은선그래프


3. 확률 및 확률분포

확률 : '특정사건이 일어날 가능성의 척도'

표본공간 : '어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합'

원소 : 나타날 수 있는 개개의 결과들

사건 : 표본공간의 부분집합, 즉 표봉공간에 있는 몇 개의 원소들로 이루어진 부분집합.

확률변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수

  실수값에 형태에 따라 이산형 확률변수와 연속형 확률변수로 구분.


연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수를 말한다. 즉 특정실수구간에서 0이 아닌 확률을 갖는 확률변수다. 연속형 확률변수 X의 확률함수를 f(x)라고 할 때, f(x)는 확률밀도 함수라고 한다.


통계분석에서 자료를 수집하고 그 수집된 자료로부터 어떤 정보를 얻고자 하는 경우에는 항상 수집된 자료가 특정한 확률분포를 따른다고 가정한다. 그 분포는 이산형 확률분포와 연속형 확률변수로 구분할 수 있다. 


이산형 확률변수 

베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포


연속형 확률변수

균일분포, 정규분포, 지수분포 등이 대표적이며, 정규분포로부터 유도된 t-분포, X^2-분포, F-분포 등이 있다.


4. 추정과 가설검정


추정

점추정 : '모수가 특정할 값일 것'이라고 추정하는 것, 사실상 추정이 얼마나 정확한가 판단하기가 불가능 하다.


구간추정 : 점추정의 정확성을 보완하는 방법, 확률로 표현한 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언 하는것. 각각의 신뢰수준 하에서 구한 구간을 신뢰구간이라고 한다.


가설검정

모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법.

귀무가설, 대립가설 두 가지로 설정. '항상 간단하고 구체적인 표현'을 귀무가설로 설정


검정 통계량: 검정에 사용되는 통계량

귀무가설 채택여부 : 가설검정은 귀무가설이 옳다는 전제하에서 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 결정된다.

유의 수준 : 이러한 가능성이 '크다' 또는 '작다'의 판단기준


가설검정 과정에서의 두 가지 오류

1) 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류 - 제1종 오류

2) 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류 - 제2종오류

이러한 확률의 크기를 제2종 오류의 크기라고 한다.


두 가지 오류는 서로 상충관계가 있어서 일반적으로 가설검정에서는 제1종 오류 α의 크기를 0.1, 0.05, 0.01 등으로 고정시킨 뒤에 제 2종 오류 β가 최소가 되도록 기각역을 설정한다.


5. 비모수 검정


모수적 검정방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법.


비모수적 검정방법 : 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 검정방법으로, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용된다. 자료의 수가 많지 않거나 자료 자체가 개체 간 서열관계를 나타내는 경우에 사용된다.

두 검정 방법의 차이점

1) 모수적 검정에서는 가정된 분포의 모수에 대해 가설을 설정

   비모수적 검정에서는 가정된 분포가 없으므로 가설은 단지 '분포의 형태가 동일하다' 또는 분포의 형    태가 동일하지 않다'와 같이 분포의 형태에 대해 설정


2) 모수적 검정에서는 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시

   비모수 검정에서는 관측값의 절대적인 크기에 의존 하지 않는 관측값ㄷ르의 순위나 두 관측값 차이의    부호등을 이용해 검정한다. 


대표적인 비모수 검정방법

부호검정, 윅콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수 등이 있다.


제2절 기초 통계분석


1. 기술통계

자료를 요약하는 기초적 통계를 의미한다. 

head() : 데이터를 기본 6줄을 보여주어 데이터가 성공적으로 import되었는지 살펴 볼 수 있는 함수

summart()는 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여준다.

mean()는 평균

median()는 중앙값

sd()는 표준편차

var()는 분산

quantile(컬럼, 1/4)는 1사분위수

quantile(컬럼, 3/4)는 3사분위수

max()는 최대값

min()는 최소값

"데이터네임$column명"는 데이터의 특정 컬럼을 선택할 때


2. 인과관계의 이해


용어

종속변수(반응변수, y): 다른 변수의 영향을 받는 변수

독립변수(설명변수, x): 영향을 주는 변수

산점도(scatter plot): 좌표평면 위에 점들로 표현한다.


산점도에서 확인할 사항

1) 두 변수 사이의 선형관계(직선관계)가 성립하는가?

2) 두 변수 사이의 함수관계가 성립하는가(특히, 직선관계 또는 곡선 관계)?

3) 이상값이 존재하는가?

4) 몇 개의 집단으로 구분(층별)되는가?


공분산

두 확률변수 X, Y의 방향의 조합(선형성)이다.

특징 : X, Y가 서로 독립이면, Cov(X, Y) = 0 이다.


3. 상관분석

상관분석은 데이터 안의 두 변수 간의 관계를 알아보기 위해 한다.

피어슨 상관계수 : 등간척도 이상으로 측정되는 두 변수들 간의 상관계수를 측정

스피어만 상관계수(r) : 서열척도 인 두 변수들의 상관관계를 측정하는 데 사용 


가. 피어슨의 표본상관계수

나. 스피어만 상관계수


4. 회귀 분석


가. 단순회귀분석과 중회귀분석의 개념

회귀분석 : 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법.

독립변수(x로 표기함) : 종속변수y에게 영향을 주는 변수


x와 y 데이터는 주어지므로 이들의 계수에 대해 최적의 추정치를 얻을 수 있다. 이렇게 추정된 회귀선은 흩어진 점들에게 가장 적합한 선으로 여겨진다.


적합한 선을 찾은 후에는 선이 적절한지 확인을 해야 한다.


1) 모형이 통계적으로 유의미한가?

F통계량을 확인한다. 유의수준 5%하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의미

2) 회귀계수들이 유의미한가?

해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인한다.

3) 모형이 얼마나 설명력을 갖는가?

결정계수를 확인한다. 결정계수는 0에서 1값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

4) 모형이 데이터를 잘 적합하고 있는가?

잔차를 그래프로 그리고 회귀진단을 한다.

5) 데이터가 전체하는 가정을 만족시키는가?

6) 가정

선형성(독립변인의 변화에 따라 종속변인도 일정크기로 변화)

독립성(잔차와 독립변인의 값이 관련돼 있지 않음)

등분산성(독립변인의 모든 값에 대해 오차들의 분산이 일정)

비상관성(관측치들의 잔차들끼리 상관이 없어야 함)

정상성(잔차항이 정규분포를 이뤄야 함)


나. 회귀분석의 종류


단순회귀 : 설명변수가 1개이며 반응변수와의 관계가 직선

다중회귀 : 설명변수가 k개이며 반응변수와의 관계가 선형(1차함수)

다항회귀 : 설명변수가 k개이며, 반응변수와의 관계가 1차 함수 이상(단 k=1이면 2차 함수 이상)

곡선회귀 : 설명변수가 1개이며 반응 변수와의 관계가 곡선

비선형회귀 : 회귀식의 모양이 미지의 모두 들의 선형관계로 이뤄져 있지 않은 모형


set.seed함수

난수를 생성할 때 같은 난수가 나오도록 고정시키는 역할을 한다. 이 함수는 정수 인자를 하나 받는다. 어떠한 양수라도 상관은 없으나 동일한 난수를 발생시키려면 같은 숫자를 사용한다.


다. 최적회귀방정식의 선택: 설명변수의 선택


반응변수 y와 이 변수에 영향을 미칠 수 있는 가능한 모든 설명 변수들이 있을 때,

y의 변화를 회귀방정식으로 표현하고 설명하기 위해 필요한 설명변수들을 어떻게 선택해할 거인가를 고려해야한다,


두 가지 원칙을 따른다.

● y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는 데 참여시킨다.

 데이터에 설명변수 x들의 수가 많아지면 관리하는 데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함시켜야 한다.


두 가지는 서로 이율배반적이므로 타협이 이뤄져야한다.


1) 선택방법

모든 가능한 조합의 회귀분석 :

모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 회귀모형을 선택한다.


●단계적 변수 선택

   - 전진선택법 : 절편만 있는 상수모형에서 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에                         추가

   - 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나                         씩 제거하면서 더이상 제거할 변수가 없을 때의 모형을 선택

   - 단계적방법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그                         중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부                       를 검토해 더 이상 없을 때 중단한다.



step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수 선택방법")의 함수로 변수를 쉽게 선택할 수 있다.

    설명 

       ●lm은 우리가 사용할 분석방법은 회귀분석인 것을 인지시켜준다.

       ●scope는 분석할 때 고려할 변수의 범위를 정한다. 가장 낮은 단계는 lower에서 1을 입력하면 상           수항을 의미하고, 가장 높은 단계를 설정하기 위해서는 설명변수들을 모두 써주면 된다.

       ● direction은 변수 선택 방법이다. forward, backward, both가 있다.


R에서 구체적인 디렉토리를 설정해 외부 데이터세트를 읽을 때 '\ (역슬래시)'를 2번 해줘야 한다.


제3절 시계열 분석


1. 정상성

 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다. 시계열 분석에 기초가 되는 개념인 정상성에 대해 살펴보자. 

비정상성 시계열 : 시계열 분석하는데 다루기 어려운 시계열자료이다. 

정상성 시계열 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료 변환한 것


정상성을 만족하기 위한 특징

1) 평균이 일정하다. 즉 모든 시점에 대해 일정한 평균을 가진다.

2) 분산도 시점에 의존하지 않는다.

3) 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.


위의 정상성은 '약한 의미의 정상성'이라고 부르기도 하나 일반적으로 정상성 이라고 한다.

대부분은 비정상 자료이다. 하나라도 만족하지 않을 경우 비정상 시계열이라고 한다.


판단 방법:

어떤 자료가 폭발적 증가 추세(평균이 일정하지 않음, 시간에 따라서 분산이 변하는 경우.


비정상 시계열로 판정되면 정상 시계열로 바꿔줘야 함. 


평균이 일정하지 않은 비정상 시계열은 차분을 통해 정상 시계열로 바꿀 수 있다.

분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상 시계열로 바꿀 수 있다.


차분 : 현 시점의 자료에서 전 시점의 자료를 빼는 것. 

         - 바로 전시점의 자료를 일반차분, 여러 시점 전의 자료로 빼는 것을 계절차분이라고 한다.

           계절차분은 계절성을 갖는 비정상 시계열을 정상 시계열로 바꿀 때 사용


2. 시계열 모형


가. 자귀회귀 모형(AR 모형)

p 시점 전의 자료가 현재 자료에 영향을 주는 자기회귀모형을 AR(p) 모형이라 한다.


백색잡음과정 : 백색광선을 프리즘에 통과시키면 여러 색깔의 스펙트럼이 나타나는 것처럼 오차를 스펙트럼 분해하면 다양하고 불규칙하며 독립적인 변동으로 분해됨. 시계열 분석에서 오차항 의미


AR(1) 모형 : 현 시점의 자료가 과거 1 시점 전의 자료와만 관계가 있을 때 1차 자기회귀 모형이라 한다.

AR(2) 모형 : 현 시점의 자료가 2시점 전 자료까지 관계가 있는 모형은 2차 자기회귀 모형이라고 한다.


자기회귀모형 판단 조건(일반적으로)

자기상관함수(ACF) 빠르게 감소, 부분자기함수(PACF)는 어느 시점에서 절단점 갖는 경우.


나. 이동평균 모형(MA 모형)


이동평균모형은 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족한다.


이동평균 모형 판단 조건(일반적으로)

ACF에서 절단점을 갖고, PACF가 빠르게 감소함.


다. 자기회귀누적이동평균모형(ARIMA(p, d,q)모형)


비정상시계열 모형이다. 즉 ARIMA모형을 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합친 ARMA모형으로 정상화 할 수 있다.


ARIMA(p, d, q)모형은 차수 p,d,q의 값에 따라 다른 이름으로 불린다. p는 AR모형과 관련이 있고, q는 MA모형과 관련이 있는 차수다. ARIMA에서 ARMA로 정상화할 때 몇 번 차분했는지를 말한다. 

d=0이면 ARMA(p, q)모형이라 부르고 이 모형은 정상성을 만족한다.

p=0이면 IMA(d,q)모형이라 부르고 d번 차분하면 MA(q)모형을 따르게 된다.

q=0이면 ARI(p,d)모형이라 부르며, d번 차분한 시계열이 AR(p)모형을 따르게 된다.


라. 분해 시계열

분해 시계열이란 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법, 회귀분석적인 방법 주로 사용.

4가지로 분류

1) 추세요인

자료가 어떤 특정한 형태를 취할 때

2) 계절요인

요일마다 반복되거나 일년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화하는 경우

3) 순환요인

명백한 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 가지고 변화하는 자료가 있다.

4) 불규칙요인

이 세 가지의 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인


마. 시계열 학습

시계열 분석을 위한 패키지로 TTR과 forecast를 이용한다.


3) 분해시계열

TTR 패키지의 SMA 함수를 이용해 간단히 시계열의 트렌드를 보여주는 분해시계열의 이동평균 그래프를 그려보자. 


4) ARIMA 모델

diff() 함수를 사용해 차분 가능


5)적합한 ARIMA모델 결정

acf()함수를 이용해 acf 그래프 그릴 수 있다.


ARMA(3,0) 모델 : PACF 값이 lag4에서 절단점을 가짐

ARMA(0,1) 모델 : ACF 값이 lag2에서 절단점을 가짐

ARMA(p,q) 모델 : 그래서 AR모형과 MA모형을 혼합함.


forecast package에 내장된 auto.arima()함수를 이용하면 적절한 ARIMA모형 찾을 수 있다.


제4절 다차원척도법

다차원척도법은 여러 대상간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법이다.


제5절 주성분 분석

상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합을 해 변수를 축약하는 데 사용.

데이터 내부 구조를 파악하는 방법으로, 예측모델을 만들 때 주로 사용.

희생되는 정보가 가장 적은방향을 결정하는 것으로서, 보통 3개 이내의 변수로 축약하고 이로 인한 정보손실은 20%정도로 한다.