** 해당 내용은 일반통계학(김우철 외 8인 공저)의 내용을 공부하며 쓴 포스트 입니다!

 

 

 

오늘 또한 연구 설계 부문이라고 할 수 있겠습니다. 바로 모집단과 표본에 관한 이야기 입니다

 

통계 기초이니만큼 지루하더라도 잘 봐주시기 바라겠습니다!

 

 

모집단은 간단하게 다시 말씀드리자면 "우리가 관찰하고 있는 집단 전체" 입니다

 

이러한 모집단은 찬성 반대, 혹은 1~5점 등과 같이 특성값을 가지게 되는데

 

특성값의 형태에 따라 이산형, 연속형으로 나뉩니다

 

 

이산형과 연속형은 그래프로 대신하는 것이 바람직 할 듯 합니다

 

 

<출처:R, Python 분석과 프로그래밍 (by R Friend) >

 

<출처:R, Python 분석과 프로그래밍 (by R Friend) >

 

 

해당 그래프를 보시면 1단위 혹은 10 단위로 데이터가 있는 곳을 볼 수 있습니다.

 

이산형 데이터는 이렇게 단위 기준으로 명확히 데이터가 나누어져 있다고 볼 수 있습니다

 

 

연속형 데이터는 

 

<출처 : https://m.blog.naver.com/PostList.nhn?blogId=yunjh7024>

 

 

이런 식으로 데이터가 연속되어 있는 것을 볼 수 있습니다!

 

참고로 이런 그래프를 밀도곡선이라고 합니다

 

 

 

우리는 일반적으로 실험을 진행할 때 표본추출의 형태로 진행하게 됩니다

 

이는 모집단이 실제로 어떻게 이루어져 있을 지 알기 위함인데

 

이 분포를 추측하는 것은 매우 어렵기 때문에 통계량을 통해 모집단을 추측합니다

 

 

그것을 알기위해서는 모집단의 통계량에 대해 알아야 겠죠?

 

 

통계량이라고 부르는 것은 여러가지가 있지만, 가장 기초가 되는 것은 바로 "평균" 입니다

 

식은 다음과 같습니다

 

< 모평균 >

 

 

u는 '뮤' 라고 읽으며 모평균을 나타냅니다

 

식을 풀어보면

 

간단히 ci는 값 fi는 빈도수 N은 모집단의 길이가 되겠네요!

 

모집단의 길이가 들어가는 것은 해당 식이 유한모집단을 가정하고 있다는 의미도 될 듯 합니다

 

 

 

무한 모집단의 경우

 

 

이 와 같은 형태로 진행 됩니다

 

유한 모집단과 달리 N으로 나누는 것이 없어졌습니다

 

그리고 연속형의 경우, 각 극단 값을 빼줌으로써 값을 구한 것이네요!

 

대부분의 연속형 이산형 통계량은 이와 같은 맥락으로 진행됩니다

 

 

다음은 표준편차 입니다. 표준편차 이외에도 "평균절대편차" "사분위수범위" 등 다양한 산포측정법이 있으나

 

표준편차에 비해 이론상의 어려움이 존재해 표준편차를 많이 사용한다고 합니다

 

표준 편차

표준편차 식을 살펴보겠습니다

 

우선, 눈에 띄는 것은 Ci-u 입니다. 해당 식을 풀어이야기 하면 각 특성값에서 모평균까지의 거리이겠네요!

 

각 거리를 모두 더한 후, N으로 나눔으로써 각 특성값의 모평군 까지와의 거리의 평균을 구한 것입니다

 

루트의 경우, Ci-u 의 값이 마이너스가 나오지 않게 제곱을 했기 때문에 루트를 씌워준 것이지요

 

 

 

그렇다면 분산은?

 

 

분산

 

딱 봐도 표준편차에 제곱을 한 것 밖에 없죠?

 

분산의 경우, 산포를 나타내주지만 제곱이 들어가 있기 때문에 해당 값이 데이터의 단위와 잘 맞지 않을 수 있고

 

표준편차는 이러한 문제를 해결해 준다고 볼 수 있겠습니다.

 

 

 

마지막으로 상관계수 입니다.

 

상관계수는 두개의 특성에 대한 변화 관계를 나타낸 것입니다.

 

즉 둘이 얼마나 상관이 있을까? 이 얘기 인거죠

 

<유한 모집단의 상관계수>

 

1과 2는 다른 특성값임을 나타내고 있습니다.

 

분자를 보시면 모평균과 각 데이터를 빼고 있습니다. 이번에는 제곱이 없구요

 

즉 +와 -가 구분이 됩니다.

 

그러므로 각 특성값의 부호가 다르면 해당 데이터 행은 마이너스가 나오게 되죠

 

반대로 같으면 +인자가 나옵니다

 

이러한 진행으로 인해 양의 상관관계가 있다면 1에 가깝게 음의 상관관계가 있다면 -1에 가깝게 진행이 됩니다

 

 

 

 

무한모집단의 이산형 연속형도 앞서 말씀드린 것과 같이 동일형식으로 진행됩니다

 

연속형 식만 나타내면 아래와 같습니다

 

 

<연속형 모집단의 상관계수>

 

 

 

 

 

이제 모집단의 통계량에 대해 알아보았으니 표본에 대해서도 알아 보아야 합니다

 

우리는 표본집단의 통계량을 통해 모집단에 접근할 수 있기 때문입니다

 

사실 큰 차이는 없다고 생각합니다. 단지, 집단이 작게 바뀐 것 뿐입니다

 

아래는 표본 평균입니다

 

 

<표본 평균>

 

모집단과 다를바가 거의 없죠..?

 

다른 것이 있다면 해당 식에는 상대도수가 없다는 정도일 듯 합니다. 

 

 

 

 

그렇다면 표본의 표준편차는 어떨까요?

 

<표본 표준편차>

 

 

왜 n-1 일까요? n이 아니고...ㅎㅎ

 

이유는 숙제처럼 풀어보시는게 좋을 듯 합니다

 

힌트를 드리자면~~ "표본의 표준편차의 목적은 모집단을 추측하기 위함인 것" 인 걸 유념해주시면 될 듯 합니다

 

 

<표본 상관계수>

 

 

 

표본상관계수도 앞서 말씀드린 부분과 모상관계수 부분을 접목시켜서 이해하시면 됩니다!!

 

항상 열공하시기 바랍니다~~

 

 

 

 

'기초통계~~' 카테고리의 다른 글

기초 통계(1) - 자료의 생성  (0) 2019.04.16

 

** 해당 내용은 일반통계학(김우철 외 8인 공저)의 내용을 공부하며 쓴 포스트 입니다!

 

 

 

 

사회 대부분의 곳에서는 통계가 사용되어지고 있습니다. 

 

어떤 인사이트를 도출하기 위해서는 그 것에 대한 검증, 분석이 필요하고 이 때 필요한 것이 바로 통계죠!

 

 

 

하물며, 빅데이터 관련해서는 말할 필요가 없을 정도로 그 중요도가 크다고 합니다

 

그런 관계로 다 같이 통계공부를 해보면 좋을 듯 해요!!

 

 

저는 매 포스팅 앞에 이런 그림을 붙여 놓을까 합니다

 

 

 우리가 통계를 쓰게 되는 과정입니다!!

 

공부를 할 때 이런 식으로 내가 어디를 공부하고 있고

 

어떤 상황에 이 것이 필요한지에 대해 명확히 알 때 본인 지식이 되겠죠??

 

 

오늘 배울 부분은 연구 설계에서 데이터에 관한 부분이라고 할 수 있겠습니다.

 

올바른 검정을 위해선 올바른 데이터가 필요한 것은 당연한 일입니다. 

 

그럼 어떤 데이터를 가져올 때 올바른 것일까요

 

 

 

예를 들어 대통령선거에서 결과를 예측하고자 합니다.

 

그럼 우리는 누구에게 설문을 해야할까요?

 

바로 "투표권이 있는 국민" 입니다. 통계학에서는 이런 국민 개인을 "추출단위" 라고 합니다

 

그리고 "투표권이 있는 모든 국민"은 바로  "모집단"  이라고 합니다.

 

 

 

하지만 일반적으로 선거결과 예측을 할 때는 국민모두를 조사하지는 않습니다.

 

일정 이상의 데이터라면 해당 모집단을 대표할 수 있다고 생각하기 때문이죠

 

그러나 기본 전제가 되는 것이 바로 "대표성" 입니다

 

만약 선거결과 예측을 특정지역에서만 진행했다면

 

이는 "투표권을 가진 국민 전체" 라는 모집단을 대표할 수 없겠죠??

 

그렇기 때문에 모집단에서 무작위로 뽑아내는 "랜덤추출" 을 통해 해당 문제를 해결 할 수 있습니다

 

 

이 랜덤추출은 복원추출과 비 복원추출로 나뉘게 되는데

 

뽑았던 것을 제하고 뽑으면 이것이 비 복원추출입니다

 

 

두 차이는 간단하지만, 개인의 실험 목적에 따라 올바른 것을 사용하는 것은 절대적으로 중요합니다

 

 

 

다음은 실험 상황입니다. 우리는 어떤 것에 대해 알아보기 위해 실험을 하는 경우가 많습니다

 

이 때, 변화를 정확히 알아보기 위해 한 곳에는 알고자하는 것을 주입하고

 

한 쪽에는 주입하지 않아야 겠죠?

 

이 때, 주입한 쪽을 "실험집단", 실험집단의 각 개체를 "실험단위" , 주입한 것을 "처리" 라고 합니다.

 

주입되지 않은 쪽은 "통제집단" 입니다!

 

단순한 개념이니 알고만 가시면 될 듯 합니다. 

 

 

여기서 가장 중요한 것은 '한 쪽에는 주입하고 한쪽에는 하지 않는 다' 는 것입니다.

 

즉, 주입한 것에 따른 차이를 알기 위함이라는 것을 알 수 있죠

 

그렇기 때문에 "주입한 것" 이 외에는 모든 것이 둘은 동일해야 합니다

 

 

이러한 점에서 우리는 실험을 할 때 총 3가지 원칙을 지켜야 합니다

 

1 원칙 : "처리" 이 외의 외부 요인은 최소화 한다.

 

2 원칙 : "처리"를 할 실험단위를 선별 시, 랜덤하게 뽑아야 한다

 

3 원칙 : 충분히 많은 실험 단위에 각 처리를 반복실시한다 

 

 

 

이런 내용을 명확히 기억하고 진행하시면 더욱 정확한 실험이 되겠습니다~~!!

 

화이팅~~

'기초통계~~' 카테고리의 다른 글

기초통계(2) - 모집단과 표본  (0) 2019.04.16

+ Recent posts