** 해당 내용은 일반통계학(김우철 외 8인 공저)의 내용을 공부하며 쓴 포스트 입니다!
오늘 또한 연구 설계 부문이라고 할 수 있겠습니다. 바로 모집단과 표본에 관한 이야기 입니다
통계 기초이니만큼 지루하더라도 잘 봐주시기 바라겠습니다!
모집단은 간단하게 다시 말씀드리자면 "우리가 관찰하고 있는 집단 전체" 입니다
이러한 모집단은 찬성 반대, 혹은 1~5점 등과 같이 특성값을 가지게 되는데
특성값의 형태에 따라 이산형, 연속형으로 나뉩니다
이산형과 연속형은 그래프로 대신하는 것이 바람직 할 듯 합니다
해당 그래프를 보시면 1단위 혹은 10 단위로 데이터가 있는 곳을 볼 수 있습니다.
이산형 데이터는 이렇게 단위 기준으로 명확히 데이터가 나누어져 있다고 볼 수 있습니다
연속형 데이터는
이런 식으로 데이터가 연속되어 있는 것을 볼 수 있습니다!
참고로 이런 그래프를 밀도곡선이라고 합니다
우리는 일반적으로 실험을 진행할 때 표본추출의 형태로 진행하게 됩니다
이는 모집단이 실제로 어떻게 이루어져 있을 지 알기 위함인데
이 분포를 추측하는 것은 매우 어렵기 때문에 통계량을 통해 모집단을 추측합니다
그것을 알기위해서는 모집단의 통계량에 대해 알아야 겠죠?
통계량이라고 부르는 것은 여러가지가 있지만, 가장 기초가 되는 것은 바로 "평균" 입니다
식은 다음과 같습니다
u는 '뮤' 라고 읽으며 모평균을 나타냅니다
식을 풀어보면
간단히 ci는 값 fi는 빈도수 N은 모집단의 길이가 되겠네요!
모집단의 길이가 들어가는 것은 해당 식이 유한모집단을 가정하고 있다는 의미도 될 듯 합니다
무한 모집단의 경우
이 와 같은 형태로 진행 됩니다
유한 모집단과 달리 N으로 나누는 것이 없어졌습니다
그리고 연속형의 경우, 각 극단 값을 빼줌으로써 값을 구한 것이네요!
대부분의 연속형 이산형 통계량은 이와 같은 맥락으로 진행됩니다
다음은 표준편차 입니다. 표준편차 이외에도 "평균절대편차" "사분위수범위" 등 다양한 산포측정법이 있으나
표준편차에 비해 이론상의 어려움이 존재해 표준편차를 많이 사용한다고 합니다
표준편차 식을 살펴보겠습니다
우선, 눈에 띄는 것은 Ci-u 입니다. 해당 식을 풀어이야기 하면 각 특성값에서 모평균까지의 거리이겠네요!
각 거리를 모두 더한 후, N으로 나눔으로써 각 특성값의 모평군 까지와의 거리의 평균을 구한 것입니다
루트의 경우, Ci-u 의 값이 마이너스가 나오지 않게 제곱을 했기 때문에 루트를 씌워준 것이지요
그렇다면 분산은?
딱 봐도 표준편차에 제곱을 한 것 밖에 없죠?
분산의 경우, 산포를 나타내주지만 제곱이 들어가 있기 때문에 해당 값이 데이터의 단위와 잘 맞지 않을 수 있고
표준편차는 이러한 문제를 해결해 준다고 볼 수 있겠습니다.
마지막으로 상관계수 입니다.
상관계수는 두개의 특성에 대한 변화 관계를 나타낸 것입니다.
즉 둘이 얼마나 상관이 있을까? 이 얘기 인거죠
1과 2는 다른 특성값임을 나타내고 있습니다.
분자를 보시면 모평균과 각 데이터를 빼고 있습니다. 이번에는 제곱이 없구요
즉 +와 -가 구분이 됩니다.
그러므로 각 특성값의 부호가 다르면 해당 데이터 행은 마이너스가 나오게 되죠
반대로 같으면 +인자가 나옵니다
이러한 진행으로 인해 양의 상관관계가 있다면 1에 가깝게 음의 상관관계가 있다면 -1에 가깝게 진행이 됩니다
무한모집단의 이산형 연속형도 앞서 말씀드린 것과 같이 동일형식으로 진행됩니다
연속형 식만 나타내면 아래와 같습니다
이제 모집단의 통계량에 대해 알아보았으니 표본에 대해서도 알아 보아야 합니다
우리는 표본집단의 통계량을 통해 모집단에 접근할 수 있기 때문입니다
사실 큰 차이는 없다고 생각합니다. 단지, 집단이 작게 바뀐 것 뿐입니다
아래는 표본 평균입니다
모집단과 다를바가 거의 없죠..?
다른 것이 있다면 해당 식에는 상대도수가 없다는 정도일 듯 합니다.
그렇다면 표본의 표준편차는 어떨까요?
왜 n-1 일까요? n이 아니고...ㅎㅎ
이유는 숙제처럼 풀어보시는게 좋을 듯 합니다
힌트를 드리자면~~ "표본의 표준편차의 목적은 모집단을 추측하기 위함인 것" 인 걸 유념해주시면 될 듯 합니다
표본상관계수도 앞서 말씀드린 부분과 모상관계수 부분을 접목시켜서 이해하시면 됩니다!!
항상 열공하시기 바랍니다~~
'기초통계~~' 카테고리의 다른 글
기초 통계(1) - 자료의 생성 (0) | 2019.04.16 |
---|