논문과통계학

모집단과 표본집단의 차이는 뭘까? 평균, 중앙값, 최빈값은 또 뭐야?

발큰신데렐라 2010. 7. 1. 15:16

가끔 보면 통계는 너무 어렵다. 특히 말이 너무 어렵다. 통계 자체가 어렵다기 보다는 용어들이 너무 어렵달까? 그래서 오늘 마음먹고 정리해보았다.

1. 통계란 데이터로부터 정보를 얻는 방법으로 데이터를 기반으로 통계학을 통해 판단을 내릴 수 있는 근거가 되는 정보를 추출해 내는것을 말한다.

즉, 알 수 없는 여러 데이터를 바탕으로 통계를 거쳐 정보란 것을 추출하는것이다.


2. 모집단과 표본집단의 차이
예를들어 만약 고등학생들의 영어성적을 알고싶다고 했을때,
전국 모든 고등학생들의 영어성적 데이터[모집단] 를 가지고 정보를 추출한다는 것이 만만치가 않다.
그래서 몇몇 대표할만한 고등학생들의 성적[표본집단] 을 바탕으로 정보를 추출해야한다.
이때, 그들의 대표성을 찾기위해선 앞서 포스팅했듯 신뢰도와 유의도를 통해 찾으면 된다.

결과적으로 값이 나왔을때, 우리는 평균값으로 고등학생들의 전체적인 영어성적을 추측하기 마련인데, 이때 중앙값으로 값을 내도 된다.

결과적으로 값이 나왔을때, 우리는 평균값으로 고등학생들의 전체적인 영어성적을 추측하기 마련인데, 이때 중앙값으로 값을 내도 된다.

3. 평균값은 모두들 시험보고 나서 성적을 모두 더해 그값을 n으로 나누는 값이다.
그래서 보통 소수점으로 떨어지곤 한다. 즉 평균점수 72.57이런식으로 값이 나온다.

4. 중앙값은 크기순으로 값을 늘어놨을때 그냥 딱 가운데 값이다. 이럴경우 그냥 72로 떨어진다.
만약 데이터의 수가 짝수일 경우에는 두개의 값의 평균값을 낸다.
1  3  4   5  10  20  21  23  24  25 이 경우에는 10과 20의 평균값인 15가 답이다.

5. 최빈값은 산술평균으로 값이 나오기 어려운 경우에 이용하는데,가장 빈번하게 발생된 값이 답이다예를들어 수학, 수학, 수학, 영어, 수학, 사회의 최빈값은 [수학]이다.

그럼 평균, 중앙값, 최빈값의 차이를 보면 다음 그림과 같다.


그럼 겸사겸사 표준편차도 짚고 넘어가면,
데이터가 흩어져 있는 정도를 보는게 표준편차이다.