표준편차

에 마지막으로 수정됐습니다.


1. 개요2. 설명
2.1. 수식을 활용한 정의
3. 용도4. 트리비아

1. 개요[편집]

Standard Deviation

자료의 관찰값이 얼마나 흩어져 있는지를 나타내는 값[1] 중 하나. 사실상 가장 많이 사용한다.

2. 설명[편집]

표준편차(stdev; standard deviation)[2]는 짧게 말해서 분산에 루트를 씌운 것이다. 분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 음의 부호를 없애기 위해[3] 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다. 통계학자들은 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다.

표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다.
파일:크리에이티브 커먼즈 라이선스__CC.png 이 문단의 내용 중 전체 또는 일부는 평균 문서의 50번째 버전에서 가져왔습니다. 이전 역사 보러 가기

2.1. 수식을 활용한 정의[편집]

우선 n개의 자료값 x1,x2,,xn x_1 , x_2, \cdot\cdot\cdot , x_n 이 있다고 가정할 때 이 자료값의 평균(mean) mm부터 구하면 m=x1+x2++xnn m= \frac{x_1 + x_2 + \cdot \cdot \cdot + x_n } {n} 로 표현된다. 다음에 각 자료값 xi,i=1,2,nx_i, i=1, 2, \cdot \cdot \cdot n 에 대해 xim x_i -m 을 평균 m에 대한 xi x_i 의 편차(difference)라고 부른다. 이 편차들의 제곱의 평균인 V=(x1m)2+(x2m)2++(xnm)2n V= \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} x1,x2,,xn x_1 , x_2, \cdot\cdot\cdot , x_n 에 대한 분산(Varience)이라 부른다. 이 분산의 제곱근 σ=(x1m)2+(x2m)2++(xnm)2n \sigma= \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } 을 표준편차라고 부른다.[4] 간단히 말해서 편차의 제곱평균.

확률변수의 X에 대한 방식으로 묘사될 때에는 다음과 같이 정의된다.
σ \sigma (X) (X) =E(XE(X))2=E(X2)(E(X))2 = \sqrt{ { E(X-E(X))}^{2} } = \sqrt { E({X}^{2}) -{(E(X))}^{2}}

3. 용도[편집]

가장 대표적으로 수능점수의 표준점수가 이 평균과 표준편차를 기준으로 결정된다. 수능 시험 점수를 정규분포라고 가정하고 [5] 평균을 100으로, 표준편차를 20으로 가정하고 상대적으로 얼마나 높은 점수를 받았는지로 표현한다. 예를 들어, 올해 수능의 평균이 80점이고 올해 수능의 표준편차가 8점이라 가정하면 92점을 받은 학생은 표준점수가 130 점(= 100 + 20 * (92 - 80) / 8)이 된다.

이밖에도 통계조사에서 표본의 평균을 기반으로 모집단의 평균을 추정할 때에도 이 표준편차가 모평균의 범위를 결정하는데 중요한 역할을 한다.

4. 트리비아[편집]

단순히 편차들의 절대값의 평균(평균절대편차)을 구하지 않고 제곱의 평균을 구한 뒤 제곱근을 취하는 이유는(표준편차) 평균으로 부터 분산된 정도를 구하기 위해서이다. 절대값을 이용하면 평균이 아닌 중앙값에서 분산된 정도를 나타내게 된다.

거꾸로 생각하여 우리가 '데이터가 흩어진 정도'를 표현하는 척도를 (표준편차, 평균절대편차 등) 정했다고 가정하자. 이때 데이터의 대표값은 '데이터가 흩어진 정도'가 가장 작게되는 값일 것이다. 이때 '데이터가 흩어진 정도'를 표준편차로 선택하면 대표값(흩어진정도가 최소이게 만드는 수)은 평균이 되고, 그 척도를 평균 절대 편차로 선택하면 대표값은 중앙값으로 선택된다. (대표값을 미지수로 넣고 미분을 통해 최소값을 구해보면 나온다. ) 수식추가바람

이렇게 제곱의 평균의 제곱근을 RMS(root mean square, 우리말로는 근평균제곱)이라고 하는데 기체분자의 속도 분포를 기반으로 운동에너지의 평균을 구할 때에도 유용하다. 왜냐하면 운동에너지가 속도의 제곱에 비례하기 때문이다.

모집단의 평균, 표준편차를 알고싶지만 많은 경우에 그것은 불가능하거나 너무많은 노력이 필요하므로 표본조사를 통하여 모집단의 정보를 추정한다. 우리는 모집단의 표준편차는 알 수 없지만 표본을 뽑아 분산을 구하고 그 과정을 많이 반복하면(무한히) 모집단의 표준 편차와 같도록 하기위해, 표본을 이용하여 모집단의 분산을 추정할때는 표본크기 n이 아니라 n-1로 나눠준다. 이때 구한 표본표준편차가 모표준편차의 불편추정량이다. (증명)

엑셀 함수목록에서는 =stdev 를 입력하여 호출할 수 있었지만, 버전업을 거치면서 함수의 종류가 늘어났다. 대표적으론 전체를 아는 경우에는 stdev.p, 계산대상들이 어떤 대상들 중의 표본일 경우엔 stdev.s이다. 주의할 것은 stdev와 stdev.s가 같다는 것.

[1] 이러한 의미를 가진 단어를 바로 산포도(scatterplot)라고 한다.[2] 표준오차(standard error)와는 다르다. 이쪽은 추론통계학에서 수많은 표본평균들의 편차를 구함으로써 모평균 "뮤" 를 추정할 때 쓰인다. 이 경우 시그마 소문자에다 아래첨자로 m 을 붙여서 표기하며, 루트씌운 표본관측값의 수로 표본표준편차를 나누면 된다.[3] 편차에 절댓값을 취해서 그걸로 평균을 내는 방법도 있지 않나 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다. 최근에는 강력한 관측값을 얻기위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 "평균편차"(MAD) 라고 부른다.[4] 표본 표준편차에서는 분모를 n이 아니라 n-1을 사용한다.[5] 실제로 수험생들의 성적분포는 정규분포와는 다르다. 상위권은 오밀조밀 모여있고 중하위권은 점수 편차가 심하다. 이 현상이 특히 극대화된 케이스가 아랍어.