과학2011/07/10 10:30

N개의 데이터가 평균 m, 분산 σ이다. 여기에 데이터 한 개가 추가될 때, 어떻게 평균과 분산을 구하는게 쉬울까?

snowall 님께서 업무상 고민하신다기에.... 누구나 계산할 수 있는 고등학교 3학년 수학밖에 안 돼서.... 심심해서 오래간만에 한번 계산해 봤다.


그러므로 뭔가 DB에 새로운 데이터가 계속 추가되는 상황에서, 새로 추가된 데이터를 반영해 새로 평균과 분산을 계속 보여줘야 한다면 이 공식이 유용할 것이다.

프로그램으로 작성해야 한다면 평균, 표준편차 이외에 데이터 제곱의 합도 따로 관리해야 한다는 게 맘에 안 들긴 하지만....


ps. 계산식 중간중간에 잘못 편집한 건 적당히 알아서 봐주기 바란다. (일단 이미지로 만든 후라 고치기 귀찮아서.... ㅜㅜ) 혹시 필요하신 분을 위해 파일을 첨부한다. (pdf 파일을 첨부하고 싶지만, hwp의 수식 변환 성능이 개차반이라서...)


ps. 근데 이 공식을 가만히 보고 있다보니, 몇 번 정도의 공식 연산에는 유용하게 쓸 수 있을 것 같지만, 계속 반복하다보면 컴퓨터의 계산오차가 점점 커질 것 같다. 아무래도 특정 횟수마다 처음부터 새로 계산하던지 해야 할 것 같다.