Làm thế nào để 'tổng' một độ lệch chuẩn?


68

Tôi có trung bình hàng tháng cho một giá trị và độ lệch chuẩn tương ứng với mức trung bình đó. Bây giờ tôi đang tính trung bình hàng năm là tổng trung bình hàng tháng, làm thế nào tôi có thể biểu thị độ lệch chuẩn cho trung bình tổng?

Ví dụ: xem xét đầu ra từ một trang trại gió:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Chúng ta có thể nói rằng trong năm trung bình, trang trại gió tạo ra 10.358 MWh, nhưng độ lệch chuẩn tương ứng với con số này là gì?


3
Một cuộc thảo luận sau câu trả lời đã bị xóa đã lưu ý một sự mơ hồ có thể có trong câu hỏi này: bạn có tìm kiếm SD của mức trung bình hàng tháng hay bạn muốn khôi phục SD của tất cả các giá trị ban đầu mà các mức trung bình đó được xây dựng? Câu trả lời đó cũng chỉ ra một cách chính xác rằng nếu bạn muốn cái sau, bạn sẽ cần số lượng giá trị liên quan đến mỗi một mức trung bình hàng tháng.
whuber

1
Một nhận xét cho một câu trả lời bị xóa khác chỉ ra rằng thật lạ khi tính trung bình dưới dạng tổng : chắc chắn bạn có nghĩa là bạn đang tính trung bình trung bình hàng tháng. Nhưng nếu những gì bạn muốn là ước tính trung bình của tất cả các dữ liệu gốc, thì một quy trình như vậy thường không phải là một quy trình tốt: cần trung bình có trọng số . Và tất nhiên, không thể đưa ra câu trả lời hay cho câu hỏi của bạn về "SD cho trung bình tổng" cho đến khi rõ ràng "trung bình tổng" là gì và nó dự định đại diện cho điều gì. Hãy làm rõ điều đó cho chúng tôi.
whuber

@whuber Mình đã thêm một ví dụ để làm rõ. Về mặt toán học, tôi tin rằng tổng số trung bình bằng với số lần trung bình hàng tháng 12.
klonq

2
Vâng, klonq, đó là một yêu cầu rất hợp lý. Tuy nhiên, những phản hồi này đã bị xóa bởi chủ sở hữu của họ, không phải bởi cộng đồng. Để duy trì giá trị của họ, tôi đã cố gắng chuyển tiếp (tôi đảm nhận) những ý tưởng chính nảy sinh trong những câu trả lời và nhận xét của họ. BTW, các chỉnh sửa gần đây của bạn khá hữu ích: mọi người muốn xem dữ liệu mẫu.
whuber

1
Chào mừng đến với trang web, @Hayden. Đây không phải là một câu trả lời cho câu hỏi của OP. Vui lòng chỉ sử dụng trường "Câu trả lời của bạn" để cung cấp câu trả lời. Nếu bạn có câu hỏi tiếp theo, hãy nhấp vào [ASK QUESTION]đầu và hỏi nó ở đó, sau đó chúng tôi có thể giúp bạn đúng cách. Vì bạn là người mới ở đây, bạn có thể muốn thực hiện chuyến tham quan của chúng tôi , nơi chứa thông tin cho người dùng mới.
gung - Phục hồi Monica

Câu trả lời:


66

Câu trả lời ngắn: Bạn trung bình các phương sai ; sau đó bạn có thể lấy căn bậc hai để có độ lệch chuẩn trung bình .


Thí dụ

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

Và sau đó độ lệch chuẩn trung bình làsqrt(53,964) = 232


Từ tổng các biến ngẫu nhiên thường được phân phối :

XY

... Tổng của hai biến ngẫu nhiên phân phối thông thường độc lập là bình thường, với ý nghĩa của nó là tổng của hai phương tiện và phương sai của nó là tổng của hai phương sai

Và từ phân phối tổng bình thường của Wolfram Alpha :

XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

có nghĩa là

μX+Y=μX+μY

và phương sai

σX+Y2=σX2+σY2

Đối với dữ liệu của bạn:

  • tổng hợp: 10,358 MWh
  • phương sai: 647,564
  • độ lệch chuẩn: 804.71 ( sqrt(647564) )

nhập mô tả hình ảnh ở đây

Để trả lời câu hỏi của bạn:

  • Làm thế nào để 'tổng' một độ lệch chuẩn ?
  • Bạn tính tổng chúng theo phương trình bậc hai:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Về mặt khái niệm, bạn tổng hợp các phương sai, sau đó lấy căn bậc hai để có độ lệch chuẩn.


Bởi vì tôi tò mò, tôi muốn biết tỷ lệ trung bình hàng tháng trung bình điện, và nó lệch chuẩn . Thông qua quy nạp, chúng ta cần 12 phân phối bình thường:

  • tổng cho một trung bình của 10,358
  • tổng bằng phương sai của 647,564

Đó sẽ là 12 phân phối trung bình hàng tháng của:

  • có nghĩa là 10,358/12 = 863.16
  • phương sai của 647,564/12 = 53,963.6
  • độ lệch chuẩn của sqrt(53963.6) = 232.3

nhập mô tả hình ảnh ở đây

Chúng tôi có thể kiểm tra phân phối trung bình hàng tháng của mình bằng cách thêm chúng lên 12 lần, để thấy rằng chúng bằng với phân phối hàng năm:

  • Nghĩa là: 863.16*12 = 10358 = 10,358( đúng )
  • Phương sai: 53963.6*12 = 647564 = 647,564( đúng )

Lưu ý : tôi sẽ để nó cho một người có kiến ​​thức về toán học bí truyền để chuyển đổi hình ảnh công thức của tôi và formula codethành các công thức được định dạng stackexchange.

Chỉnh sửa : Tôi di chuyển ngắn, đến điểm, trả lời lên trên. Bởi vì tôi cần phải làm điều này một lần nữa ngày hôm nay, nhưng muốn kiểm tra lại xem tôi có trung bình các phương sai không .


3
Tất cả điều này dường như giả định rằng các tháng là không tương quan - bạn đã đưa ra giả định đó rõ ràng ở bất cứ đâu? Ngoài ra, tại sao chúng ta cần phải đưa vào phân phối bình thường? Nếu chúng ta chỉ nói về phương sai thì điều đó dường như không cần thiết - ví dụ, hãy xem câu trả lời của tôi ở đây
Macro

1
@Marco Bởi vì tôi nghĩ tốt hơn trong hình ảnh và nó làm cho mọi thứ dễ hiểu hơn.
Ian Boyd

2
@Marco Ngoài ra, tôi tin rằng câu hỏi này bắt đầu trên trang web stats.stackexchange (hiện không còn tồn tại). Một bức tường của các công thức ít dễ tiếp cận hơn các phương pháp điều trị đơn giản, đồ họa, ít nghiêm ngặt hơn.
Ian Boyd

2
Tôi nghi ngờ điều này là chính xác. Hãy tưởng tượng hai bộ dữ liệu với mỗi chỉ một phép đo duy nhất. Phương sai của mỗi bộ là 0, nhưng tập hợp của cả hai phép đo có phương sai lớn hơn 0 nếu các điểm dữ liệu khác nhau.
Njol

1
@Njol, tôi nghĩ đó là lý do tại sao chúng ta giả sử tất cả các biến có phân phối bình thường. Và chúng ta có thể làm điều đó ở đây, bởi vì chúng ta nói về đo lường phisical. Trong ví dụ của bạn cả hai biến không được phân phối bình thường.
tworec

11

Đây là một câu hỏi cũ nhưng câu trả lời được chấp nhận không thực sự chính xác hoặc đầy đủ. Người dùng muốn tính độ lệch chuẩn trên dữ liệu 12 tháng trong đó độ lệch trung bình và độ lệch chuẩn đã được tính qua mỗi tháng. Giả sử rằng số lượng mẫu trong mỗi tháng là như nhau, thì có thể tính trung bình và phương sai mẫu trong năm từ dữ liệu của mỗi tháng. Để đơn giản, giả sử rằng chúng ta có hai bộ dữ liệu:

X={x1,....xN}

Y={y1,....,yN}

μxμyσx2σy2

Bây giờ chúng tôi muốn tính toán các ước tính tương tự cho

Z={x1,....,xN,y1,...,yN}

μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Để ước tính giá trị trung bình và phương sai trên tổng số chúng ta cần tính toán:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Vì vậy, nếu bạn có phương sai trên mỗi tập hợp con và bạn muốn phương sai trên toàn bộ thì bạn có thể tính trung bình phương sai của mỗi tập hợp con nếu tất cả chúng đều có cùng một giá trị. Mặt khác, bạn cần thêm phương sai trung bình của mỗi tập hợp con.

Giả sử trong nửa đầu năm chúng tôi sản xuất chính xác 1000 MWh mỗi ngày và trong nửa giây, chúng tôi sản xuất 2000 MWh mỗi ngày. Sau đó, giá trị trung bình và phương sai của sản xuất năng lượng trong nửa đầu và giây là 1000 và 2000 cho trung bình và phương sai là 0 cho cả hai nửa. Bây giờ có hai điều khác nhau mà chúng ta có thể quan tâm:

1- Chúng tôi muốn tính toán phương sai của sản xuất năng lượng trong cả năm : sau đó bằng cách tính trung bình hai phương sai chúng tôi đạt đến 0, điều này không đúng vì năng lượng mỗi ngày trong cả năm không phải là hằng số. Trong trường hợp này, chúng ta cần thêm phương sai của tất cả các phương tiện từ mỗi tập hợp con. Về mặt toán học trong trường hợp này, biến quan tâm ngẫu nhiên là sản xuất năng lượng mỗi ngày. Chúng tôi có số liệu thống kê mẫu trên các tập hợp con và chúng tôi muốn tính toán số liệu thống kê mẫu trong một thời gian dài hơn.

2- Chúng tôi muốn tính toán phương sai của sản xuất năng lượng mỗi năm: Nói cách khác, chúng tôi quan tâm đến việc sản xuất năng lượng thay đổi từ năm này sang năm khác. Trong trường hợp này, trung bình phương sai dẫn đến câu trả lời đúng là 0, vì mỗi năm chúng tôi sản xuất trung bình 1500 MHW. Về mặt toán học trong trường hợp này, biến quan tâm ngẫu nhiên là trung bình của sản xuất năng lượng mỗi ngày trong đó việc tính trung bình được thực hiện trong cả năm.


1

Tôi tin rằng những gì bạn có thể thực sự quan tâm mặc dù là lỗi tiêu chuẩn hơn là độ lệch chuẩn.

Lỗi tiêu chuẩn của giá trị trung bình (SEM) là độ lệch chuẩn của ước tính trung bình mẫu của trung bình dân số và điều đó sẽ cho bạn biết mức độ ước tính MWh hàng năm của bạn tốt như thế nào.

n

s=s12+s22++s12212×n

1

Tôi muốn nhấn mạnh một lần nữa tính không chính xác trong một phần của câu trả lời được chấp nhận. Các từ ngữ của câu hỏi dẫn đến nhầm lẫn.

Câu hỏi có Average và StdDev mỗi tháng, nhưng không rõ loại tập hợp con nào được sử dụng. Đây có phải là trung bình của 1 tuabin gió của toàn bộ trang trại hoặc trung bình hàng ngày của toàn bộ trang trại không? Nếu đó là trung bình hàng ngày cho mỗi tháng, bạn không thể cộng trung bình hàng tháng để lấy trung bình hàng năm vì chúng không có cùng mẫu số. Nếu đó là trung bình đơn vị, câu hỏi nên nêu

Chúng ta có thể nói rằng trong một năm trung bình, mỗi tuabin trong trang trại gió tạo ra 10.358 MWh, ...

Thay vì

Chúng ta có thể nói rằng trong một năm trung bình, trang trại gió tạo ra 10.358 MWh, ...

Hơn nữa, Độ lệch chuẩn hoặc phương sai là so sánh với mức trung bình của chính tập hợp. Nó KHÔNG chứa bất kỳ thông tin nào liên quan đến mức trung bình của toàn bộ.

Ví dụ phương sai

Hình ảnh không cần thiết rất chính xác nhưng nó truyền tải ý tưởng chung. Hãy tưởng tượng đầu ra của 1 trang trại gió như trong ảnh. Như bạn có thể thấy, phương sai "cục bộ" không liên quan gì đến phương sai "toàn cầu", bất kể bạn thêm hay nhân các số đó như thế nào. Bạn không thể dự đoán phương sai của năm bằng phương sai 2 năm rưỡi. Vì vậy, trong câu trả lời được chấp nhận, trong khi phép tính tổng là chính xác, phép chia cho 12 để lấy số hàng tháng có nghĩa là không có gì. . Trong ba phần, phần đầu tiên và phần cuối cùng là sai, phần thứ hai là đúng.

Một lần nữa, đó là ứng dụng rất sai, xin vui lòng không làm theo nó hoặc nó sẽ khiến bạn gặp rắc rối. Chỉ cần tính toán cho toàn bộ, sử dụng tổng sản lượng hàng năm / hàng tháng của mỗi đơn vị làm điểm dữ liệu tùy thuộc vào việc bạn muốn số hàng năm hay hàng tháng, đó sẽ là câu trả lời chính xác. Bạn có thể muốn một cái gì đó như thế này. Đây là số được tạo ngẫu nhiên của tôi. Nếu bạn có dữ liệu, kết quả trong ô O2 sẽ là câu trả lời của bạn.

nhập mô tả hình ảnh ở đây


Cảm ơn bạn rất nhiều vì hình ảnh đã giúp tôi rất nhiều để hiểu tại sao câu trả lời được chấp nhận là không đầy đủ và thậm chí có thể sai. Bạn giải thích nó rất tốt, cảm ơn bạn!
Kay

Điều này cho thấy sự nguy hiểm của việc bỏ phiếu. Những người bỏ phiếu là những người không biết câu trả lời. Trái ngược với mã hóa, những người bỏ phiếu là những người làm cho mã hoạt động, càng nhiều phiếu, câu trả lời càng tốt. Đối với thống kê / toán học, nhiều phiếu hơn chỉ có nghĩa là nó hấp dẫn hơn.
Tam Lê
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.