Làm cách nào để tính độ lệch chuẩn? Trong Excel?


29

Vì vậy, tôi có một bộ dữ liệu tỷ lệ phần trăm như vậy:

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

Tôi muốn tìm độ lệch chuẩn của tỷ lệ phần trăm, nhưng có trọng số cho khối lượng dữ liệu của họ. tức là, điểm dữ liệu đầu tiên và cuối cùng sẽ chiếm ưu thế trong tính toán.

Làm thế nào để làm điều đó? Và có một cách đơn giản để làm điều đó trong Excel?


Công thức với (M-1) / M là chính xác. Nếu bạn có nghi ngờ, hãy kiểm tra nó bằng cách đặt tất cả các trọng số bằng 1 và bạn sẽ có được công thức cổ điển cho ước tính không thiên vị cho độ lệch chuẩn với (N-1) trong mẫu số. To whuber: không bình thường không có nghĩa là không chính xác.

1
Công thức với (M-1) / M KHÔNG ĐÚNG. Hãy tưởng tượng bạn thêm một triệu điểm với trọng lượng một phần nghìn. Bạn hoàn toàn không thay đổi câu trả lời của mình bất kể các trọng số đó là gì, nhưng thuật ngữ (M1)/M trở thành 1? Tuyệt đối không! Nếu bạn quan tâm đến điều đó (M1)/M1 , sau đó bạn cũng quan tâm rằng đây chỉ là sai.
Rex Kerr

Phiếu bầu cao nhất là chính xác. Vui lòng kiểm tra itl.nist.gov/div898/software/dataplot/refman2/ch2/weightsd.pdf
Bo Wang

Tôi tự hỏi tại sao bạn muốn độ lệch chuẩn ở đây? bạn chỉ có số! Làm thế nào mà quá nhiều số? Đặc biệt là khi tỷ lệ phần trăm được giải thích và hiểu dễ dàng hơn. 4
xác suất

@probabilityislogic đó là một ví dụ đơn giản để giữ câu hỏi ngắn.
Yahel

Câu trả lời:


35

Công thức cho độ lệch chuẩn có trọng số là:

i=1Nwi(xix¯)2(M1)Mi=1Nwi,

Ở đâu

là số lượng quan sát.N

là số lượng trọng lượng khác không.M

là trọng lượngwi

là những quan sát.xi

là giá trị trung bình gia quyền.x¯

Hãy nhớ rằng công thức cho trung bình có trọng số là:

x¯=i=1Nwixii=1Nwi.

Sử dụng các trọng số phù hợp để có được kết quả mong muốn. Trong trường hợp của bạn, tôi sẽ đề nghị sử dụng .Number of cases in segmentTotal number of cases

Để làm điều này trong Excel, trước tiên bạn cần tính trung bình có trọng số. Sau đó tính toán trong một cột riêng. Phần còn lại phải rất dễ dàng.(xix¯)2


2
@Gilles, bạn nói đúng. deps_stats, phân số trong SD là không bình thường. Bạn có một trích dẫn cho công thức này hay ít nhất bạn có thể giải thích lý do bao gồm thuật ngữ đó không? (M1)/M
whuber

4
@Aaron Trọng lượng không phải lúc nào cũng được xác định để tính tổng thể, như được minh họa bằng các trọng số được đưa ra trong câu hỏi này!
whuber

2
(-1) Tôi đang hạ thấp câu trả lời này vì không có lời biện minh hay tham chiếu nào cho thuật ngữ đã được cung cấp (và tôi khá chắc chắn rằng nó không làm cho ước tính của phương sai không thiên vị, điều này sẽ rõ ràng động lực). (M1)/M
whuber

1
Trong ánh sáng của tài liệu tham khảo được thêm vào (không có thẩm quyền, nhưng nó là một tài liệu tham khảo) Tôi đang gỡ bỏ downvote. Tuy nhiên, tôi không ủng hộ câu trả lời này, vì các tính toán cho thấy trọng số được đề xuất không tạo ra ước tính không thiên vị cho bất cứ điều gì (trừ khi tất cả các trọng số bằng ). Khó khăn thực sự ở đây - đó là lỗi của câu hỏi, không phải câu trả lời - là không rõ "độ lệch chuẩn trọng số" này đang cố ước tính điều gì. Nếu không có ước lượng xác định, sẽ không có lý do nào để đưa ra yếu tố ( M - 1 ) / M để "giảm sai lệch" (hoặc vì bất kỳ lý do nào khác). 1(M1)/M
whuber

1
@Mikhail Bạn đúng là "không bình thường" và "đúng" ít liên quan đến nhau. Tuy nhiên, kết quả bất thường thực sự đòi hỏi một chút biện minh hơn bởi vì bất thường là một trong những chỉ báo cho thấy một lỗi có thể đã được thực hiện. Đối số của bạn không hợp lệ: mặc dù công thức thực sự giảm xuống còn một cho công cụ ước lượng không thiên vị khi tất cả các trọng số đều bằng nhau, điều đó không có nghĩa là công cụ ước tính vẫn không thiên vị khi sử dụng trọng số không bằng nhau. Tôi không khẳng định kết luận của bạn là sai, nhưng chỉ có điều cho đến nay không có lời biện minh hợp lệ nào được đưa ra.
whuber

18

Các công thức có sẵn ở nhiều nơi, bao gồm Wikipedia .

Điều quan trọng là lưu ý rằng nó phụ thuộc vào ý nghĩa của trọng lượng . Cụ thể, bạn sẽ nhận được các câu trả lời khác nhau nếu các trọng số là tần số (nghĩa là bạn chỉ đang cố gắng tránh cộng tổng của mình), nếu các trọng số trên thực tế là phương sai của mỗi phép đo hoặc nếu chúng chỉ là một số giá trị bên ngoài bạn áp đặt dữ liệu của bạn.

Trong trường hợp của bạn, bề ngoài trông có vẻ như các trọng số là tần số nhưng chúng thì không . Bạn tạo dữ liệu của mình từ tần số, nhưng việc có 45 bản ghi 3 và 15 bản ghi 4 trong bộ dữ liệu của bạn không phải là vấn đề đơn giản. Thay vào đó, bạn cần sử dụng phương pháp cuối cùng. (Trên thực tế, tất cả những thứ này đều là rác - bạn thực sự cần sử dụng một mô hình quy trình phức tạp hơn đang tạo ra những con số này! Bạn dường như không có thứ gì đó tạo ra các số được phân phối thông thường, do đó, đặc trưng cho hệ thống với độ lệch chuẩn không phải là điều đúng đắn.)

Trong mọi trường hợp, công thức của phương sai (từ đó bạn tính độ lệch chuẩn theo cách thông thường) với trọng số "độ tin cậy" là

wi(xix)2wiwi2wi

nơi là giá trị trung bình gia quyền.x=wixi/wi

Bạn không có ước tính cho các trọng số, mà tôi cho rằng bạn muốn lấy tỷ lệ thuận với độ tin cậy. Lấy tỷ lệ phần trăm theo cách bạn sẽ làm cho phân tích trở nên khó khăn ngay cả khi chúng được tạo ra bởi quy trình Bernoulli, bởi vì nếu bạn đạt được điểm 20 và 0, bạn có tỷ lệ phần trăm vô hạn. Trọng số theo nghịch đảo của SEM là một điều phổ biến và đôi khi là tối ưu để làm. Có lẽ bạn nên sử dụng ước tính Bayes hoặc khoảng điểm Wilson .


2
+1. Các cuộc thảo luận về ý nghĩa khác nhau của trọng lượng là những gì tôi đang tìm kiếm trong chủ đề này cùng. Đó là một đóng góp quan trọng cho tất cả các câu hỏi của trang web này về số liệu thống kê có trọng số. (Tuy nhiên, tôi có một chút lo ngại về các nhận xét mang tính phụ huynh liên quan đến phân phối bình thường và độ lệch chuẩn, vì họ cho rằng SD không được sử dụng bên ngoài một mô hình dựa trên tính quy tắc.)
whuber

@whuber - Tất nhiên, định lý giới hạn trung tâm để giải cứu, tất nhiên! Nhưng đối với những gì OP đang làm, cố gắng mô tả tập hợp các số đó với độ lệch trung bình và độ lệch chuẩn dường như cực kỳ khó coi. Và nói chung, đối với nhiều người sử dụng, độ lệch chuẩn kết thúc khiến người ta cảm thấy hiểu lầm. Chẳng hạn, nếu phân phối là bất cứ thứ gì ngoài bình thường (hoặc xấp xỉ tốt), việc dựa vào độ lệch chuẩn sẽ cho bạn ý tưởng xấu về hình dạng của đuôi, khi đó chính xác là những cái đuôi mà bạn có thể quan tâm nhất trong thống kê thử nghiệm.
Rex Kerr

@RexKerr Chúng ta khó có thể đổ lỗi cho độ lệch chuẩn nếu mọi người đặt các diễn giải về nó mà không được bảo vệ. Nhưng chúng ta hãy tránh xa tính quy tắc và xem xét lớp phân phối không đối xứng liên tục, đối xứng rộng hơn nhiều với phương sai hữu hạn (ví dụ). Sau đó, giữa 89 và 100 phần trăm phân phối nằm trong hai độ lệch chuẩn. Điều đó thường khá hữu ích để biết (và 95% nằm khá nhiều ở giữa, vì vậy nó không bao giờ giảm hơn 7%); với nhiều phân phối phổ biến, khía cạnh đối xứng giảm không thay đổi nhiều (ví dụ: nhìn vào số mũ chẳng hạn) .... ctd
Glen_b -Reinstate Monica

ctd ... - hoặc nếu chúng tôi không thực hiện bất kỳ của những giả định, luôn có giới hạn Chebyshev bình thường mà làm ít nhất nói điều gì đó về đuôi và độ lệch chuẩn ..
Glen_b -Reinstate Monica

1
@Gabriel - Vâng, xin lỗi, tôi đã bị cẩu thả. (Tôi cho rằng mọi người có thể biết đó là cái gì bằng cách liếc nhìn.) Tôi đã sửa lại mô tả của mình.
Rex Kerr

5
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

Cột Glà trọng số, Cột Hlà giá trị


Sử dụng Ctrl + Shift + Enter là một gotcha đối với tôi, nhưng điều này dường như hoạt động khác.
philipkd

1

Nếu chúng ta coi trọng số như xác suất, thì chúng ta sẽ xây dựng chúng như sau:

ptôi= =vtôiΣtôivtôi,
Ở đâu vtôi - khối lượng dữ liệu.

Tiếp theo, rõ ràng là trung bình có trọng số là

μ^= =Σtôiptôixtôi,
và phương sai:
σ^2= =Σtôiptôi(xtôi-μ^)2

0
Option Explicit

Function wsdv(vals As Range, wates As Range)
Dim i, xV, xW, y As Integer
Dim wi, xi, WgtAvg, N
Dim sumProd, SUMwi

    sumProd = 0
    SUMwi = 0
    N = vals.Count  ' number of values to determine W Standard Deviation
    xV = vals.Column  ' Column number of first value element
    xW = wates.Column  ' Column number of first weight element
    y = vals.Row - 1  ' Row number of the values and weights

    WgtAvg = WorksheetFunction.SumProduct(vals, wates) / WorksheetFunction.Sum(wates)

    For i = 1 To N  ' step through the elements, calculating the sum of values and the sumproduct
        wi = ActiveSheet.Cells(i + y, xW).Value  ' (i+y, xW) is the cell containing the weight element
        SUMwi = SUMwi + wi
        xi = ActiveSheet.Cells(i + y, xV).Value  ' (i+y, xV) is the cell containing the value element
        sumProd = sumProd + wi * (xi - WgtAvg) ^ 2
    Next i

    wsdv = (sumProd / SUMwi * N / (N - 1)) ^ (1 / 2)  ' output of weighted standard deviation

End Function

2
Chào mừng đến với trang web, @ uswer71015. Đây dường như chỉ là mã. Bạn có thể thêm một số văn bản / giải thích về cách hoạt động của mã và cách nó trả lời câu hỏi không?
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.