Là độ lệch chuẩn hoàn toàn sai? Làm thế nào bạn có thể tính toán tiêu chuẩn cho chiều cao, số đếm và vv (số dương)?


13

Giả sử tôi đang tính chiều cao (tính bằng cm) và các số phải cao hơn 0.

Dưới đây là danh sách mẫu:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

Trong ví dụ này, theo phân phối chuẩn, 99,7% giá trị phải nằm trong khoảng từ 3 lần độ lệch chuẩn so với giá trị trung bình. Tuy nhiên, thậm chí gấp đôi độ lệch chuẩn trở thành âm:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Tuy nhiên, số của tôi phải tích cực. Vì vậy, chúng phải ở trên 0. Tôi có thể bỏ qua các số âm nhưng tôi nghi ngờ đây là cách chính xác để tính xác suất sử dụng độ lệch chuẩn.

Ai đó có thể giúp tôi hiểu nếu tôi đang sử dụng điều này một cách chính xác? Hay tôi cần chọn một phương pháp khác?

Thành thật mà nói, toán học là toán học. Nó không quan trọng nếu nó là phân phối bình thường hay không. Nếu nó hoạt động với số không dấu, nó cũng hoạt động với số dương! Tôi có lầm không?

EDIT1: Đã thêm biểu đồ

Để rõ ràng hơn, tôi đã thêm biểu đồ dữ liệu thực của mình nhập mô tả hình ảnh ở đây

EDIT2: Một số giá trị

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
Tôi nghĩ rằng sự hiểu lầm ở đây là phân phối chỉ có thể có số dương là không bình thường, vì vậy quy tắc 99,7% mà bạn nêu không áp dụng. Thứ hai, từ công thức độ lệch chuẩn (mẫu), bạn có thể thấy rằng không có điều kiện nào đối với bất kỳ giá trị ban đầu nào là dương - vậy tại sao nó phải sai? Có thể nó được sử dụng sai, nhưng số liệu thống kê chủ yếu là bất khả tri và không nên áp dụng một cách thiếu suy nghĩ.
Momo

8
Vẻ đẹp của các 68-95-99.7 quy tắc, @Momo, là nó không áp dụng ngay cả với nhiều bản phân phối decidedly không bình thường. Trong trường hợp này, 50% số nằm trong 1 sd của giá trị trung bình và 100% nằm trong 2 sds của giá trị trung bình. Quan sát rằng 68% chính xác xấp xỉ 50% và 95% chính xác xấp xỉ 100% trong phạm vi sai lệch mà chúng ta mong đợi của một tập dữ liệu nhỏ như vậy. Vì vậy, ví dụ này minh họa quy tắc của ngón tay cái, mặc dù nó có thể hơi thiếu thuyết phục do kích thước nhỏ của nó.
whuber

2
Tôi đồng ý. Hãy để tôi sửa điều này thành "vì vậy quy tắc 99,7% mà bạn nêu không nhất thiết phải áp dụng". Nguồn gốc của sự nhầm lẫn ở đây dường như áp dụng điều này như một thứ gì đó hơn là một quy tắc và không phải là về sắc thái của bạn "xấp xỉ trong phạm vi sai lệch mà chúng ta mong đợi". OP bình luận cuối cùng chỉ cho thấy rằng.
Momo

4
Có nên thay đổi tiêu đề thành một cái gì đó như "Cách áp dụng quy tắc 68-95-99.7 cho dữ liệu phải tích cực" không? Tôi nghĩ rằng nắm bắt được nhiều hơn tinh thần của câu hỏi. (Đó không phải là vấn đề với cách tính độ lệch chuẩn, đó là những gì tiêu đề gợi ý, mà là cách nó được sử dụng để tìm xác suất.)
Silverfish

4
Độ lệch chuẩn không "sai". Những gì kém chính xác là đối xử như những điều bình thường không có; các tỷ lệ bên ngoài một số độ lệch chuẩn cho trước theo quy tắc sẽ không phải lúc nào cũng chính xác cho các phân phối khác. Đối với các phân phối không theo phương thức liên tục, gần 2 độ lệch chuẩn, các khoảng cách hai mặt thường khá hợp lý, nhưng xa hơn xác suất đuôi có thể có sai số tương đối rất cao.
Glen_b -Reinstate Monica

Câu trả lời:


23

Nếu số của bạn chỉ có thể dương, thì việc mô hình hóa chúng thành phân phối bình thường có thể không được mong muốn tùy thuộc vào trường hợp sử dụng của bạn, bởi vì phân phối bình thường được hỗ trợ trên tất cả các số thực.

Có lẽ bạn sẽ muốn mô hình chiều cao như một phân phối theo cấp số nhân, hoặc có thể là một phân phối bình thường bị cắt ngắn?

EDIT: Sau khi xem dữ liệu của bạn, có vẻ như nó có thể phù hợp với phân phối theo cấp số nhân! Bạn có thể ước tính tham số bằng cách lấy, ví dụ, một cách tiếp cận khả năng tối đa.λ


10
Câu đầu tiên không đúng nói chung: Nhiều đại lượng có giá trị dương thường có thể được xấp xỉ bằng cách phân phối bình thường. Nếu khối lượng xác suất dưới 0 là rất nhỏ, điều đó không thành vấn đề cho tất cả các mục đích thực tế. Trong trường hợp cụ thể này, nó chắc chắn đúng.
COOLSerdash

13
-1 Câu trả lời này phản ánh quan niệm sai lầm (và imho pernicious) được tổ chức rộng rãi về mô hình thống kê là gì và ý nghĩa thực sự của mô hình dữ liệu với phân phối chuẩn. Thật vậy, nếu chúng ta tin những gì bài đăng này nói, thì nó "chắc chắn sẽ không chính xác" khi ước tính phân phối Binomial với phân phối Bình thường - nhưng về mặt lịch sử, đây là cách sử dụng phổ biến nhất của phân phối Bình thường! (Chỉnh sửa: Tôi đã xóa downvote vì bạn đã sửa đổi khiếu nại ban đầu thành yêu cầu chính xác và hữu ích hơn nhiều.)
whuber

4
Nó phụ thuộc vào những gì bạn có nghĩa là "cấp trên." Một phần chi phí của một mô hình nằm ở những gì nó cần để thực hiện nó. Nếu bạn áp dụng một mô hình Bình thường bị cắt cụt, có lẽ bạn đang cam kết thực hiện nhiều phép tính số tùy chỉnh thay vì các phép tính phân tích nhanh chóng, dễ dàng và có lẽ chính xác. Một mục đích khác của một mô hình là cung cấp cái nhìn sâu sắc : người ta nghĩ, "nếu thiên nhiên hành xử ít nhất là giống như những giả định này, thì hậu quả nào có thể được suy ra từ những giả định đó?" Thông thường, thực hiện các suy luận như vậy dễ dàng hơn với một xấp xỉ đơn giản.
whuber

2
@whuber: sau khi "đẹp chính xác" tôi đã thêm "sai" về mặt tinh thần. Lấy làm tiếc. Tất nhiên, cũng "nhưng hữu ích" cho mỗi Hộp.
Stephan Kolassa

2
Mặc dù dữ liệu bao gồm các giá trị không nguyên?
Kevin Li

19

"Cách chính xác để áp dụng 68-95-99.7 cho trường hợp của tôi là gì?"

Người ta chỉ nên mong đợi quy tắc ngón tay cái cho phạm vi bảo hiểm chỉ áp dụng chính xác nếu bạn (1) nhìn vào toàn bộ dân số (vô hạn) hoặc phân phối xác suất lý thuyết và (2) phân phối là hoàn toàn bình thường .

Nếu bạn lấy một mẫu ngẫu nhiên có kích thước 20, thậm chí từ phân phối bình thường thực sự, bạn sẽ không luôn thấy rằng 95% dữ liệu (19 trong số 20 mục) nằm trong độ lệch chuẩn 2 (hoặc 1.960) của giá trị trung bình. Trên thực tế, không có gì đảm bảo rằng 19 trong số 20 mặt hàng sẽ nằm trong phạm vi 1.960 độ lệch chuẩn của dân số, cũng như 19 trong số 20 mặt hàng nằm trong 1.960 độ lệch chuẩn của trung bình mẫu.

Nếu bạn lấy một mẫu dữ liệu từ một phân phối không được phân phối hoàn toàn bình thường, thì một lần nữa người ta sẽ không mong đợi quy tắc 68-95-99.7 được áp dụng chính xác. Nhưng nó có thể gần như hợp lý để làm như vậy, đặc biệt nếu kích thước mẫu lớn (quy tắc "độ che phủ 99,7%" có thể không đặc biệt có ý nghĩa với cỡ mẫu dưới 1000) và phân phối gần với quy tắc. Về lý thuyết, rất nhiều dữ liệu như chiều cao hoặc cân nặng không thể đến từ một phân phối chính xác bình thường hoặc điều đó có nghĩa là xác suất nhỏ, nhưng khác không, chúng là âm. Tuy nhiên, đối với dữ liệu có phân phối xấp xỉ và không đối xứng, trong đó các giá trị trung gian là phổ biến hơn và giá trị cực cao hoặc thấp giảm trong xác suất, mô hình phân phối bình thường có thể phù hợp cho các mục đích thực tế.Nếu biểu đồ của tôi hiển thị đường cong hình chuông, tôi có thể nói dữ liệu của mình được phân phối bình thường không?

Nếu bạn muốn giới hạn ràng buộc về mặt lý thuyết áp dụng cho bất kỳ phân phối nào, thì hãy xem bất đẳng thức của Ch Quashev , trong đó nêu rõ rằng tối đa trong số các giá trị có thể nằm nhiều hơn1/k2kđộ lệch chuẩn so với giá trị trung bình. Điều này đảm bảo rằng ít nhất 75% dữ liệu nằm trong hai độ lệch chuẩn của giá trị trung bình và 89% trong ba độ lệch chuẩn. Nhưng những con số đó chỉ là mức tối thiểu được đảm bảo về mặt lý thuyết. Đối với nhiều bản phân phối hình chuông, bạn sẽ thấy rằng con số bao phủ độ lệch hai tiêu chuẩn đến gần hơn 95% so với 75%, và do đó "quy tắc ngón tay cái" từ phân phối bình thường vẫn hữu ích. Mặt khác, nếu dữ liệu của bạn đến từ một bản phân phối không có hình chuông, bạn có thể tìm thấy một mô hình thay thế mô tả dữ liệu tốt hơn và có quy tắc bảo hiểm khác.

(Một điều rất hay về quy tắc 68-95-99.7 là nó áp dụng cho mọi phân phối bình thường, bất kể tham số của nó là trung bình hay độ lệch chuẩn. Tương tự, bất đẳng thức của Ch Quashev áp dụng bất kể tham số, hoặc thậm chí phân phối, mặc dù chỉ Ví dụ, đưa ra các giới hạn thấp hơn cho phạm vi bảo hiểm. Nhưng nếu bạn áp dụng, ví dụ, một mô hình bình thường bị cắt cụt hoặc bị lệch , thì sẽ không có tương đương đơn giản với phạm vi bảo hiểm "68-95-99.7", bởi vì nó sẽ phụ thuộc vào các tham số của phân phối .)


7

Ai đó có thể giúp tôi hiểu nếu tôi đang sử dụng điều này một cách chính xác?

Ồ, thật dễ dàng. Không, bạn không sử dụng đúng cách.

Trước hết, bạn đang sử dụng một bộ dữ liệu khá nhỏ. Cố gắng trêu chọc hành vi thống kê từ tập kích thước này là điều chắc chắn có thể, nhưng giới hạn về độ tin cậy là (ahem) khá lớn. Đối với các tập dữ liệu nhỏ, độ lệch so với các phân phối dự kiến ​​là ngang bằng với khóa học và tập càng nhỏ thì vấn đề càng lớn. Hãy nhớ rằng, "Luật trung bình không chỉ cho phép những sự trùng hợp kỳ quặc nhất, nó đòi hỏi chúng."

Tồi tệ hơn, tập dữ liệu cụ thể bạn đang sử dụng đơn giản không giống như phân phối bình thường. Hãy suy nghĩ về nó - với giá trị trung bình là 498 bạn đã có hai mẫu dưới 0,1 và ba mẫu khác ở 0,748 trở lên. Sau đó, bạn đã có một cụm 3 điểm trong khoảng từ 17 đến 0,22. Nhìn vào tập dữ liệu cụ thể này và lập luận rằng nó phải được phân phối bình thường là một trường hợp khá hay của đối số Procrustean. Điều đó trông giống như một đường cong chuông cho bạn? Hoàn toàn có thể rằng dân số lớn hơn tuân theo phân phối bình thường hoặc bình thường đã sửa đổi và kích thước mẫu lớn hơn sẽ giải quyết được vấn đề, nhưng tôi sẽ không đặt cược vào nó, đặc biệt là không biết thêm về dân số.

Tôi nói đã sửa đổi bình thường, vì như Kevin Li đã chỉ ra, về mặt kỹ thuật, một phân phối bình thường bao gồm tất cả các số thực. Như đã được chỉ ra trong các bình luận cho câu trả lời của ông, điều này không ngăn cản việc áp dụng phân phối như vậy trong một phạm vi hạn chế và nhận được kết quả hữu ích. Như câu nói, "Tất cả các mô hình đều sai. Một số hữu ích."

Nhưng bộ dữ liệu cụ thể này chỉ đơn giản là không giống như suy ra một phân phối bình thường (thậm chí trong một phạm vi hạn chế) là một ý tưởng đặc biệt tốt. Nếu 10 điểm dữ liệu của bạn trông giống như .275, .325, .375, .425, .485, .525, .575, .625, .675, .725 (có nghĩa là 0.500), bạn có cho rằng phân phối bình thường không?


Tôi đã sử dụng một dữ liệu ngẫu nhiên để có thể giải thích nhu cầu và vấn đề của mình
Don Coder

1
@DonCoder Dữ liệu ngẫu nhiên (trừ khi bạn tinh chỉnh nó theo một cách nào đó) sẽ tuân theo phân phối thống nhất, không phải phân phối bình thường.
barrycarter

5
Dữ liệu ngẫu nhiên cần được tạo ra từ một số phân phối. Bạn đã chọn cái nào?
Peter Flom - Tái lập Monica

Tôi đã thêm biểu đồ dữ liệu thực của mình
Don Coder

2

Trong một trong những ý kiến ​​bạn nói rằng bạn đã sử dụng "dữ liệu ngẫu nhiên" nhưng bạn không nói từ phân phối nào. Nếu bạn đang nói về chiều cao của con người, chúng được phân phối một cách bình thường, nhưng dữ liệu của bạn không phù hợp từ xa với chiều cao của con người - của bạn là phân số của một cm!

Và dữ liệu của bạn không phải là bình thường từ xa. Tôi đoán bạn đã sử dụng phân phối đồng đều với giới hạn 0 và 1. Và bạn đã tạo một mẫu rất nhỏ. Hãy thử với một mẫu lớn hơn:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

vì vậy, không có dữ liệu nào vượt quá 2 sd so với giá trị trung bình, vì điều đó nằm ngoài giới hạn của dữ liệu. Và phần trong 1 sd sẽ xấp xỉ 0,56.


1

Thông thường, khi bạn có một ràng buộc rằng tất cả các mẫu của bạn phải dương tính, đáng để xem xét logarit của dữ liệu của bạn để xem phân phối của bạn có thể được xấp xỉ bằng phân phối logic hay không.


1

Một tính toán độ lệch chuẩn là tương đối với giá trị trung bình. Bạn có thể áp dụng độ lệch chuẩn cho các số luôn dương? Chắc chắn rồi. Nếu bạn thêm 1000 vào mỗi giá trị trong tập mẫu của mình, bạn sẽ thấy cùng một giá trị độ lệch chuẩn, nhưng bạn sẽ cung cấp cho mình nhiều phòng thở hơn không.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Tuy nhiên, việc thêm một hằng số tùy ý vào dữ liệu của bạn là bề ngoài. Khi sử dụng độ lệch chuẩn cho một tập dữ liệu quá nhỏ, bạn sẽ cần phải mong đợi đầu ra chưa được tinh chỉnh. Xem xét độ lệch chuẩn như ống kính máy ảnh lấy nét tự động: bạn cung cấp cho nó càng nhiều thời gian, hình ảnh sẽ càng rõ ràng. Nếu sau khi bạn theo dõi 1000000 điểm dữ liệu, độ lệch trung bình và độ lệch chuẩn của bạn vẫn giữ nguyên như với 10, thì tôi có thể bắt đầu đặt câu hỏi về tính hợp lệ của thử nghiệm của bạn.


1

Biểu đồ của bạn cho thấy rằng phân phối bình thường không phù hợp. Bạn có thể thử lognatural hoặc một cái gì đó không đối xứng và hoàn toàn tích cực


1

Điểm chính là rất nhiều người trong chúng ta lười biếng *, và việc phân phối bình thường thuận tiện để làm việc với những người lười biếng. Thật dễ dàng để làm các phép tính bằng cách sử dụng phân phối bình thường và nó có nền tảng toán học tốt đẹp. Vì vậy, nó là một "mô hình" cho cách làm việc trên dữ liệu. Mô hình này thường hoạt động tốt đáng ngạc nhiên, và đôi khi rơi xuống trên mặt của nó.

Rõ ràng là các mẫu của bạn không chỉ ra phân phối bình thường trong dữ liệu. Vì vậy, giải pháp cho bạn tiến thoái lưỡng nan là chọn một "mô hình" khác và làm việc với một phân phối khác. Phân phối Weibull có thể được định hướng, có những người khác.

  • lười biếng trong việc không thực sự làm quen với dữ liệu và lựa chọn các mô hình tốt hơn khi cần thiết.

0

Về cơ bản, bạn đang sử dụng dữ liệu Tỷ lệ trái ngược với dữ liệu Interval. Các nhà địa lý trải qua điều này mọi lúc khi tính toán S / D cho lượng mưa hàng năm tại một địa điểm cụ thể (hơn 100 năm điểm mẫu tại Trung tâm hành chính LA) hoặc tuyết rơi (hơn 100 năm mẫu tuyết rơi tại hồ Big Bear). Chúng ta chỉ có thể có số dương, đó là như vậy.


0

Trong khí tượng học, sự phân bố của tốc độ gió trông rất giống thế này. Theo định nghĩa tốc độ gió cũng không âm.

Vì vậy, trong trường hợp của bạn, tôi chắc chắn sẽ xem xét phân phối Weibull .


0

Bạn bắt đầu với "theo phân phối bình thường" khi dữ liệu của bạn rõ ràng không được phân phối bình thường, đó là vấn đề đầu tiên. Bạn nói "Không quan trọng nó có phân phối bình thường hay không." Mà là vô nghĩa tuyệt đối. Bạn không thể sử dụng báo cáo về dữ liệu phân phối bình thường nếu dữ liệu của bạn không được phân phối bình thường.

Và bạn giải thích sai tuyên bố. "99,7% phải nằm trong ba độ lệch chuẩn". Và 99,7% dữ liệu của bạn thực sự nằm trong ba độ lệch chuẩn. Thậm chí tốt hơn, nó là 100% trong hai độ lệch chuẩn. Vì vậy, tuyên bố là đúng .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.