Phạm vi của các giá trị của độ lệch và kurtosis cho phân phối bình thường


11

Tôi muốn biết rằng phạm vi của các giá trị của độ lệchnhiễu loạn mà dữ liệu được coi là phân phối bình thường là gì.

Tôi đã đọc nhiều tranh luận và chủ yếu tôi nhận được câu trả lời lẫn lộn. Một số người nói về độ lệch và đối với kurtosis là một phạm vi chấp nhận được để phân phối bình thường. Một số người nói cho độ lệch là một phạm vi chấp nhận được. Tôi tìm thấy một cuộc thảo luận chi tiết ở đây: Phạm vi sai lệch và kurtosis chấp nhận được đối với phân phối dữ liệu thông thường liên quan đến vấn đề này là gì. Nhưng tôi không thể tìm thấy bất kỳ tuyên bố quyết định.( - 2 , 2 ) ( - 1.96 , 1.96 )(1,1)(2,2)(1.96,1.96)

Cơ sở để quyết định một khoảng thời gian như vậy là gì? Đây có phải là sự lựa chọn chủ quan? Hoặc có bất kỳ lời giải thích toán học đằng sau những khoảng thời gian này?


3
Điều gì hoặc ai định nghĩa "chấp nhận được"?
Glen_b -Reinstate Monica

Đó là một câu hỏi hay. Tôi không có câu trả lời rõ ràng cho việc này.
Dark_Knight

Tôi có đúng không khi nghĩ rằng đặt đằng sau câu hỏi của bạn là một phương pháp ngụ ý nào đó, một điều gì đó dọc theo dòng: "Trước khi ước tính mô hình này / thực hiện kiểm tra đó, hãy kiểm tra độ lệch mẫu và độ nhiễu. Nếu cả hai trong phạm vi được chỉ định trước đều sử dụng một số thủ tục lý thuyết bình thường, nếu không thì sử dụng cái gì khác. " ...?
Glen_b -Reinstate Monica

Nếu vậy, các giả định với các giả định thông thường bạn có thể sử dụng một cách tiếp cận như vậy là gì? Những biến nào bạn sẽ kiểm tra điều này trên? Các thủ tục thay thế bạn sử dụng là gì nếu bạn kết luận rằng chúng không "chấp nhận được" theo một số tiêu chí?
Glen_b -Reinstate Monica

Ngoài ra - và điều này có thể quan trọng đối với ngữ cảnh, đặc biệt trong trường hợp một số lý do được đưa ra để chọn một số giới hạn - bạn có thể bao gồm bất kỳ trích dẫn nào trong số đó có nguồn gốc từ đó mà bạn có thể nắm bắt được (đặc biệt là các phạm vi được đề xuất khá khác nhau)? Một điều sẽ hữu ích khi biết từ bối cảnh như vậy - họ đang sử dụng loại tình huống này để làm gì?
Glen_b -Reinstate Monica

Câu trả lời:


6

Bài đăng gốc bỏ lỡ một vài điểm chính: (1) Không có "dữ liệu" nào có thể được phân phối bình thường. Dữ liệu nhất thiết phải rời rạc. Câu hỏi hợp lệ là "quy trình tạo ra dữ liệu có phải là quy trình phân phối bình thường không?" Nhưng (2) câu trả lời cho câu hỏi thứ hai luôn là "không", bất kể mọi kiểm tra thống kê hoặc đánh giá khác dựa trên dữ liệu mang lại cho bạn là gì. Thông thường các quy trình phân tán tạo ra dữ liệu với tính liên tục vô hạn, tính đối xứng hoàn hảo và xác suất được chỉ định chính xác trong phạm vi độ lệch chuẩn (ví dụ: 68-95-99.7), không có điều nào đúng với các quy trình làm phát sinh dữ liệu mà chúng ta có thể đo được bằng bất cứ điều gì thiết bị đo lường mà con người chúng ta có thể sử dụng.

Vì vậy, bạn không bao giờ có thể coi dữ liệu được phân phối bình thường và bạn không bao giờ có thể coi quy trình tạo ra dữ liệu là một quy trình được phân phối chính xác thông thường. Nhưng, như Glen_b đã chỉ ra, nó có thể không quá quan trọng, tùy thuộc vào việc bạn đang cố gắng làm gì với dữ liệu.

Thống kê Skewness và kurtosis có thể giúp bạn đánh giá một số loại sai lệch so với tính quy tắc của quy trình tạo dữ liệu của bạn. Họ là thống kê rất thay đổi, mặc dù. Các lỗi tiêu chuẩn được đưa ra ở trên không hữu ích vì chúng chỉ có giá trị theo quy tắc, có nghĩa là chúng chỉ hữu ích khi kiểm tra tính quy tắc, một bài tập cơ bản vô dụng. Sẽ tốt hơn nếu sử dụng bootstrap để tìm se, mặc dù các mẫu lớn sẽ là cần thiết để có được se chính xác.

Ngoài ra, kurtosis rất dễ giải thích, trái với bài viết trên. Nó là giá trị trung bình (hoặc giá trị mong đợi) của các giá trị Z, mỗi giá trị được đưa đến công suất thứ tư. Lớn | Z | các giá trị là ngoại lệ và đóng góp rất nhiều vào kurtosis. Nhỏ | Z | các giá trị, trong đó "đỉnh" của phân phối là, cung cấp cho Z ^ 4 giá trị rất nhỏ và về cơ bản không đóng góp gì cho sự suy yếu. Tôi đã chứng minh trong bài viết của mình https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ rằng kurtosis được xấp xỉ rất tốt bởi giá trị trung bình của các giá trị Z ^ 4 * I (| Z |> 1). Do đó, kurtosis đo lường xu hướng của quá trình tạo dữ liệu để tạo ra các ngoại lệ.


Chỉ cần làm rõ, ý nghĩa chính xác của "quy trình phân phối thông thường" là gì? Tôi hiểu những gì bạn đang nói về tính không thống nhất và tính liên tục của các biến ngẫu nhiên nhưng còn giả định về phân phối bình thường có thể được thực hiện bằng định lý Giới hạn trung tâm thì sao?
Dark_Knight

CLT không liên quan ở đây - chúng ta đang nói về phân phối tạo ra các giá trị dữ liệu riêng lẻ, không phải trung bình. "Quá trình phân phối thông thường" là một quá trình tạo ra các biến ngẫu nhiên được phân phối bình thường. Một trình tạo số ngẫu nhiên máy tính hoàn hảo bình thường sẽ là một ví dụ (một thứ như vậy không tồn tại, nhưng chúng khá tốt trong phần mềm chúng ta sử dụng.)
Peter Westfall

Ngoài ra, vì không có quy trình nào tạo ra dữ liệu mà chúng tôi có thể phân tích là quy trình bình thường, nên cũng có phân phối trung bình được tạo bởi bất kỳ quy trình nào như vậy cũng không bao giờ chính xác là bình thường, bất kể kích thước mẫu. Nhưng có, phân phối trung bình như vậy có thể gần với phân phối bình thường theo CLT. Sự gần gũi của các phân phối như vậy với bình thường phụ thuộc vào (i) cỡ mẫu và (ii) mức độ không quy tắc của quy trình tạo dữ liệu tạo ra các giá trị dữ liệu riêng lẻ.
Peter Westfall

4
Xin chào Peter - bạn có thể tránh các tài liệu tham khảo như "ở trên" vì thứ tự sắp xếp sẽ thay đổi. Những gì ở trên cho bạn có thể không ở trên để người tiếp theo nhìn. Nếu bạn có nghĩa là bài viết của gung hoặc bài viết của tôi (vẫn đang được chỉnh sửa, vì tôi đang làm việc trên một số khía cạnh của nó), bạn có thể xác định chúng bởi tác giả của họ.
Glen_b -Reinstate Monica

Bạn dường như ở trên để khẳng định rằng sự tổn thương cao hơn hàm ý xu hướng sản xuất cao hơn. Trừ khi bạn xác định các ngoại lệ một cách tự nhiên (nghĩa là để đưa ra yêu cầu đúng), đây không phải là một tuyên bố đúng trong trường hợp chung. Ví dụ, thật dễ dàng để xây dựng các cặp phân phối trong đó một cặp có đuôi nặng hơn có độ nhiễu thấp hơn.
Glen_b -Reinstate Monica

5

Những gì bạn dường như đang yêu cầu ở đây là một lỗi tiêu chuẩn cho sự sai lệch và kurtosis của một mẫu được rút ra từ một dân số bình thường. Lưu ý rằng có nhiều cách khác nhau để ước tính những thứ như độ lệch hoặc độ béo (kurtosis), rõ ràng sẽ ảnh hưởng đến lỗi tiêu chuẩn sẽ là gì. Các biện pháp phổ biến nhất mà mọi người nghĩ đến được biết đến nhiều hơn về mặt kỹ thuật là khoảnh khắc tiêu chuẩn thứ 3 và thứ 4.

[1,)3kurtosis3[2,)skewness2+124/N0

Đối với những gì nó có giá trị, các lỗi tiêu chuẩn là:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

0

  • <|.5|
  • [|.5|,|1|)
  • |1|

Một tổng quan giới thiệu tốt về độ lệch và kurtosis có thể được tìm thấy ở đây .


3

[Trong phần tiếp theo tôi giả sử bạn đang đề xuất một cái gì đó như "kiểm tra độ lệch mẫu và độ nhiễu, nếu cả hai trong một số phạm vi được chỉ định trước sử dụng một số quy trình lý thuyết bình thường, nếu không thì sử dụng một cái gì đó khác".]

Có một loạt các khía cạnh về vấn đề này, trong đó chúng ta sẽ chỉ có không gian cho một số cân nhắc. Tôi sẽ bắt đầu bằng cách liệt kê những gì tôi nghĩ rằng các vấn đề quan trọng có thể được xem xét trước khi sử dụng một tiêu chí như thế này. Tôi sẽ cố gắng quay lại và viết một chút về mỗi mục sau:

Các vấn đề cần xem xét

  1. Làm thế nào xấu các loại phi bình thường quan trọng đối với bất cứ điều gì chúng ta đang làm?

  2. Làm thế nào là khó khăn để nhận những sai lệch bằng cách sử dụng phạm vi trên độ lệch mẫu và kurtosis?

    Một điều mà tôi đồng ý với trong đề xuất - nó nhìn vào một cặp các biện pháp liên quan đến kích thước hiệu lực thi hành ( bao nhiêu độ lệch từ bình thường) hơn là ý nghĩa. Theo nghĩa đó, nó sẽ tiến gần hơn đến việc giải quyết một cái gì đó hữu ích mà một bài kiểm tra giả thuyết chính thức sẽ có xu hướng bác bỏ những sai lệch nhỏ ở các cỡ mẫu lớn, trong khi đưa ra sự an ủi sai lầm về việc không từ chối các sai lệch lớn hơn (và có tác động hơn) tại cỡ mẫu nhỏ. (Kiểm tra giả thuyết giải quyết câu hỏi sai ở đây.)

    Tất nhiên ở các cỡ mẫu nhỏ, nó vẫn có vấn đề theo nghĩa là các biện pháp này rất "ồn ào", vì vậy chúng ta vẫn có thể bị lạc lối ở đó (một khoảng tin cậy sẽ giúp chúng ta thấy nó thực sự tồi tệ đến mức nào).

    Nó không cho chúng ta biết sự sai lệch trong độ lệch hoặc kurtosis liên quan đến các vấn đề với bất cứ điều gì chúng ta muốn có tính quy tắc - và các quy trình khác nhau có thể hoàn toàn khác nhau trong các phản ứng của chúng đối với tính phi quy tắc.

    Nó không giúp chúng ta nếu sự sai lệch của chúng ta so với tính bình thường là một loại mà sự sai lệch và kurtosis sẽ bị mù.

  3. Nếu bạn đang sử dụng các thống kê mẫu này làm cơ sở để quyết định giữa hai quy trình, thì tác động đến các tính chất của suy luận kết quả là gì (ví dụ: đối với thử nghiệm giả thuyết, mức độ quan trọng và sức mạnh của bạn trông như thế nào?)

  4. Có một số lượng vô hạn các bản phân phối có độ chính xác và độ lệch giống như phân phối bình thường nhưng rõ ràng là không bình thường. Họ thậm chí không cần phải đối xứng! Làm thế nào để sự tồn tại của những điều đó ảnh hưởng đến việc sử dụng các thủ tục như vậy? Là doanh nghiệp cam chịu từ đầu?

  5. Có bao nhiêu sự thay đổi trong độ lệch mẫu và độ nhiễu mà bạn có thể thấy trong các mẫu được rút ra từ các bản phân phối bình thường? (Tỷ lệ mẫu bình thường nào chúng ta sẽ bỏ qua theo quy tắc nào đó?)

    [Một phần vấn đề này có liên quan đến một số điều mà gung thảo luận trong câu trả lời của anh ấy.]

  6. Có thể có một cái gì đó tốt hơn để làm thay thế?

Cuối cùng, nếu sau khi xem xét tất cả các vấn đề này, chúng tôi quyết định rằng chúng tôi nên tiếp tục và sử dụng phương pháp này, chúng tôi sẽ xem xét các câu hỏi xuất phát từ câu hỏi của bạn:

  1. các giới hạn tốt để đặt trên xiên và kurtosis cho các thủ tục khác nhau là gì? Những biến nào chúng ta cần phải lo lắng trong thủ tục nào?

    (vd


Tôi sẽ quay lại và thêm một số suy nghĩ, nhưng bất kỳ ý kiến ​​/ câu hỏi nào bạn có trong lúc này có thể hữu ích.


0

Và tôi cũng không hiểu tại sao chúng ta cần bất kỳ phạm vi giá trị cụ thể nào cho độ lệch & kurtosis để thực hiện bất kỳ kiểm tra quy tắc nào?
Dark_Knight
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.