Bình thường là gì?


Câu trả lời:


29

Giả định về tính quy tắc chỉ là giả định rằng biến quan tâm ngẫu nhiên cơ bản được phân phối bình thường , hoặc xấp xỉ như vậy. Theo trực giác, tính quy phạm có thể được hiểu là kết quả của tổng số lượng lớn các sự kiện ngẫu nhiên độc lập.

Cụ thể hơn, phân phối bình thường được xác định bởi chức năng sau:

văn bản thay thế

nơi σ 2 là giá trị trung bình và phương sai, tương ứng, và sẽ xuất hiện như sau:μσ2

văn bản thay thế

Điều này có thể được kiểm tra theo nhiều cách , có thể ít nhiều phù hợp với vấn đề của bạn bởi các tính năng của nó, chẳng hạn như kích thước của n. Về cơ bản, tất cả đều kiểm tra các tính năng được mong đợi nếu phân phối là bình thường (ví dụ: phân phối lượng tử dự kiến ).


33

Y=a+bx+eYe


16
+1. Cuối cùng, ai đó đã chỉ ra khía cạnh quan trọng nhất của câu hỏi này: trong hầu hết các tình huống, "tính quy tắc" quan trọng đối với phần dư hoặc để lấy mẫu phân phối số liệu thống kê, không liên quan đến phân phối của dân số!
whuber

4
e

Có điều kiện gì?
bill_e

1
@bill_e biến độc lập
Glen_b -Reinstate Monica

10

Một câu hỏi liên quan có thể được tìm thấy ở đây về giả định bình thường của lỗi (hoặc nói chung hơn về dữ liệu nếu chúng ta không có kiến ​​thức trước về dữ liệu).

Về cơ bản,

  1. Đó là thuận tiện về mặt toán học để sử dụng phân phối bình thường. (Nó liên quan đến Least Squares phù hợp và dễ giải quyết với giả)
  2. Do Định lý giới hạn trung tâm, chúng tôi có thể giả định rằng có rất nhiều sự thật tiềm ẩn ảnh hưởng đến quá trình và tổng các hiệu ứng riêng lẻ này sẽ có xu hướng hành xử giống như phân phối bình thường. Trong thực tế, nó có vẻ là như vậy.

Một lưu ý quan trọng từ đó là, như Terence Tao nói ở đây , "Nói một cách đơn giản, định lý này khẳng định rằng nếu người ta lấy một thống kê là sự kết hợp của nhiều thành phần dao động độc lập và ngẫu nhiên, thì không có thành phần nào có ảnh hưởng quyết định đến toàn bộ , sau đó thống kê đó sẽ được phân phối xấp xỉ theo một luật gọi là phân phối bình thường ".

Để làm rõ điều này, hãy để tôi viết một đoạn mã Python

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

Phân phối ngẫu nhiên

Phân phối theo cấp số nhân

Phân bố đồng đều

Như có thể thấy từ các số liệu, phân phối kết quả (tổng) có xu hướng phân phối bình thường bất kể các loại phân phối riêng lẻ. Vì vậy, nếu chúng ta không có đủ thông tin về các tác động cơ bản trong dữ liệu, giả định về tính quy tắc là hợp lý.


1
CLT không cho phép chúng tôi giả định có rất nhiều hiệu ứng riêng lẻ trong bất kỳ quy trình nhất định nào - nếu chúng tôi được cho rằng có rất nhiều yếu tố cá nhân không quá phụ thuộc vào phép đo (không có yếu tố nào có quá nhiều trong tổng số biến thể), chúng ta có thể được biện minh trong việc giả định tính quy tắc bằng cách gọi CLT. Giả định về nhiều đóng góp trước khi áp dụng CLT, đây không phải là kết quả của CLT. Nếu không thì mọi thứ sẽ bình thường, trong khi thực tế điều đó đôi khi gần đúng.
Glen_b -Reinstate Monica

5

Bạn không thể biết liệu có sự bình thường hay không và đó là lý do tại sao bạn phải đưa ra một giả định ở đó. Bạn chỉ có thể chứng minh sự vắng mặt của tính quy phạm với các bài kiểm tra thống kê.

Thậm chí tệ hơn, khi bạn làm việc với dữ liệu trong thế giới thực, gần như chắc chắn rằng không có sự bình thường thực sự trong dữ liệu của bạn.

Điều đó có nghĩa là bài kiểm tra thống kê của bạn luôn có một chút sai lệch. Câu hỏi là liệu bạn có thể sống với sự thiên vị của nó. Để làm được điều đó, bạn phải hiểu dữ liệu của mình và loại quy tắc mà công cụ thống kê của bạn giả định.

Đó là lý do tại sao các công cụ Thường xuyên cũng chủ quan như các công cụ Bayes. Bạn không thể xác định dựa trên dữ liệu mà nó thường được phân phối. Bạn phải giả định tính bình thường.


5
Bạn không thể chứng minh bất cứ điều gì bằng cách sử dụng số liệu thống kê. Một bằng chứng có nghĩa là chính xác. Thống kê là về xác suất. Ngay cả kết quả ap = 0,99 của bình phương Chi cũng không "chứng minh" rằng phân phối cơ bản là không bình thường. Nó không chắc là nó bình thường.
xmjx

@xmjx: Bạn thậm chí không thể nói rằng một phân phối nhất định có thể được phân phối bình thường. Nếu bạn có phân phối với 99,99% giá trị của bạn là 1 nhưng 0,01% giá trị của bạn là 1000000, kiểm tra thống kê rằng các mẫu 100 giá trị có thể cho bạn biết sai rằng phân phối của bạn thường được phân phối.
Christian

2
Tôi không phải là một chuyên gia thống kê, vì vậy đây có vẻ như là một câu hỏi ngớ ngẩn ... không phải là "tính bình thường thực sự" tồn tại trong quy trình cơ bản tạo ra biến chứ không phải dữ liệu? Nó có vẻ như là một sự phân biệt ngớ ngẩn, nhưng có lẽ nó có thể cứu một số tìm kiếm linh hồn. Nếu dữ liệu được thu thập không chính xác bình thường, nhưng quá trình ngẫu nhiên cơ bản hoạt động theo cách cơ bản là bình thường, đó có phải là tình huống mà bạn có thể quyết định "sống với sự thiên vị" không?
Jonathan

@Christian - nhận xét của bạn rằng "... 100 giá trị có cơ hội tốt ..." hoàn toàn không phải do tôi hack: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> Giả định về tính quy tắc vẫn bị "từ chối" bởi Kiểm tra KS.
rolando2

Tôi thích câu trả lời này (+1) nhưng hơi bi quan về những gì có thể được thực hiện với giả định về tính quy tắc. Nó thường là điểm khởi đầu tốt cho bất kỳ mô hình hóa nào và bạn có thể khái quát hóa cho một lớp phân phối rất rộng bằng cách lấy hỗn hợp hoặc hàm của các biến ngẫu nhiên phân phối thông thường.
xác suất

4

Giả định về tính quy tắc giả định dữ liệu của bạn thường được phân phối (đường cong hình chuông hoặc phân phối gaussian). Bạn có thể kiểm tra điều này bằng cách vẽ dữ liệu hoặc kiểm tra các biện pháp cho sự suy yếu (độ sắc nét của đỉnh) và độ lệch (?) (Nếu hơn một nửa dữ liệu nằm ở một phía của đỉnh).


2
Những mức độ kurtosis và xiên được chấp nhận để đáp ứng giả định về tính quy tắc?
Một con sư tử

5
Hầu hết các phương pháp thống kê giả định tính chuẩn, không phải của dữ liệu, mà là một biến ngẫu nhiên giả định, ví dụ: thuật ngữ lỗi trong hồi quy tuyến tính. Kiểm tra liên quan đến việc xem xét các phần dư, không phải dữ liệu gốc!

3

Các câu trả lời khác đã bao gồm những gì là bình thường và đề xuất phương pháp kiểm tra tính chuẩn. Christian nhấn mạnh rằng trong thực tế tính bình thường hoàn hảo hầu như không tồn tại.

Tôi nhấn mạnh rằng độ lệch quan sát so với tính chuẩn không nhất thiết có nghĩa là các phương pháp giả định tính chuẩn có thể không được sử dụng và kiểm tra tính chuẩn có thể không hữu ích.

  1. Sự sai lệch so với tính quy tắc có thể được gây ra bởi các ngoại lệ là do lỗi trong việc thu thập dữ liệu. Trong nhiều trường hợp kiểm tra nhật ký thu thập dữ liệu, bạn có thể sửa các số liệu này và tính quy phạm thường được cải thiện.
  2. Đối với các mẫu lớn, phép thử tính quy tắc sẽ có thể phát hiện độ lệch không đáng kể so với tính chuẩn.
  3. Các phương pháp giả định tính quy tắc có thể mạnh mẽ đối với tính phi chuẩn và cho kết quả có độ chính xác chấp nhận được. Thử nghiệm t được biết là mạnh mẽ theo nghĩa này, trong khi thử nghiệm F không phải là nguồn ( permalink ) . Liên quan đến một phương pháp cụ thể, tốt nhất là kiểm tra tài liệu về sự mạnh mẽ.

1
Tôi nghĩ lý do tại sao tính bình thường là một giả định tốt là do việc sử dụng dữ liệu tương đối thiếu - chỉ hai khoảnh khắc đầu tiên được sử dụng để ước tính với phân phối bình thường. Điều này làm cho việc kiểm tra chẩn đoán mô hình bình phương tối thiểu rất dễ dàng - về cơ bản bạn chỉ cần tìm các ngoại lệ có thể ảnh hưởng đến số liệu thống kê đầy đủ.
xác suất

3

Y=μ+Xβ+ϵϵσ2ϵ

Trong ba giả định này, 2) và 3) chủ yếu quan trọng hơn 1)! Vì vậy, bạn nên bận tâm nhiều hơn với họ. George Box đã nói điều gì đó trong dòng "" Để thực hiện một thử nghiệm sơ bộ về phương sai thay vì đưa ra biển trên một chiếc thuyền để tìm hiểu xem điều kiện có đủ bình tĩnh để một tàu biển rời cảng không! "- [Box," Non -normality và các thử nghiệm về phương sai ", 1953, Biometrika 40, trang 318-335]"

Điều này có nghĩa là, các phương sai không bằng nhau rất đáng quan tâm, nhưng thực sự việc kiểm tra chúng là rất khó, bởi vì các thử nghiệm bị ảnh hưởng bởi tính phi quy tắc quá nhỏ đến mức không quan trọng đối với thử nghiệm phương tiện. Ngày nay, có các xét nghiệm không tham số cho các phương sai không bằng nhau mà DEFINITELY nên được sử dụng.

Nói tóm lại, hãy bận tâm bản thân mình ĐẦU TIÊN về phương sai không đồng đều, sau đó là về tính quy tắc. Khi bạn đã đưa ra ý kiến ​​về họ, bạn có thể nghĩ về sự bình thường!

Đây là rất nhiều lời khuyên tốt: http://rfd.uoregon.edu/files/rfd/StatisticResource/glm10_homog_var.txt


Tôi khá chắc chắn rằng giải thích của tôi là đúng. Box cũng đã viết rất dài về điều này trong Box, Hunter & Hunter: Statistics for Experimenters mà tôi đã đọc kỹ. Nhưng bây giờ tôi thấy rằng những gì tôi đã viết về những gì không phải là những gì tôi muốn nói, nó nên nói ... sau đó về sự bình thường! phương sai không bằng nhau quan trọng hơn nhiều so với tính chuẩn tắc. Tất nhiên, độc lập là mẹ của tất cả các giả định.
kjetil b halvorsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.