Trong nhiều phương pháp thống kê khác nhau, có một "giả định về tính quy tắc". "Tính quy tắc" là gì và làm thế nào để tôi biết nếu có tính quy tắc?
Trong nhiều phương pháp thống kê khác nhau, có một "giả định về tính quy tắc". "Tính quy tắc" là gì và làm thế nào để tôi biết nếu có tính quy tắc?
Câu trả lời:
Giả định về tính quy tắc chỉ là giả định rằng biến quan tâm ngẫu nhiên cơ bản được phân phối bình thường , hoặc xấp xỉ như vậy. Theo trực giác, tính quy phạm có thể được hiểu là kết quả của tổng số lượng lớn các sự kiện ngẫu nhiên độc lập.
Cụ thể hơn, phân phối bình thường được xác định bởi chức năng sau:
nơi và σ 2 là giá trị trung bình và phương sai, tương ứng, và sẽ xuất hiện như sau:
Điều này có thể được kiểm tra theo nhiều cách , có thể ít nhiều phù hợp với vấn đề của bạn bởi các tính năng của nó, chẳng hạn như kích thước của n. Về cơ bản, tất cả đều kiểm tra các tính năng được mong đợi nếu phân phối là bình thường (ví dụ: phân phối lượng tử dự kiến ).
Một câu hỏi liên quan có thể được tìm thấy ở đây về giả định bình thường của lỗi (hoặc nói chung hơn về dữ liệu nếu chúng ta không có kiến thức trước về dữ liệu).
Về cơ bản,
Một lưu ý quan trọng từ đó là, như Terence Tao nói ở đây , "Nói một cách đơn giản, định lý này khẳng định rằng nếu người ta lấy một thống kê là sự kết hợp của nhiều thành phần dao động độc lập và ngẫu nhiên, thì không có thành phần nào có ảnh hưởng quyết định đến toàn bộ , sau đó thống kê đó sẽ được phân phối xấp xỉ theo một luật gọi là phân phối bình thường ".
Để làm rõ điều này, hãy để tôi viết một đoạn mã Python
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
Như có thể thấy từ các số liệu, phân phối kết quả (tổng) có xu hướng phân phối bình thường bất kể các loại phân phối riêng lẻ. Vì vậy, nếu chúng ta không có đủ thông tin về các tác động cơ bản trong dữ liệu, giả định về tính quy tắc là hợp lý.
Bạn không thể biết liệu có sự bình thường hay không và đó là lý do tại sao bạn phải đưa ra một giả định ở đó. Bạn chỉ có thể chứng minh sự vắng mặt của tính quy phạm với các bài kiểm tra thống kê.
Thậm chí tệ hơn, khi bạn làm việc với dữ liệu trong thế giới thực, gần như chắc chắn rằng không có sự bình thường thực sự trong dữ liệu của bạn.
Điều đó có nghĩa là bài kiểm tra thống kê của bạn luôn có một chút sai lệch. Câu hỏi là liệu bạn có thể sống với sự thiên vị của nó. Để làm được điều đó, bạn phải hiểu dữ liệu của mình và loại quy tắc mà công cụ thống kê của bạn giả định.
Đó là lý do tại sao các công cụ Thường xuyên cũng chủ quan như các công cụ Bayes. Bạn không thể xác định dựa trên dữ liệu mà nó thường được phân phối. Bạn phải giả định tính bình thường.
Giả định về tính quy tắc giả định dữ liệu của bạn thường được phân phối (đường cong hình chuông hoặc phân phối gaussian). Bạn có thể kiểm tra điều này bằng cách vẽ dữ liệu hoặc kiểm tra các biện pháp cho sự suy yếu (độ sắc nét của đỉnh) và độ lệch (?) (Nếu hơn một nửa dữ liệu nằm ở một phía của đỉnh).
Các câu trả lời khác đã bao gồm những gì là bình thường và đề xuất phương pháp kiểm tra tính chuẩn. Christian nhấn mạnh rằng trong thực tế tính bình thường hoàn hảo hầu như không tồn tại.
Tôi nhấn mạnh rằng độ lệch quan sát so với tính chuẩn không nhất thiết có nghĩa là các phương pháp giả định tính chuẩn có thể không được sử dụng và kiểm tra tính chuẩn có thể không hữu ích.
Trong ba giả định này, 2) và 3) chủ yếu quan trọng hơn 1)! Vì vậy, bạn nên bận tâm nhiều hơn với họ. George Box đã nói điều gì đó trong dòng "" Để thực hiện một thử nghiệm sơ bộ về phương sai thay vì đưa ra biển trên một chiếc thuyền để tìm hiểu xem điều kiện có đủ bình tĩnh để một tàu biển rời cảng không! "- [Box," Non -normality và các thử nghiệm về phương sai ", 1953, Biometrika 40, trang 318-335]"
Điều này có nghĩa là, các phương sai không bằng nhau rất đáng quan tâm, nhưng thực sự việc kiểm tra chúng là rất khó, bởi vì các thử nghiệm bị ảnh hưởng bởi tính phi quy tắc quá nhỏ đến mức không quan trọng đối với thử nghiệm phương tiện. Ngày nay, có các xét nghiệm không tham số cho các phương sai không bằng nhau mà DEFINITELY nên được sử dụng.
Nói tóm lại, hãy bận tâm bản thân mình ĐẦU TIÊN về phương sai không đồng đều, sau đó là về tính quy tắc. Khi bạn đã đưa ra ý kiến về họ, bạn có thể nghĩ về sự bình thường!
Đây là rất nhiều lời khuyên tốt: http://rfd.uoregon.edu/files/rfd/StatisticResource/glm10_homog_var.txt