Khi nào nên sử dụng phân phối của Sinh viên hoặc Bình thường trong hồi quy tuyến tính?


10

Tôi đang xem xét một số vấn đề và trong một số vấn đề để kiểm tra các hệ số, đôi khi tôi thấy mọi người sử dụng phân phối của Sinh viên và đôi khi tôi thấy phân phối Bình thường. Quy định là gì?


3
Đây không phải là một câu trả lời, nhưng xin lưu ý rằng phân phối tiếp cận phân phối bình thường khi tham số độ tự do càng lớn. Quá khứ , không có sự khác biệt đáng kể nào, đặc biệt là trong hầu hết các khung kiểm tra giả thuyết. Hành vi giới hạn là "từ trên xuống" theo nghĩa là nếu và , thìlà stochastically lớn hơn. tνν30TtνZN(0,1)|T||Z|
Đức hồng y

Câu trả lời:


15

Phân phối bình thường là phân phối mẫu lớn trong nhiều vấn đề thống kê có ý nghĩa liên quan đến một số phiên bản của Định lý giới hạn trung tâm: bạn có (khoảng) các thông tin độc lập đang được thêm vào để đi đến câu trả lời. Nếu ước tính tham số là bình thường không có triệu chứng, chức năng của chúng cũng sẽ bình thường không có triệu chứng (trong trường hợp thông thường).

Mặt khác, phân phối Student có nguồn gốc trong các điều kiện hạn chế hơn của các lỗi hồi quy thông thường. Nếu bạn có thể mua giả định này, bạn có thể mua phân phối đang được sử dụng để kiểm tra giả thuyết trong hồi quy tuyến tính. Việc sử dụng phân phối này cung cấp khoảng tin cậy rộng hơn so với việc sử dụng phân phối bình thường. Ý nghĩa thực sự của điều đó là trong các mẫu nhỏ, bạn cần ước tính mức độ không chắc chắn của mình, sai số bình phương trung bình hoặc độ lệch chuẩn của phần dư, . (Trong các mẫu lớn, bạn có nhiều thông tin như thể bạn biết, do đó, phân phối suy biến thành phân phối bình thường.)ttσt

Có một số trường hợp trong hồi quy tuyến tính, ngay cả với các mẫu hữu hạn, trong đó phân phối Sinh viên không thể được chứng minh. Chúng có liên quan đến vi phạm các điều kiện thứ hai về lỗi hồi quy; cụ thể là chúng là (1) phương sai không đổi và (2) độc lập. Nếu các giả định này bị vi phạm và bạn sửa các lỗi tiêu chuẩn của mình bằng cách sử dụng công cụ ước tính Eicker / White cho phần dư không đồng nhất, nhưng phần dư độc lập; hoặc công cụ ước tính Newey-West cho các lỗi tương quan huyết thanh hoặc lỗi tiêu chuẩn gộpđối với dữ liệu tương quan theo cụm, không có cách nào bạn có thể đưa ra lời biện minh hợp lý cho phân phối Sinh viên. Tuy nhiên, bằng cách sử dụng một phiên bản thích hợp của đối số quy tắc tiệm cận (mảng traing và như vậy), bạn có thể biện minh cho xấp xỉ bình thường (mặc dù bạn nên nhớ rằng khoảng tin cậy của bạn rất có thể sẽ quá hẹp).


1
(+1) Tôi thích hàm ý, trong phần mở đầu của đoạn thứ ba, hồi quy tuyến tính được thực hiện với các mẫu vô hạn (không "hữu hạn")!
whuber

@whuber: :) Trong sách của tôi, nếu nó là bình thường, nó phải dựa vào CLT hoặc một cái gì đó không có triệu chứng. Nếu không, nó có ý nghĩa nhiều như thế này .
StasK

6

Tôi thích sự đại diện của phân phối t sinh viên như là một hỗn hợp của phân phối bình thường và phân phối gamma:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

Lưu ý rằng giá trị trung bình của phân phối gamma là và phương sai của phân phối này là . Vì vậy, chúng ta có thể xem phân phối t là khái quát hóa giả định phương sai không đổi với giả định phương sai "tương tự". về cơ bản kiểm soát cách tương tự như chúng ta cho phép các phương sai được. Bạn cũng xem đây là hồi quy "trọng số ngẫu nhiên", vì chúng ta có thể sử dụng tích phân ở trên làm đại diện "biến ẩn" như sau:E[ρ|ν]=1V[ρ|ν]=2νν

yi=μi+eiρi

Trong đó và tất cả các biến độc lập. Trên thực tế, đây về cơ bản chỉ là định nghĩa của phân phối t, vìeiN(0,σ2)ρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

Bạn có thể thấy lý do tại sao kết quả này làm cho phân phối của sinh viên "mạnh" so với bình thường vì một lỗi lớn có thể xảy ra do giá trị lớn của hoặc do giá trị nhỏ của . Bây giờ becuase là phổ biến cho tất cả các quan sát, nhưng là cụ thể cho thứ i, điều "lẽ thường" chung để kết luận là các ngoại lệ đưa ra bằng chứng cho nhỏ . Ngoài ra, nếu bạn thực hiện hồi quy tuyến tính , bạn sẽ thấy rằng là trọng số cho quan sát thứ i, giả sử rằng biết:yiμiσ2ρiσ2ρiρiμi=xiTβρiρi

β^=(iρixixiT)1(iρixiyi)

Vì vậy, một ngoại lệ cấu thành bằng chứng cho nhỏ , điều đó có nghĩa là quan sát thứ i sẽ giảm cân. Ngoài ra, một "ngoại lệ" nhỏ - một quan sát được dự đoán / trang bị tốt hơn nhiều so với phần còn lại - tạo thành bằng chứng cho lớn . Do đó quan sát này sẽ được cân nhắc nhiều hơn trong hồi quy. Điều này phù hợp với những gì người ta sẽ làm bằng trực giác với một điểm dữ liệu ngoại lệ hoặc tốt.ρiρi

Lưu ý rằng không có "quy tắc" nào để quyết định những điều này, mặc dù câu trả lời của tôi và những người khác cho câu hỏi này có thể hữu ích cho việc tìm kiếm một số bài kiểm tra bạn có thể thực hiện dọc theo đường sai lệch hữu hạn (t sinh viên là phương sai vô hạn cho mức độ tự do nhỏ hơn hoặc bằng tới hai).


+1: điều này có vẻ đúng, nhưng tôi không nghĩ bạn nên nói hỗn hợp phân phối gamma bình thường và phân phối gamma bình thường và thúc đẩy việc xây dựng này bằng cách nói rằng phân phối gamma bình thường là liên hợp trước khi phân phối bình thường (tham số theo giá trị trung bình và độ chính xác).
Neil G

Vâng, quan điểm về hỗn hợp - mặc dù tôi không thể nghĩ ra một cách không vụng về để sửa nó ngay bây giờ. Lưu ý rằng hình thức này không phải là duy nhất cho các bản phân phối liên hợp - ví dụ: nếu chúng ta thay thế gamma pdf bằng pdf theo cấp số nhân đảo ngược, chúng ta sẽ có phân phối laplace. Điều này dẫn đến "độ lệch nhỏ nhất tuyệt đối" thay vì bình phương nhỏ nhất như một hình thức củng cố phân phối bình thường. Các bản phân phối khác sẽ dẫn đến các "sự củng cố" khác - có lẽ không đẹp về mặt phân tích như học sinh.
xác suất

Nếu X là biến ngẫu nhiên tiêu chuẩn thông thường và U là biến ngẫu nhiên chi bình phương có độ tự do, thì là của Sinh viên t (ν) biến ngẫu nhiên. ở đây . X(U/ν)
Carl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.