Regression: tại sao kiểm tra bình thường của dư tổng thể, thay vì dư có điều kiện về


10

Tôi hiểu rằng trong hồi quy tuyến tính, các lỗi được giả sử là được phân phối bình thường, có điều kiện dựa trên giá trị dự đoán của y. Sau đó, chúng tôi xem phần dư như một loại proxy cho các lỗi.

Nó thường được đề xuất để tạo đầu ra như thế này : nhập mô tả hình ảnh ở đây. Tuy nhiên, tôi không hiểu ý nghĩa của việc lấy phần dư cho từng điểm dữ liệu và trộn lẫn với nhau trong một âm mưu.

Tôi hiểu rằng chúng tôi khó có thể có đủ điểm dữ liệu để đánh giá chính xác liệu chúng tôi có số dư bình thường ở mỗi giá trị dự đoán của y hay không.

Tuy nhiên, không phải là câu hỏi liệu chúng ta có phần dư bình thường nói chung là một phần riêng biệt hay không và phần nào không liên quan rõ ràng đến giả định mô hình của phần dư bình thường ở mỗi giá trị dự đoán của y? Chúng ta không thể có phần dư bình thường ở mỗi giá trị dự đoán của y, trong khi có phần dư tổng thể khá không bình thường?


1
Có thể có một số giá trị cho khái niệm này - có lẽ bootstrapping có thể giúp đỡ ở đây (để có được sự sao chép của phần dư)
xác suất

2
Bạn có thể đưa ra một tham chiếu cho hồi quy tuyến tính, các lỗi được giả sử là được phân phối bình thường, có điều kiện dựa trên giá trị dự đoán của y (nếu bạn có bất kỳ)?
Richard Hardy

Tôi không có bất kỳ nguồn cụ thể nào trong đầu khi tôi đăng câu hỏi, nhưng về "giả định mô hình hóa là biến trả lời thường được phân phối xung quanh đường hồi quy (là ước tính của trung bình có điều kiện), với phương sai không đổi" từ đây . Sẽ hoan nghênh phản hồi thêm nếu tôi sai về điều này.
user1205901 - Phục hồi Monica

Câu trả lời:


17

Chúng ta không thể có phần dư bình thường ở mỗi giá trị dự đoán của y, trong khi có phần dư tổng thể khá không bình thường?

Không - ít nhất, không theo giả định tiêu chuẩn rằng phương sai của các lỗi là không đổi.

y^

Vì vậy, từ điều này chúng ta có thể hình thành một tam đoạn luận nhỏ. Nếu các phân phối riêng lẻ cho các giá trị của yếu tố dự đoán X là bình thường (và phương sai của chúng bằng nhau), thì phân phối của phần dư tổng thể là bình thường. Vì vậy, nếu chúng ta quan sát rằng sự phân phối của phần dư tổng thể rõ ràng là không bình thường, điều này ngụ ý rằng các phân phối cho X không bình thường với phương sai bằng nhau. Đó là một sự vi phạm các giả định tiêu chuẩn.


1
p(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X

Có thích hợp để nói rằng các lề không bình thường cho phép chúng ta "từ chối" các điều kiện không bình thường, nhưng các lề bình thường đó không cho phép chúng ta "chấp nhận" các điều kiện thông thường?
Shadowtalker

6
p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
Hóa đơn

1
ε | XN(0,σ2)εN(0,σ2)

@ssdecontrol Từ câu trả lời: " Nếu các phân phối riêng lẻ cho các giá trị của yếu tố dự đoán X là bình thường (và phương sai của chúng là bằng nhau), thì phân phối của phần dư tổng thể là bình thường. " Không chắc tôi có thể rõ ràng hơn bao nhiêu?
Jake Westfall

3

Nó đã được nóirằng bình phương tối thiểu thông thường trong y (OLS) là tối ưu trong lớp các công cụ ước lượng không thiên vị tuyến tính khi các lỗi là homoscedastic và serorrated không tương quan. Về phần dư homoscedastic, phương sai của phần dư là độc lập tương tự với nơi chúng ta sẽ đo sự thay đổi của cường độ dư trên trục x. Ví dụ: giả sử rằng sai số của phép đo của chúng tôi tăng tỷ lệ thuận với việc tăng giá trị y. Sau đó chúng ta có thể lấy logarit của các giá trị y đó trước khi thực hiện hồi quy. Nếu điều đó được thực hiện, chất lượng của sự phù hợp tăng lên so với việc phù hợp với một mô hình lỗi tỷ lệ mà không cần lấy logarit. Nói chung để có được tính đồng nhất, chúng ta có thể phải lấy đối ứng của dữ liệu trục y hoặc trục x, logarit, căn bậc hai hoặc căn bậc hai hoặc áp dụng hàm mũ. Một thay thế cho điều này là sử dụng chức năng cân,(ymodel)2y2(ymodel)2

Đã nói rất nhiều, điều thường xuyên xảy ra là làm cho phần dư trở nên đồng nhất hơn làm cho chúng được phân phối bình thường hơn, nhưng thường xuyên, tài sản homoscedastic là quan trọng hơn. Điều đó sau đó sẽ phụ thuộc vào lý do tại sao chúng ta đang thực hiện hồi quy. Ví dụ: nếu căn bậc hai của dữ liệu được phân phối bình thường hơn so với lấy logarit, nhưng lỗi là loại tỷ lệ, thì việc kiểm tra logarit sẽ hữu ích trong việc phát hiện sự khác biệt giữa các quần thể hoặc phép đo, nhưng để tìm ra dự kiến giá trị chúng ta nên sử dụng căn bậc hai của dữ liệu, bởi vì chỉ căn bậc hai của dữ liệu là phân phối đối xứng mà giá trị trung bình, chế độ và trung bình được dự kiến ​​là bằng nhau.

Hơn nữa, điều thường xảy ra là chúng tôi không muốn có câu trả lời cho chúng tôi ít dự đoán lỗi nhất về các giá trị trục y và các hồi quy đó có thể bị sai lệch nhiều. Ví dụ, đôi khi chúng ta có thể muốn hồi quy ít nhất là lỗi trong x. Hoặc đôi khi chúng ta mong muốn khám phá mối quan hệ giữa y và x, sau đó không phải là vấn đề hồi quy thông thường. Sau đó, chúng ta có thể sử dụng Theil, nghĩa là độ dốc trung bình, hồi quy, như một sự thỏa hiệp đơn giản nhất giữa hồi quy lỗi x và y ít nhất. Hoặc nếu chúng ta biết phương sai của các biện pháp lặp lại là gì đối với cả x và y, chúng ta có thể sử dụng hồi quy Deming. Hồi quy Theil tốt hơn khi chúng ta có những điểm vượt trội, điều làm những điều khủng khiếp đối với kết quả hồi quy thông thường. Và, đối với hồi quy độ dốc trung bình, vấn đề nhỏ là phần dư có được phân phối bình thường hay không.

BTW, tính quy phạm của phần dư không nhất thiết phải cung cấp cho chúng tôi bất kỳ thông tin hồi quy tuyến tính hữu ích nào.Ví dụ: giả sử chúng ta đang thực hiện các phép đo lặp lại của hai phép đo độc lập. Vì chúng ta có tính độc lập, nên mối tương quan dự kiến ​​là 0 và độ dốc đường hồi quy có thể là bất kỳ số ngẫu nhiên nào không có độ dốc hữu ích. Chúng tôi thực hiện các phép đo lặp lại để thiết lập ước tính vị trí, nghĩa là trung bình (hoặc trung vị (phân phối Cauchy hoặc Beta với một đỉnh) hoặc nói chung là giá trị kỳ vọng của dân số) và từ đó tính toán phương sai theo x và phương sai trong y, sau đó có thể được sử dụng cho hồi quy Deming, hoặc bất cứ điều gì. Hơn nữa, giả định rằng sự chồng chất do đó là bình thường ở cùng một nghĩa nếu dân số ban đầu là bình thường dẫn chúng ta đến không có hồi quy tuyến tính hữu ích. Để thực hiện điều này hơn nữa, giả sử sau đó tôi thay đổi các tham số ban đầu và thiết lập một phép đo mới với các vị trí tạo hàm Monte-x và y-value khác nhau và đối chiếu dữ liệu đó với lần chạy đầu tiên. Sau đó, phần dư là bình thường theo hướng y ở mọi giá trị x, nhưng, theo hướng x, biểu đồ sẽ có hai đỉnh, không phù hợp với các giả định OLS, và độ dốc và giao thoa của chúng ta sẽ bị sai lệch vì một không có dữ liệu khoảng bằng nhau trên trục x. Tuy nhiên, hồi quy của dữ liệu đối chiếu bây giờ có độ dốc và chặn nhất định, trong khi trước đó thì không. Hơn nữa, vì chúng tôi chỉ thực sự kiểm tra hai điểm với lấy mẫu lặp lại, chúng tôi không thể kiểm tra tính tuyến tính. Thật vậy, hệ số tương quan sẽ không phải là phép đo đáng tin cậy cho cùng một lý do,

Ngược lại, đôi khi người ta cũng cho rằng các lỗi có điều kiện phân phối bình thường trên các biến hồi quy. Giả định này là không cần thiết cho tính hợp lệ của phương pháp OLS, mặc dù một số thuộc tính mẫu hữu hạn bổ sung có thể được thiết lập trong trường hợp khi nó (đặc biệt là trong lĩnh vực kiểm định giả thuyết), xem tại đây. Khi nào thì OLS trong hồi quy đúng ya? Ví dụ, nếu chúng ta thực hiện các phép đo giá cổ phiếu đóng cửa mỗi ngày vào cùng một thời điểm chính xác, thì không có phương sai trục t (Think x-trục). Tuy nhiên, thời gian của giao dịch cuối cùng (thanh toán) sẽ được phân phối ngẫu nhiên và hồi quy để khám phá mối quan hệ giữa các biến sẽ phải kết hợp cả hai phương sai. Trong trường hợp đó, OLS trong y sẽ chỉ ước tính ít sai số nhất trong giá trị y, đó sẽ là một lựa chọn kém cho ngoại suy giá giao dịch cho một khoản thanh toán, vì thời gian của thỏa thuận đó cũng cần được dự đoán. Ngoài ra, lỗi phân phối thông thường có thể kém hơn Mô hình định giá Gamma .

Hiện có vấn đề gì? Chà, một số cổ phiếu giao dịch nhiều lần trong một phút và những người khác không giao dịch mỗi ngày hoặc thậm chí mỗi tuần, và nó có thể tạo ra sự khác biệt lớn về mặt số. Vì vậy, nó phụ thuộc vào những thông tin chúng ta mong muốn. Nếu chúng ta muốn hỏi thị trường sẽ hành xử như thế nào vào ngày mai khi đóng cửa, đó là câu hỏi "loại" OLS, nhưng, câu trả lời có thể là phi tuyến, phần dư không bình thường và yêu cầu hàm phù hợp có hệ số hình dạng phù hợp với độ dẫn phù hợp (và / hoặc khoảnh khắc cao hơn) để thiết lập độ cong chính xác cho phép ngoại suy . (Người ta có thể phù hợp với các công cụ phái sinh cũng như một chức năng, ví dụ như sử dụng các khối vuông, vì vậy khái niệm thỏa thuận phái sinh không nên gây ngạc nhiên, mặc dù nó hiếm khi được khám phá.) Nếu chúng ta muốn biết liệu chúng ta có kiếm được tiền hay không. trên một cổ phiếu cụ thể, sau đó chúng tôi không sử dụng OLS, vì vấn đề là sau đó là chia nhỏ.


1
Bạn có thể nói rằng tính quy phạm là đủ nhưng không cần thiết cho một suy luận hợp lệ? Tại sao không chỉ kiểm tra độ không đồng nhất cụ thể? Chắc chắn một sự phân phối cận biên nặng nề (ví dụ) của phần dư không nhất thiết có nghĩa là giả định quy tắc có điều kiện là sai, phải không? Tuy nhiên, phần dư có đuôi nặng sẽ do thiết kế thất bại trong việc kiểm tra tính quy tắc cho phần dư.
Shadowtalker

Đối với t-test homoscedasticity thường quan trọng hơn. Outliers thực hiện 1.359 SD >> IQR từ đó giảm sức mạnh của kiểm tra t. Sau đó thử kiểm tra lại thông số hoặc thử nghiệm Wilcoxon, phương pháp này sẽ hoạt động trong hầu hết các trường hợp (có thể không phải khi r> 0,9999) bất kể loại phân phối hoặc mức độ không đồng nhất. Trong thực tế, nếu một người đang kiểm tra một vài tham số tương tự, thì Wilcoxon hoặc kiểm tra t sẽ hoạt động tốt hơn để sắp xếp các xác suất thấp và cao, do đó, dữ liệu thường tuyên bố những gì hữu ích hơn.
Carl

Tạo 1.349 SD >> IQR. 1.349 là số lượng SD mà phân phối bình thường có cho một phạm vi liên dải (IQR). Một số bản phân phối, như bản phân phối Cauchy, hoặc Học sinh có hai bậc tự do không có SD, những kẻ ngoại phạm giết chết chúng, nhưng chúng có IQR, và sau đó người ta sử dụng Wilcoxon hoặc các bài kiểm tra không tham số khác để kiểm tra vị trí.
Carl

Sau khi suy nghĩ thêm (xem tài liệu mới trong câu trả lời) tính bình thường của phần dư trục y là tốt để có, nhưng không đủ.
Carl

Phân phối đuôi nặng làm những điều khủng khiếp cho phương trình hồi quy. Ví dụ, nếu chúng ta khảo sát tất cả các sườn núi có thể trong một tập dữ liệu, một thường được phân phối Cauchy dốc, AKA Student's- t với một mức độ tự do. Đối với phân phối Cauchy, không có khoảnh khắc. Nghĩa là, người ta có thể tính toán độ lệch trung bình và độ lệch chuẩn và dữ liệu càng có nhiều dữ liệu, độ lệch trung bình và độ lệch chuẩn sẽ càng thất thường. Giá trị dự kiến ​​của phân phối Cauchy là trung vị và để tính giá trị trung bình người ta sẽ phải kiểm duyệt các giá trị cực trị.
Carl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.