Giả định của hồi quy bội: giả định quy tắc khác với giả định phương sai không đổi như thế nào?


20

Tôi đọc rằng đây là những điều kiện để sử dụng mô hình hồi quy bội:

  1. phần dư của mô hình gần như bình thường,
  2. độ biến thiên của phần dư gần như không đổi
  3. phần dư là độc lập, và
  4. mỗi biến có liên quan tuyến tính đến kết quả.

Làm thế nào là 1 và 2 khác nhau?

Bạn có thể thấy một ở đây ngay:

nhập mô tả hình ảnh ở đây

Vì vậy, biểu đồ trên nói rằng phần dư có 2 độ lệch chuẩn là 10 so với Y-hat. Điều đó có nghĩa là phần dư tuân theo phân phối bình thường. Bạn có thể suy ra 2 từ này không? Rằng sự biến thiên của phần dư gần như không đổi?


7
Tôi cho rằng thứ tự của những thứ đó là sai. Theo thứ tự quan trọng tôi sẽ nói 4, 3, 2, 1. Theo cách đó, mỗi giả định bổ sung cho phép mô hình được sử dụng để giải quyết một tập hợp vấn đề lớn hơn, trái với thứ tự trong câu hỏi của bạn, trong đó giả định hạn chế nhất Là đầu tiên.
Matthew Drury

2
Những giả định này là cần thiết cho các số liệu thống kê suy luận. Không có giả định nào được thực hiện để tổng các lỗi bình phương được giảm thiểu.
David Lane

1
Tôi tin rằng tôi có nghĩa là 1, 3, 2, 4. 1 phải được đáp ứng ít nhất là cho mô hình có ích cho tất cả, 3 là cần thiết để mô hình nhất quán, tức là hội tụ đến một cái gì đó ổn định khi bạn nhận được nhiều dữ liệu hơn , 2 là cần thiết để ước tính có hiệu quả, nghĩa là không có cách nào khác tốt hơn để sử dụng dữ liệu để ước tính cùng một dòng, và ít nhất là 4, để chạy thử nghiệm giả thuyết trên các tham số ước tính.
Matthew Drury

3
Liên kết bắt buộc với bài đăng trên blog của A. Gelman về các giả định chính của hồi quy tuyến tính là gì? .
usεr11852 nói Phục hồi Monic

2
Vui lòng cung cấp một nguồn cho sơ đồ của bạn nếu nó không phải là công việc của riêng bạn.
Nick Cox

Câu trả lời:


44

1. Phân phối bình thường của phần dư :

Điều kiện thông thường có hiệu lực khi bạn đang cố gắng đạt được khoảng tin cậy và / hoặc giá trị p.

ε|XN(0,σ2In) không phải là điều kiện Gauss Markov .


nhập mô tả hình ảnh ở đây

Biểu đồ này cố gắng minh họa sự phân bố các điểm trong dân số bằng màu xanh lam (với đường hồi quy dân số là một đường màu lục lam), được đặt trên một tập dữ liệu mẫu trong các chấm màu vàng lớn (với đường hồi quy ước tính được vẽ ở đường màu vàng nét đứt). Rõ ràng điều này chỉ dành cho tiêu dùng theo khái niệm, vì sẽ có các điểm vô cực cho mỗi giá trị ) - vì vậy đây là sự phân biệt biểu tượng đồ họa của khái niệm hồi quy khi phân phối liên tục các giá trị xung quanh giá trị trung bình (tương ứng với giá trị dự đoán của biến "độc lập") tại mỗi giá trị đã cho của biến hồi quy hoặc biến giải thích.X=x

Nếu chúng tôi chạy các ô chẩn đoán R trên dữ liệu "dân số" mô phỏng, chúng tôi sẽ nhận được ...

nhập mô tả hình ảnh ở đây

Phương sai của phần dư là không đổi dọc theo tất cả các giá trị củaX.

Cốt truyện điển hình sẽ là:

nhập mô tả hình ảnh ở đây


Về mặt khái niệm, việc giới thiệu nhiều biến hồi quy hoặc biến giải thích không làm thay đổi ý tưởng. Tôi thấy hướng dẫn thực hành của gói swirl()cực kỳ hữu ích trong việc hiểu làm thế nào nhiều hồi quy thực sự là một quá trình hồi quy các biến phụ thuộc với nhau mang lại sự thay đổi còn lại, không giải thích được trong mô hình; hoặc đơn giản hơn, một dạng véc tơ của hồi quy tuyến tính đơn giản :

Kỹ thuật chung là chọn một biến hồi quy và thay thế tất cả các biến khác bằng phần dư của hồi quy của chúng so với biến đó.


2. Độ biến thiên của phần dư gần như không đổi (Homoskedasticity) :

E[εi2|X]=σ2

Các vấn đề với vi phạm điều kiện này là:

Sự không đồng nhất có những hậu quả nghiêm trọng đối với người ước tính OLS. Mặc dù công cụ ước tính OLS vẫn không thiên vị, SE ước tính là sai. Bởi vì điều này, khoảng tin cậy và các giả thuyết kiểm tra không thể dựa vào. Ngoài ra, công cụ ước tính OLS không còn XANH LÁ.


nhập mô tả hình ảnh ở đây

Trong biểu đồ này, phương sai tăng theo các giá trị của biến hồi quy (biến giải thích), trái ngược với hằng số. Trong trường hợp này, phần dư được phân phối bình thường, nhưng phương sai của phân phối bình thường này thay đổi (tăng) với biến giải thích.

Lưu ý rằng đường hồi quy "thực" (dân số) không thay đổi đối với đường hồi quy dân số theo độ đồng nhất trong ô thứ nhất (màu xanh đậm), nhưng rõ ràng bằng trực giác rằng các ước tính sẽ không chắc chắn hơn.

Các lô chẩn đoán trên tập dữ liệu là ...

nhập mô tả hình ảnh ở đây

tương ứng với phân phối "đuôi nặng" , điều có ý nghĩa là chúng ta đã kính thiên văn tất cả các âm mưu Gaussian dọc "cạnh nhau" thành một hình duy nhất, sẽ giữ lại hình dạng chuông của nó, nhưng có đuôi rất dài.


@Glen_b "... một phạm vi bảo hiểm đầy đủ về sự khác biệt giữa hai người cũng sẽ xem xét homoskedastic-nhưng-không-bình thường."

nhập mô tả hình ảnh ở đây

Phần dư bị lệch nhiều và phương sai tăng theo các giá trị của biến giải thích.

Đây sẽ là các lô chẩn đoán ...

nhập mô tả hình ảnh ở đây

tương ứng với đánh dấu xiên phải.

Để đóng vòng lặp, chúng ta cũng sẽ thấy sự sai lệch trong một mô hình homoskedastic với phân phối lỗi không theo Gaussian:

nhập mô tả hình ảnh ở đây

với các lô chẩn đoán như ...

nhập mô tả hình ảnh ở đây


2
Cảm ơn nhiều. Tôi cảm thấy cần phải khắc phục sự phân biệt đối xử của dân số được sử dụng như một công cụ trực quan. Tôi có thể đăng mã, nhưng tôi do dự vì có một mức độ toán học sáng tạo :-)
Antoni Parellada

3
Minh họa về sự khác biệt giữa lỗi thông thường và lỗi homoscedastic bằng cách hiển thị một âm mưu thỏa mãn cả hai và sau đó hiển thị bình thường nhưng không-homoskedastic là tuyệt vời. Tôi đoán một phạm vi bảo hiểm đầy đủ về sự khác biệt giữa hai người cũng sẽ xem xét homoskedastic-nhưng-không-bình thường. [Tôi không đề nghị bạn thêm một minh họa như vậy, nhưng đó là cánh tay thứ ba hữu ích để mọi người ghi nhớ khi xem xét các giả định.]
Glen_b -Reinstate Monica

7

Đó không phải là lỗi của OP, nhưng tôi bắt đầu cảm thấy mệt mỏi khi đọc thông tin sai lệch như thế này.

Tôi đọc rằng đây là những điều kiện để sử dụng mô hình hồi quy bội:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"Mô hình hồi quy bội" chỉ là một nhãn khai báo rằng một biến có thể được biểu diễn dưới dạng hàm của các biến khác.

Không phải là thuật ngữ lỗi thực sự cũng như phần dư của mô hình cần gần như bất cứ thứ gì cụ thể - nếu phần dư trông bình thường, điều này tốt cho suy luận thống kê tiếp theo .

Độ biến thiên (phương sai) của thuật ngữ lỗi không cần phải gần như không đổi - nếu không, chúng ta có một mô hình với độ không đồng nhất mà ngày nay khá dễ xử lý.

Phần dư không độc lập trong mọi trường hợp, vì mỗi phần là một hàm của toàn bộ mẫu. Các thuật ngữ lỗi thực sự không cần phải độc lập - nếu chúng không phải là một mô hình với tự tương quan, mặc dù khó khăn hơn so với tính không đồng nhất, có thể được xử lý ở mức độ.

Mỗi biến không cần liên quan tuyến tính đến kết quả. Trong thực tế, sự khác biệt giữa hồi quy "tuyến tính" và "phi tuyến tính" không liên quan gì đến mối quan hệ giữa các biến - nhưng về cách các hệ số chưa biết đi vào mối quan hệ.

Điều người ta có thể nói là nếu ba lần giữ đầu tiên và lần thứ tư được nêu đúng, thì chúng ta có được "Mô hình hồi quy tuyến tính bình thường cổ điển", đây chỉ là một biến thể (mặc dù là biến thể đầu tiên) của nhiều mô hình hồi quy.


3
Làm rõ nhỏ có thể giúp một số độc giả: Với mô hình hồi quy tuyến tính, bộ dự báo tuyến tính, (và do đó kỳ vọng của phản hồi) nhất thiết phải là tuyến tính trong các cột của như trong . Điều thường bị bỏ qua bởi các phương pháp điều trị cơ bản hơn là các cột của không nhất thiết phải tuyến tính trong bộ sưu tập ban đầu của các biến độc lập trong tập dữ liệu. X β XXβXβX
Glen_b -Reinstate Monica

2
Và câu hỏi là thiếu giả định hoàn toàn cơ sở rằng kỳ vọng có điều kiện của các điều khoản lỗi là bằng không!
Matthew Gunn

1
@MatthewGunn Chà, ... điều này mở ra một cuộc thảo luận rất lớn về những gì chúng ta đang làm với mô hình này: nếu chúng ta có quan điểm "xác định / kỹ thuật", chúng ta cần giả định này để đảm bảo rằng tính cụ thể thực sự là quyết định cụ thể. Nếu chúng ta muốn ước tính hàm kỳ vọng có điều kiện đối với các biến hồi quy cụ thể , thì mã hóa sẽ tự động được thỏa mãn (hoặc ít nhất là dạng yếu hơn, tính trực giao của nó).
Alecos Papadopoulos

1
@AlecosPapadopoulos Vâng, theo một nghĩa nào đó, bình phương tối thiểu thông thường luôn cung cấp cho bạn ước tính về một cái gì đó! Nhưng nó có thể không phải là thứ bạn muốn. Nếu OP chỉ đơn giản muốn một hàm kỳ vọng tuyến tính, có điều kiện đối với các biến hồi quy cụ thể, tôi đồng ý điều kiện này sẽ tự động được thừa nhận. Nhưng nếu OP đang cố ước tính một số tham số, việc chứng minh điều kiện trực giao là rất quan trọng!
Matthew Gunn

@MatthewGunn Thật vậy, điều này chắc chắn là như vậy.
Alecos Papadopoulos

3

Antoni Parellada đã có một câu trả lời hoàn hảo với hình minh họa đồ họa đẹp.

Tôi chỉ muốn thêm một bình luận để tóm tắt sự khác biệt giữa hai câu

  1. phần dư của mô hình gần như bình thường

  2. độ biến thiên của phần dư gần như không đổi

  • Tuyên bố 1 cho "hình dạng" của phần dư là "đường cong hình chuông" .
  • Tuyên bố 2 tinh chỉnh sự lan truyền của "hình dạng" (không đổi), trong âm mưu 3. của Antoni Parellada, có 3 đường cong hình chuông, nhưng chúng có độ lan truyền khác nhau.

1

Không có một bộ giả định hồi quy duy nhất nào, nhưng có một số biến thể ngoài kia. Một số trong các giả định này chặt chẽ hơn, tức là hẹp hơn so với các bộ khác. Ngoài ra, trong hầu hết các trường hợp bạn không cần và, trong nhiều trường hợp, thực sự không thể cho rằng phân phối là bình thường.

Các giả định mà bạn trích dẫn chặt chẽ hơn hầu hết, nhưng chúng được xây dựng bằng ngôn ngữ lỏng lẻo không cần thiết. Ví dụ, những gì là chính xác gần ? Ngoài ra, đó không phải là phần dư mà chúng tôi áp đặt các giả định, đó là lỗi . Phần dư là ước tính của các lỗi, không thể quan sát được. Điều này cho tôi biết rằng bạn đang trích dẫn từ một nguồn nghèo. Ném nó ra ngoài.

Câu trả lời ngắn gọn cho câu hỏi của bạn là nếu bạn xem xét bất kỳ phân phối nào, ví dụ phân phối Student t, cho các lỗi của bạn (tôi sẽ sử dụng thuật ngữ chính xác trong câu trả lời của tôi) thì bạn có thể thấy các lỗi có thể có biến thể "gần như không đổi" mà không phải từ phân phối chuẩn và làm thế nào có phương sai "gần như không đổi" không yêu cầu phân phối bình thường. Nói cách khác, không, bạn không thể đưa ra một giả định từ một giả định khác mà không có yêu cầu bổ sung.

Một yêu cầu như vậy có thể đến từ một công thức phổ biến của mô hình hồi quy như sau: Ở đây, trong công thức thứ hai, chúng tôi gần như hồi quy các giả định cùng một lúc:

yi=Xiβ+εiεiN(0,σ2)
  1. "phần dư của mô hình gần như bình thường" - đây là thực tế mà chúng tôi đã sử dụng trong công thức, viết tắt của phân phối (Gaussian) bình thườngN(.)
  2. "độ biến thiên của phần dư gần như không đổi" - điều này đang sử dụng một hằng số cho tất cả các lỗiε iσεi
  3. "phần dư là độc lập" - điều này xuất phát từ việc sử dụng không phụ thuộc vào bất cứ điều gì có liên quan đến lỗi hoặc hồi quy XNX
  4. "mỗi biến là tuyến tính liên quan đến kết quả" - đây là dạngy=Xβ

Vì vậy, khi chúng ta kết hợp tất cả các giả định theo cách này trong một hoặc hai phương trình, có vẻ như tất cả chúng đều phụ thuộc vào nhau, điều đó không đúng. Tôi sẽ chứng minh điều này tiếp theo.

ví dụ 1

Hãy tưởng tượng rằng thay vì mô hình trên, tôi nêu như sau: Ở đây, tôi nói rằng các lỗi là do phân phối của Sinh viên với độ tự do. Các lỗi sẽ có phương sai không đổi, tất nhiên, và chúng không phải là Gaussian. v

yi=Xiβ+εiεitν
ν

Ví dụ 2

i

yi=Xiβ+εiεiN(0,σ2i)
Ở đây, phân phối lỗi là bình thường, nhưng phương sai không đổi, nó tăng theo .i

1

Tôi đã cố gắng thêm một chiều mới cho cuộc thảo luận và làm cho nó tổng quát hơn. Xin thứ lỗi cho tôi nếu quá thô sơ.

Mô hình hồi quy là một phương thức chính thức để thể hiện hai thành phần thiết yếu của mối quan hệ thống kê:

  1. YX
  2. Một sự phân tán các điểm xung quanh đường cong của mối quan hệ thống kê.

Y

Bằng cách quy định rằng:

  1. YX

  2. X

Y

YX

YXYX

Nguồn: Mô hình thống kê tuyến tính ứng dụng, KNNL

YX

Yi=β0 +β1Xi+ϵ

YiXi

β0β1 là các tham số

ϵN(O,σ2)

i = 1, ..., n

Vì vậy, để ước tính chúng ta cần ước tính ba tham số đó là: , và . Chúng ta có thể thấy rằng bằng cách lấy đạo hàm riêng của hàm khả năng wrt , và và đánh giá chúng bằng không. Điều này trở nên tương đối dễ dàng theo giả định về tính quy tắc.β 0E(Y|X)β0β1β 0σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Làm thế nào là 1 và 2 khác nhau?

Đến với câu hỏi

Các giả định thứ nhất và thứ hai như bạn đã nêu là hai phần của cùng một giả định về tính quy tắc với giá trị trung bình bằng không và phương sai không đổi. Tôi nghĩ rằng câu hỏi nên được đặt ra là ý nghĩa của hai giả định đối với mô hình hồi quy lỗi thông thường hơn là sự khác biệt giữa hai giả định. Tôi nói điều đó bởi vì nó có vẻ giống như so sánh táo với cam bởi vì bạn đang cố gắng tìm ra sự khác biệt giữa các giả định về việc phân phối một điểm phân tán và các giả định về tính biến thiên của nó. Sự thay đổi là một tài sản của một phân phối. Vì vậy, tôi sẽ cố gắng trả lời câu hỏi phù hợp hơn về ý nghĩa của hai giả định.

Theo giả định về tính quy tắc, các công cụ ước tính khả năng tối đa ( MLE ) giống như các công cụ ước tính bình phương nhỏ nhất và MLE được hưởng đặc tính là UMVUE , có nghĩa là chúng có phương sai tối thiểu trong số tất cả các công cụ ước tính.

Giả định về tính đồng nhất cho phép người ta thiết lập các ước tính khoảng cho các tham số và và thực hiện các thử nghiệm quan trọng. -test được sử dụng để kiểm tra ý nghĩa thống kê mạnh mẽ đối với những sai lệch nhỏ so với tính chuẩn.β0β1t


1
Đây là một tài khoản tuyệt vời của hồi quy. Nhưng làm thế nào để trả lời câu hỏi cụ thể trong chủ đề này?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.