Hồi quy bội với biến dự báo bị thiếu


9

Giả sử chúng ta được cung cấp một tập hợp dữ liệu có dạng và . Chúng tôi được giao nhiệm vụ dự đoán dựa trên các giá trị của . Chúng tôi ước tính hai hồi quy trong đó: (y,x1,x2,,xn)(y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

Chúng tôi cũng ước tính hồi quy dự đoán các giá trị của dựa trên các giá trị của , đó là: xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

Giả sử bây giờ chúng ta được đưa ra các giá trị của , thì chúng ta sẽ có hai phương thức khác nhau để dự đoán :(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

Cái nào sẽ tốt hơn nói chung?

Tôi đoán rằng phương trình thứ nhất sẽ tốt hơn bởi vì nó sử dụng thông tin từ hai dạng điểm dữ liệu trong khi phương trình thứ hai sử dụng thông tin từ chỉ các điểm dữ liệu có giá trị dự đoán . Đào tạo về thống kê của tôi là hạn chế và do đó tôi muốn tìm kiếm một số lời khuyên chuyên nghiệp.n1

Ngoài ra, nói chung, cách tiếp cận tốt nhất đối với dữ liệu có thông tin không đầy đủ là gì? Nói cách khác, làm thế nào chúng ta có thể trích xuất hầu hết thông tin từ dữ liệu không có giá trị ở tất cả chiều?n


Ước tính với thực tế so với ước tính với ước tính - bạn quyết định :)
Tiến sĩ

Thực sự nó đơn giản?
Xiaowen Li

Câu trả lời có thể là, nó phụ thuộc. Mất bao nhiêu dữ liệu? Bạn có bao nhiêu dữ liệu tổng thể? Bạn có bao nhiêu dự đoán?
Joel W.

Câu trả lời:


6

+1, tôi nghĩ rằng đây là một câu hỏi thực sự thú vị và được nêu rõ ràng. Tuy nhiên, nhiều thông tin sẽ giúp chúng ta suy nghĩ thông qua tình huống này.

Ví dụ, mối quan hệ giữa và gì? Hoàn toàn có thể là không có, trong trường hợp đó, hồi quy không mang lại lợi thế nào so với hồi quy . (Trên thực tế, đó là một bất lợi rất nhỏ, theo nghĩa là các lỗi tiêu chuẩn sẽ lớn hơn một chút, và do đó, betas có thể hơi xa hơn, trung bình, từ các giá trị thực của chúng.) Nếu có một hàm ánh xạ đến , sau đó, theo định nghĩa, có thông tin thực sự ở đó và hồi quy sẽ tốt hơn trong tình huống ban đầu. xny(1)(2)xny(1)

Tiếp theo, bản chất của mối quan hệ giữa và gì? Có một cái không? Chẳng hạn, khi chúng tôi tiến hành thí nghiệm, (thường), chúng tôi cố gắng gán số lượng đơn vị nghiên cứu bằng nhau cho mỗi tổ hợp giá trị của các biến giải thích. (Cách tiếp cận này sử dụng nhiều sản phẩm của Cartesian ở các cấp độ của IV và được gọi là thiết kế 'giai thừa hoàn toàn'; cũng có trường hợp các mức được cố tình gây nhiễu để lưu dữ liệu, được gọi là thiết kế ' giai thừa phân đoạn '.) các biến giải thích là trực giao, hồi quy thứ ba của bạn sẽ mang lại kết quả tuyệt đối, chính xác là 0. Mặt khác, trong một nghiên cứu quan sát, các hiệp phương sai luôn luôn khá nhiều(x1,,xn1)xntương quan. Mối tương quan đó càng mạnh thì càng có ít thông tin tồn tại trong . Những sự thật này sẽ điều chỉnh giá trị tương đối của hồi quy và hồi quy . xn(1)(2)

Tuy nhiên, (không may là có lẽ) nó phức tạp hơn thế. Một trong những khái niệm quan trọng, nhưng khó khăn, trong hồi quy bội là đa cộng tuyến . Nếu bạn cố gắng ước tính hồi quy , bạn sẽ thấy rằng bạn có tính đa hướng hoàn hảo và phần mềm của bạn sẽ cho bạn biết rằng ma trận thiết kế không thể đảo ngược. Do đó, trong khi hồi quy có thể cung cấp một lợi thế liên quan đến hồi quy , hồi quy sẽ không. (4)(1)(2)(4)

Câu hỏi thú vị hơn (và câu hỏi bạn đang hỏi) là gì nếu bạn sử dụng hồi quy để đưa ra dự đoán về bằng cách sử dụng giá trị ước tính từ các dự đoán hồi quy ? (Nghĩa là, bạn không ước tính hồi quy Bạn đang cắm đầu ra từ phương trình dự đoán được ước tính trong hồi quy vào mô hình dự đoán .) Điều bạn thực sự không đạt được là mới thông tin ở đây. Bất cứ thông tin nào tồn tại trong các giá trị dự đoán tiên cho mỗi quan sát đều đã được sử dụng tối ưu bằng hồi quyy x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1)yxn(3)(4)(3)(4)n1(2), vì vậy không có lợi.

Do đó, câu trả lời cho câu hỏi đầu tiên của bạn là bạn cũng có thể đi với hồi quy cho các dự đoán của mình để lưu các công việc không cần thiết. Lưu ý rằng tôi đã giải quyết vấn đề này theo một cách khá trừu tượng, thay vì giải quyết tình huống cụ thể mà bạn mô tả trong đó ai đó trao cho bạn hai bộ dữ liệu (tôi chỉ không thể tưởng tượng điều này xảy ra). Thay vào đó, tôi nghĩ về câu hỏi này là cố gắng hiểu một cái gì đó khá sâu sắc về bản chất của hồi quy. Tuy nhiên, điều xảy ra đôi khi là một số quan sát có giá trị trên tất cả các yếu tố dự đoán và một số quan sát khác (trong cùng một tập dữ liệu) bị thiếu một số giá trị trên một số dự đoán. Điều này đặc biệt phổ biến khi xử lý dữ liệu theo chiều dọc. Trong tình huống như vậy, bạn muốn điều tra nhiều lần cắt cụt . (2)


Cảm ơn bạn Gung vì câu trả lời chi tiết của bạn và bạn giúp sửa đổi từ ngữ của câu hỏi của tôi. Tôi sẽ trả lời một khi tôi giải thích đầy đủ câu trả lời của bạn. Đối với thông tin của bạn, đây là một nghiên cứu quan sát về giá của bóng đèn. bao gồm giờ sống, độ sáng và nhiệt độ màu của bóng đèn. Thông tin được thu thập từ các nhà bán lẻ, những người thường không cung cấp mọi thứ, dẫn đến thiếu dự đoán. Tuy nhiên, chúng tôi đang cố gắng tận dụng tối đa thông tin chúng tôi thu thập được. xn
Xiaowen Li

1
OK, tôi nghĩ rằng đây chỉ là về sự hiểu biết hồi quy. Tôi sẽ xem xét nhiều lần.
gung - Phục hồi Monica

Cảm ơn Gung cho cái nhìn sâu sắc của bạn. Bạn đúng rằng không có thông tin mới nào có được bằng cách sử dụng phương trình 4. Việc cắt bỏ hóa ra chính xác là những gì tôi cần. Và bạn đã đúng, tôi đã chạy vào nhiều cộng tuyến, cho tôi một giá trị p rất lớn cho các hệ số. Sau đó, tôi đã phải đối mặt với việc lựa chọn giảm số lượng biến có giá trị p nhỏ hơn cho các hệ số, hoặc nhận được lớn hơn và p lớn hơn. Tôi đoán cuộc sống chứa đầy sự đánh đổi. r2
Xiaowen Li

Cảm ơn một lần nữa cho các cuộc thảo luận trừu tượng của bạn về hồi quy. Thống kê có thể rất hấp dẫn nếu chúng ta xem nó như một phương pháp để tìm ra sự thật. Tôi sẽ xem xét kỹ hơn khi tôi hoàn thành bộ dữ liệu của mình :)
Xiaowen Li

Bạn nên kiểm tra cắt cụt phân số tham số. Đây là công việc được thực hiện bởi Jae Kwang Kim tại bang Iowa có thể hoàn hảo cho tình huống này. Xem biomet.oxfordjournals.org/content/98/1/119.abab
StatsStudent
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.