Điểm hồi quy đơn biến trước hồi quy đa biến là gì?


13

Tôi hiện đang làm việc về một vấn đề trong đó chúng tôi có một bộ dữ liệu nhỏ và quan tâm đến hiệu quả nhân quả của một điều trị đối với kết quả.

Cố vấn của tôi đã hướng dẫn tôi thực hiện hồi quy đơn biến trên mỗi yếu tố dự đoán với kết quả là phản ứng, sau đó chỉ định điều trị là phản ứng. Tức là, tôi đang được yêu cầu điều chỉnh hồi quy với một biến tại một thời điểm và lập bảng kết quả. Tôi đã hỏi "tại sao chúng ta nên làm điều này?", Và câu trả lời là một cái gì đó cho tác động của "chúng tôi quan tâm đến việc dự đoán nào có liên quan đến việc chỉ định điều trị và kết quả, vì điều này có thể chỉ ra một kẻ gây nhiễu". Cố vấn của tôi là một nhà thống kê được đào tạo, không phải là nhà khoa học trong một lĩnh vực khác, vì vậy tôi có xu hướng tin tưởng họ.

Điều này có ý nghĩa, nhưng không rõ làm thế nào để sử dụng kết quả của phân tích đơn biến. Sẽ không đưa ra lựa chọn mô hình từ kết quả này trong sai lệch đáng kể của ước tính và khoảng tin cậy hẹp? Tại sao mọi người nên làm điều này? Tôi bối rối và cố vấn của tôi khá mờ nhạt về vấn đề này khi tôi đưa nó lên. Có ai có tài nguyên về kỹ thuật này?

(NB: cố vấn của tôi đã nói rằng chúng tôi KHÔNG sử dụng giá trị p làm điểm dừng, nhưng chúng tôi muốn xem xét "mọi thứ".)


6
Nếu bằng cách "hồi quy đơn biến", người hướng dẫn của bạn sẽ bao gồm vẽ một biểu đồ phân tán, thì đó thực sự là lời khuyên khôn ngoan. Và vì không có hồi quy mà bạn quan tâm bao giờ nên được tiến hành mà không có âm mưu, bạn sẽ nhận được một số thông tin hữu ích. Làm tất cả cùng một lúc, nếu bạn có thể, với một ma trận phân tán và hiển thị một số hiệu ứng mạnh mẽ với chúng. Những lợi thế sẽ rõ ràng khi bạn thấy các cách khác nhau trong đó các biến của bạn có thể khởi hành từ việc thể hiện các mối quan hệ tuyến tính.
whuber

1
Điều gì xảy ra nếu dữ liệu phản hồi là nhị phân và chúng tôi đang sử dụng glm với liên kết logit? Giải thích của bạn chắc chắn là làm rõ cho trường hợp tuyến tính, và bây giờ tôi nghĩ về nó, việc sử dụng các biểu đồ phân tán sẽ là tự nhiên
Marcel

5
Tôi đã lo lắng bạn có thể hỏi rằng :-). Trên thực tế, một mịn tốt vẫn có thể cung cấp cái nhìn sâu sắc tuyệt vời. Nó giúp jitter phản hồi để bạn có thể thực hiện phân phối của nó. Dưới đây là một ví dụ về cốt truyện như vậy: stats.stackexchange.com/a/14501/919 . Tôi minh họa một giải pháp khác tại stats.stackexchange.com/a/138660/919 .
whuber

3
Hồi quy đơn biến này trước kỹ thuật hồi quy đa biến được gọi là "lựa chọn biến có mục đích" trong cuốn sách "Hồi quy logistic ứng dụng" của Hosmer và Lemeshow
Great38

7
Coi chừng - một biến có thể cho thấy không có mối quan hệ nào trong hồi quy đơn biến, nhưng vẫn quan trọng trong mối quan hệ đa biến.
Glen_b -Reinstate Monica

Câu trả lời:


3

Bối cảnh nhân quả của phân tích của bạn là một vòng loại quan trọng trong câu hỏi của bạn. Trong dự báo, chạy hồi quy đơn biến trước nhiều hồi quy theo tinh thần của "phương pháp lựa chọn có mục đích" được đề xuất bởi Hosmer và Lemenshow có một mục tiêu. Trong trường hợp của bạn, nơi bạn đang xây dựng một mô hình nhân quả, chạy hồi quy đơn biến trước khi chạy hồi quy bội có một mục tiêu hoàn toàn khác. Hãy để tôi mở rộng về sau.

Bạn và người hướng dẫn của bạn phải có trong đầu một biểu đồ nhân quả nhất định. Đồ thị nhân quả có ý nghĩa thử nghiệm. Nhiệm vụ của bạn là bắt đầu với tập dữ liệu mà bạn có và lý do quay lại mô hình nhân quả có thể đã tạo ra nó. Các hồi quy đơn biến mà ông gợi ý rằng bạn có thể chạy nhiều nhất là bước đầu tiên trong quá trình kiểm tra ý nghĩa của biểu đồ nhân quả mà bạn có trong đầu. Giả sử rằng bạn tin rằng dữ liệu của bạn được tạo bởi mô hình nhân quả được mô tả trong biểu đồ bên dưới. Giả sử bạn quan tâm đến tác động nhân quả của D trên E. Biểu đồ dưới đây cho thấy một loạt các hàm ý có thể kiểm tra được, chẳng hạn như:

  • E là D có khả năng phụ thuộc
  • E và A có khả năng phụ thuộc
  • E và C có khả năng phụ thuộc
  • E và B có khả năng phụ thuộc
  • E và N có khả năng độc lập

nhập mô tả hình ảnh ở đây

Tôi đã đề cập rằng đây chỉ là bước đầu tiên trong quy trình tìm kiếm nguyên nhân bởi vì niềm vui thực sự bắt đầu khi bạn bắt đầu chạy nhiều hồi quy, điều chỉnh các biến khác nhau và kiểm tra xem kết quả của hồi quy có phù hợp với hàm ý của biểu đồ hay không. Ví dụ: biểu đồ trên cho thấy rằng E và A phải độc lập khi bạn điều kiện trên D. Nói cách khác, nếu bạn hồi quy E trên D và A và thấy rằng hệ số trên A không bằng 0, bạn sẽ kết luận rằng E phụ thuộc vào A, sau khi bạn đặt điều kiện vào D và do đó biểu đồ nhân quả phải sai. Nó thậm chí sẽ cho bạn gợi ý về cách thay đổi biểu đồ nhân quả của bạn, bởi vì kết quả của hồi quy này cho thấy rằng phải có một đường dẫn giữa A và E không được phân tách bởi D.


1

Trước khi tôi cố gắng trả lời tôi muốn chỉ ra loại dữ liệu đó và phân phối của nó có thể ảnh hưởng đến cách bạn đánh giá / hồi quy / phân loại nó.

Ngoài ra bạn có thể muốn xem ở đây phương pháp mà cố vấn của bạn có thể muốn bạn sử dụng.

Một chút nền tảng. Mặc dù sử dụng một công cụ lựa chọn mô hình là một khả năng, bạn vẫn cần có thể nói lý do tại sao một công cụ dự đoán được sử dụng hoặc bỏ đi. Những công cụ đó có thể là một hộp đen. Bạn nên hiểu đầy đủ dữ liệu của mình và có thể nêu lý do tại sao một công cụ dự đoán cụ thể được chọn. (Đặc biệt, tôi đang giả định cho một dự án luận án / thạc sĩ.)

Ví dụ, nhìn vào giá nhà và tuổi. Giá nhà thường giảm theo tuổi. Do đó, khi bạn nhìn thấy một ngôi nhà cũ với giá cao trong dữ liệu của bạn, nó sẽ trông giống như một ngoại lệ bị xóa nhưng đó không phải là trường hợp.

Đối với (NB: cố vấn của tôi đã nói rằng chúng tôi KHÔNG sử dụng giá trị p làm điểm cắt, nhưng chúng tôi muốn xem xét "mọi thứ".) Giá trị p không phải là tất cả và kết thúc tất cả mọi thứ nhưng chúng có thể hữu ích . Nhớ lại các thuật toán / chương trình bị giới hạn và không thể xem toàn bộ hình ảnh.

Về lý do tại sao bạn có thể đơn biến hồi quy trên mỗi chỉ định dự đoán / điều trị.

Điều này có thể là để hỗ trợ trong việc lựa chọn các yếu tố dự đoán để đưa vào mô hình đa biến cơ bản. Từ mô hình cơ bản đó, sau đó bạn sẽ xem liệu những dự đoán đó có quan trọng và nên duy trì hay liệu chúng có nên được loại bỏ với mục đích để có được một mô hình tuyệt vời hay không.

Hoặc nó có thể là để bạn hiểu rõ hơn về dữ liệu.


1
Vợ tôi và tôi đã mua một ngôi nhà cũ nhưng không thể mua được một ngôi nhà lịch sử, vì vậy ví dụ của bạn có một ví dụ dễ phản bác.
Nick Cox

Thật. Tôi có ý nói về giá nhà thực sự. Làm thế nào giá nhà thường giảm theo tuổi. Do đó, khi bạn nhìn thấy một ngôi nhà cũ với giá cao, nó sẽ trông giống như một ngoại lệ sẽ bị xóa. Tôi sẽ chỉnh sửa điểm đó. Cám ơn.
Apocryphon

0

Tôi nghĩ rằng người giám sát của bạn đang yêu cầu bạn thực hiện phân tích dữ liệu đầu tiên với mục tiêu xác định xem có bất kỳ biến nào có thể giải thích một phần đáng kể của phương sai trong dữ liệu hay không.

Khi bạn kết luận nếu bất kỳ biến nào có thể giải thích một số biến thiên, thì bạn sẽ có thể đánh giá cách chúng hoạt động cùng nhau, nếu chúng là colinear hoặc tương quan với nhau, v.v. Trong giai đoạn hoàn toàn khám phá để có phân tích đa biến có thể thực hiện đánh giá đầu tiên khó hơn, bởi vì bằng cách xây dựng từng biến bạn sẽ loại bỏ ảnh hưởng của các biến khác. Có thể khó đánh giá hơn nếu bất kỳ biến nào có thể giải thích bất kỳ biến thể nào.


0

Đó có thể là một cách tiếp cận để hiểu dữ liệu, nhưng kinh nghiệm cho thấy dự đoán sẽ thay đổi khi bạn sử dụng tất cả các yếu tố dự đoán kết hợp và từng dự đoán từng cái một. Đó chỉ là thứ chúng tôi hiểu được khả năng dự đoán của dữ liệu và hiểu những gì cần phải làm cho các bước trong tương lai.
Tôi đã thấy nhiều lần khi với tất cả các biến, giá trị p nói rằng một số biến không đáng kể nhưng chỉ với các biến không quan trọng đó, chúng đã đủ đáng kể. Đó là do hiệu ứng hỗn hợp: không phải người giám sát của bạn sai, nhưng để hiểu dữ liệu chúng ta phải làm điều này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.