Làm thế nào để bắt đầu xây dựng mô hình hồi quy khi dự đoán liên quan mạnh nhất là nhị phân


11

Tôi có tập dữ liệu chứa 365 quan sát của ba biến cụ thể là pm, temprain. Bây giờ tôi muốn kiểm tra hành vi pmphản ứng với những thay đổi trong hai biến khác. Các biến của tôi là:

  • pm10 = Phản hồi (phụ thuộc)
  • temp = dự đoán (độc lập)
  • rain = dự đoán (độc lập)

Sau đây là ma trận tương quan cho dữ liệu của tôi:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Vấn đề là khi tôi đang nghiên cứu xây dựng các mô hình hồi quy, người ta đã viết rằng phương pháp cộng gộp là bắt đầu với biến có liên quan nhiều nhất đến biến phản ứng. Trong tập dữ liệu của tôi raincó mối tương quan cao với pm(so với temp), nhưng đồng thời nó là một biến giả (rain = 1, no rain = 0), vì vậy bây giờ tôi đã có đầu mối từ đâu nên bắt đầu từ đâu. Tôi đã đính kèm hai hình ảnh với câu hỏi: Đầu tiên là một biểu đồ phân tán dữ liệu và hình ảnh thứ hai là một biểu đồ phân tán pm10so với rain, tôi cũng không thể diễn giải phân tán pm10so với rain. Ai đó có thể giúp tôi làm thế nào để bắt đầu?

đây là biểu đồ phân tán dữ liệu của tôi

âm mưu phân tán của pm10 vs mưa


3
Đây là một câu hỏi hoàn toàn khả thi, IMO, ngay cả khi nó xuất phát từ một sự hiểu lầm.
gung - Phục hồi Monica

Một điều cần nhớ với hồi quy là biến phụ thuộc được giả sử là một biến thiên ngẫu nhiên, trong khi các yếu tố dự đoán được giả sử là các biến thể được kiểm soát bằng thực nghiệm. (do đó, hãy cẩn thận khi bạn bật một cái gì đó trên đầu của nó). Dường như không có bất kỳ mối tương quan tích cực hoặc tiêu cực mạnh nào trong ma trận của bạn, vì không có bất kỳ đường chéo nào ? x i 1 , x i 2 , ... , x i p | r j k | > 0,8yixi1,xi2,,xip|rjk|>0.8
NXG Logic

Câu trả lời:


17

Nhiều người tin rằng bạn nên sử dụng một số chiến lược như bắt đầu với biến được liên kết cao nhất và sau đó thêm lần lượt các biến bổ sung cho đến khi một biến không đáng kể. Tuy nhiên, không có logic nào bắt buộc cách tiếp cận này. Hơn nữa, đây là một loại chiến lược lựa chọn / tìm kiếm biến 'tham lam' (xem, câu trả lời của tôi ở đây: Thuật toán cho lựa chọn mô hình tự động ). Bạn không cần phải làm điều này , và thực sự, bạn không nên. Nếu bạn muốn biết mối quan hệ giữa pm, temprain, chỉ cần phù hợp với mô hình hồi quy bội với cả ba biến. Bạn vẫn sẽ cần phải đánh giá mô hình để xác định xem nó có hợp lý không và các giả định được đáp ứng, nhưng đó là nó. Nếu bạn muốn kiểm tra một số giả thuyết a-prori, bạn có thể làm như vậy với mô hình. Nếu bạn muốn đánh giá độ chính xác dự đoán của mô hình, bạn có thể làm điều đó với xác nhận chéo.

Bạn cũng không thực sự lo lắng về tính đa hình. Mối tương quan giữa temprainđược liệt kê như 0.044trong ma trận tương quan của bạn. Đó là một mối tương quan rất thấp và không nên gây ra bất kỳ vấn đề.


1
cảm ơn bạn rất nhiều vì những gợi ý của bạn Tôi mới đến trang này không biết sử dụng nó như thế nào, bạn có thể vui lòng cung cấp thêm một số gợi ý hoặc tài liệu học tập không
Syed Asif Ali Shah

1
@SyedAsifAliShah, ngoài tiếng Anh đó dường như không phải là ngôn ngữ mẹ đẻ của bạn, tôi không thấy bất kỳ vấn đề nào với cách bạn đang sử dụng trang web. Về tài liệu học tập, bạn có thể xem cái này hoặc cái này , hoặc chỉ duyệt qua các chủ đề của chúng tôi với thẻ tham khảo .
gung - Phục hồi Monica

Tôi nên thử mô hình tuyến tính hoặc GLM cho dữ liệu của tôi ??
Syed Asif Ali Shah

1
@SyedAsifAliShah, có lẽ một mô hình tuyến tính là tốt cho dữ liệu của bạn.
gung - Phục hồi Monica

bạn tôi cần sự giúp đỡ của bạn
Syed Asif Ali Shah

10

Mặc dù điều này không trực tiếp giải quyết tập dữ liệu đã được thu thập của bạn, nhưng một điều khác bạn có thể thử vào lần tới khi bạn thu thập dữ liệu như thế này là để tránh ghi "mưa" dưới dạng nhị phân. Dữ liệu của bạn có thể sẽ có nhiều thông tin hơn nếu thay vào đó bạn đã đo tốc độ mưa (cm / giờ), điều này sẽ cung cấp cho bạn một biến được phân phối liên tục (chính xác đến độ đo của bạn) từ 0 ... max_rainfall.

Điều này sẽ cho phép bạn tương quan không chỉ "trời đang mưa" với các biến khác, mà còn "trời mưa bao nhiêu".


hi bro tôi đã làm tương tự theo đề nghị của bạn, tôi đã thu thập dữ liệu đầy đủ về mưa và mô hình xây dựng
Syed Asif Ali Shah

cho tôi xin email của bạn được không ??? tôi chỉ muốn hỏi một vài câu hỏi
Syed Asif Ali Shah

Nếu bạn có thêm câu hỏi về việc thiết lập mô hình của mình, có lẽ câu hỏi StackExchange mới sẽ là cách giải quyết. Bằng cách đó, bạn có thể nhận được phản hồi từ nhiều người hơn, nhiều người trong số họ là chuyên gia hơn tôi
JKreft

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.