Tôi có tập dữ liệu chứa 365 quan sát của ba biến cụ thể là pm
, temp
và rain
. Bây giờ tôi muốn kiểm tra hành vi pm
phản ứng với những thay đổi trong hai biến khác. Các biến của tôi là:
pm10
= Phản hồi (phụ thuộc)temp
= dự đoán (độc lập)rain
= dự đoán (độc lập)
Sau đây là ma trận tương quan cho dữ liệu của tôi:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Vấn đề là khi tôi đang nghiên cứu xây dựng các mô hình hồi quy, người ta đã viết rằng phương pháp cộng gộp là bắt đầu với biến có liên quan nhiều nhất đến biến phản ứng. Trong tập dữ liệu của tôi rain
có mối tương quan cao với pm
(so với temp
), nhưng đồng thời nó là một biến giả (rain = 1, no rain = 0), vì vậy bây giờ tôi đã có đầu mối từ đâu nên bắt đầu từ đâu. Tôi đã đính kèm hai hình ảnh với câu hỏi: Đầu tiên là một biểu đồ phân tán dữ liệu và hình ảnh thứ hai là một biểu đồ phân tán pm10
so với rain
, tôi cũng không thể diễn giải phân tán pm10
so với rain
. Ai đó có thể giúp tôi làm thế nào để bắt đầu?