Tôi có tập dữ liệu chứa 365 quan sát của ba biến cụ thể là pm, tempvà rain. Bây giờ tôi muốn kiểm tra hành vi pmphản ứng với những thay đổi trong hai biến khác. Các biến của tôi là:
pm10= Phản hồi (phụ thuộc)temp= dự đoán (độc lập)rain= dự đoán (độc lập)
Sau đây là ma trận tương quan cho dữ liệu của tôi:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Vấn đề là khi tôi đang nghiên cứu xây dựng các mô hình hồi quy, người ta đã viết rằng phương pháp cộng gộp là bắt đầu với biến có liên quan nhiều nhất đến biến phản ứng. Trong tập dữ liệu của tôi raincó mối tương quan cao với pm(so với temp), nhưng đồng thời nó là một biến giả (rain = 1, no rain = 0), vì vậy bây giờ tôi đã có đầu mối từ đâu nên bắt đầu từ đâu. Tôi đã đính kèm hai hình ảnh với câu hỏi: Đầu tiên là một biểu đồ phân tán dữ liệu và hình ảnh thứ hai là một biểu đồ phân tán pm10so với rain, tôi cũng không thể diễn giải phân tán pm10so với rain. Ai đó có thể giúp tôi làm thế nào để bắt đầu?

