EDIT: Kể từ khi thực hiện bài đăng này, tôi đã theo dõi với một bài viết bổ sung ở đây .
Tóm tắt văn bản dưới đây: Tôi đang làm việc trên một mô hình và đã thử hồi quy tuyến tính, biến đổi Box Cox và GAM nhưng không đạt được nhiều tiến bộ
Sử dụng R
, tôi hiện đang làm việc trên một mô hình để dự đoán sự thành công của các cầu thủ bóng chày nhỏ ở cấp độ giải đấu lớn (MLB). Biến phụ thuộc, sự nghiệp tấn công giành chiến thắng thay thế (oWAR), là một ủy quyền cho sự thành công ở cấp MLB và được đo bằng tổng số đóng góp tấn công cho mỗi lần chơi mà người chơi tham gia trong suốt sự nghiệp của mình (chi tiết tại đây - http : //www.fangraphs.com/l Library / misc / war /). Các biến độc lập là các biến số tấn công của giải đấu nhỏ được tính điểm z cho các số liệu thống kê được coi là yếu tố dự báo quan trọng của sự thành công ở cấp giải đấu lớn bao gồm tuổi tác (người chơi có nhiều thành công hơn ở độ tuổi trẻ hơn có xu hướng tốt hơn), đánh bại tỷ lệ [SOPct ], tốc độ đi bộ [BBrate] và sản xuất điều chỉnh (một biện pháp toàn cầu về sản xuất tấn công). Ngoài ra, vì có nhiều cấp độ của các giải đấu nhỏ, tôi đã bao gồm các biến số giả cho cấp độ giải đấu nhỏ (Double A, High A, Low A, Rookie và Short Season với Triple A [cấp độ cao nhất trước các giải đấu lớn] làm biến tham chiếu]). Lưu ý: Tôi đã thay đổi tỷ lệ WAR thành một biến đi từ 0 đến 1.
Scatterplot biến như sau:
Để tham khảo, biến phụ thuộc, oWAR, có biểu đồ sau:
Tôi bắt đầu với hồi quy tuyến tính oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
và thu được các sơ đồ chẩn đoán sau:
Có những vấn đề rõ ràng với sự thiếu thiên vị của phần dư và thiếu biến thể ngẫu nhiên. Ngoài ra, phần dư không bình thường. Các kết quả của hồi quy được hiển thị dưới đây:
Theo lời khuyên trong một chủ đề trước , tôi đã thử chuyển đổi Box-Cox nhưng không thành công. Tiếp theo, tôi đã thử một GAM với một liên kết nhật ký và nhận được các lô này:
Nguyên
Âm mưu chẩn đoán mới
Có vẻ như các spline đã giúp phù hợp với dữ liệu nhưng các sơ đồ chẩn đoán vẫn cho thấy sự phù hợp kém. EDIT: Tôi nghĩ rằng tôi đã xem xét các giá trị còn lại so với giá trị được trang bị ban đầu nhưng tôi đã không chính xác. Cốt truyện ban đầu được hiển thị được đánh dấu là Bản gốc (ở trên) và âm mưu tôi đã tải lên sau đó được đánh dấu là Âm mưu chẩn đoán mới (cũng ở trên)
Các của mô hình đã tăng lên
nhưng kết quả được tạo ra bởi lệnh gam.check(myregression, k.rep = 1000)
không hứa hẹn.
Bất cứ ai có thể đề nghị một bước tiếp theo cho mô hình này? Tôi rất vui khi cung cấp bất kỳ thông tin nào khác mà bạn nghĩ có thể hữu ích để hiểu được tiến trình tôi đã đạt được cho đến nay. Cảm ơn vì bất kì sự giúp đỡ nào của bạn.