Giúp tôi phù hợp với hồi quy đa tuyến tính phi tuyến tính này đã thách thức tất cả các nỗ lực trước đó


9

EDIT: Kể từ khi thực hiện bài đăng này, tôi đã theo dõi với một bài viết bổ sung ở đây .

Tóm tắt văn bản dưới đây: Tôi đang làm việc trên một mô hình và đã thử hồi quy tuyến tính, biến đổi Box Cox và GAM nhưng không đạt được nhiều tiến bộ

Sử dụng R, tôi hiện đang làm việc trên một mô hình để dự đoán sự thành công của các cầu thủ bóng chày nhỏ ở cấp độ giải đấu lớn (MLB). Biến phụ thuộc, sự nghiệp tấn công giành chiến thắng thay thế (oWAR), là một ủy quyền cho sự thành công ở cấp MLB và được đo bằng tổng số đóng góp tấn công cho mỗi lần chơi mà người chơi tham gia trong suốt sự nghiệp của mình (chi tiết tại đây - http : //www.fangraphs.com/l Library / misc / war /). Các biến độc lập là các biến số tấn công của giải đấu nhỏ được tính điểm z cho các số liệu thống kê được coi là yếu tố dự báo quan trọng của sự thành công ở cấp giải đấu lớn bao gồm tuổi tác (người chơi có nhiều thành công hơn ở độ tuổi trẻ hơn có xu hướng tốt hơn), đánh bại tỷ lệ [SOPct ], tốc độ đi bộ [BBrate] và sản xuất điều chỉnh (một biện pháp toàn cầu về sản xuất tấn công). Ngoài ra, vì có nhiều cấp độ của các giải đấu nhỏ, tôi đã bao gồm các biến số giả cho cấp độ giải đấu nhỏ (Double A, High A, Low A, Rookie và Short Season với Triple A [cấp độ cao nhất trước các giải đấu lớn] làm biến tham chiếu]). Lưu ý: Tôi đã thay đổi tỷ lệ WAR thành một biến đi từ 0 đến 1.

Scatterplot biến như sau:

phân tán

Để tham khảo, biến phụ thuộc, oWAR, có biểu đồ sau:

phụ thuộc

Tôi bắt đầu với hồi quy tuyến tính oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeasonvà thu được các sơ đồ chẩn đoán sau:

linearRegressionDiagnostics

Có những vấn đề rõ ràng với sự thiếu thiên vị của phần dư và thiếu biến thể ngẫu nhiên. Ngoài ra, phần dư không bình thường. Các kết quả của hồi quy được hiển thị dưới đây:

linearRegressionResults

Theo lời khuyên trong một chủ đề trước , tôi đã thử chuyển đổi Box-Cox nhưng không thành công. Tiếp theo, tôi đã thử một GAM với một liên kết nhật ký và nhận được các lô này:

mối nối

Nguyên chẩn đoán kiểm tra

Âm mưu chẩn đoán mới Trò chơi điện tử

Có vẻ như các spline đã giúp phù hợp với dữ liệu nhưng các sơ đồ chẩn đoán vẫn cho thấy sự phù hợp kém. EDIT: Tôi nghĩ rằng tôi đã xem xét các giá trị còn lại so với giá trị được trang bị ban đầu nhưng tôi đã không chính xác. Cốt truyện ban đầu được hiển thị được đánh dấu là Bản gốc (ở trên) và âm mưu tôi đã tải lên sau đó được đánh dấu là Âm mưu chẩn đoán mới (cũng ở trên)

GAMResults

Các của mô hình đã tăng lênR2

nhưng kết quả được tạo ra bởi lệnh gam.check(myregression, k.rep = 1000)không hứa hẹn.

GAMResults2

Bất cứ ai có thể đề nghị một bước tiếp theo cho mô hình này? Tôi rất vui khi cung cấp bất kỳ thông tin nào khác mà bạn nghĩ có thể hữu ích để hiểu được tiến trình tôi đã đạt được cho đến nay. Cảm ơn vì bất kì sự giúp đỡ nào của bạn.


2
Tôi đã tìm thấy mã trong đoạn mồi tuyệt vời này trên GAM trong R - www3.nd.edu/~mclark19/learn/GAMS.pdf Mã: library (car) scatterplotMatrix (mydata [, c (1,1: 8)], pch = 19, cex = .5, reg.line = F, lwd.smooth = 1.25, lây lan = F, ellipse = T, col = c ('grey60', '# 2957FF', '# FF8000'), col.axis = 'Gray50')
zgall1

1
Bạn có thể chia sẻ dữ liệu của bạn? Ngoài ra, +1 cho ma trận phân tán đó. Nó là tuyệt vời.
Zach

1
Điều đó thật tệ, nó trông giống như một bộ dữ liệu thú vị. Đề nghị của tôi sẽ là thử một số thuật toán học máy khác, ví dụ như một khu rừng ngẫu nhiên.
Zach

2
Rừng ngẫu nhiên dựa trên cây quyết định. Kiểm tra gói RandomForest trong R và trang wikipedia rừng ngẫu nhiên: en.wikipedia.org/wiki/Random_forest
Zach

2
"Biến phụ thuộc ... được đo bằng tổng số đóng góp tấn công cho mỗi lần chơi mà người chơi tham gia trong suốt sự nghiệp của mình." Điều này nhảy ra với tôi. Một vấn đề nghiêm trọng ở đây là người chơi đã chơi được bao lâu, cả trong thời gian chơi lâu hơn có nghĩa là có nhiều thời gian hơn để "thu thập" oWAR [b] người chơi tốt hơn có thể sẽ chơi trong thời gian dài hơn.
affine

Câu trả lời:


6

lrmrmsYrmsormYβYY


1
Theo cấp độ, bạn có nghĩa là biến biến Y thành 100-200 xô? Nếu vậy, có phương pháp ưa thích nào để chọn kích thước thùng không? Chúng có nên có kích thước như nhau?
zgall1

1
Chỉ cần thực hiện việc đóng thùng tạm thời trừ khi chúng ta có giải pháp liên tục. Bạn có thể bin vào 100 percentiles, ví dụ:require(Hmisc); cut2(y, g=100, levels.mean=TRUE)
Frank Harrell

Khi bạn nói một phiên bản mới rmssẽ sớm được phát hành, bạn có biết khi nào có thể không?
zgall1

Nếu bạn sử dụng linux tôi có thể cung cấp cho bạn ngay bây giờ, nếu không thì mong đợi 2 tuần.
Frank Mitchell

Tôi không sử dụng Linux nên tôi đoán tôi sẽ phải chờ. Xin vui lòng cho tôi biết khi nó có sẵn.
zgall1

1

Tôi nghĩ rằng làm việc lại biến phụ thuộc và mô hình có thể có kết quả ở đây. Nhìn vào số dư của bạn từ lm(), có vẻ như vấn đề chính là ở những người chơi có WAR nghề nghiệp cao (mà bạn xác định là tổng của tất cả WAR). Lưu ý rằng WAR dự đoán (tỷ lệ) cao nhất của bạn là 0,15 trên tối đa là 1! Tôi nghĩ có hai điều với biến phụ thuộc này đang làm trầm trọng thêm vấn đề này:

  • Người chơi chỉ cần chơi lâu hơn sẽ có nhiều thời gian hơn để thu thập WAR
  • Những người chơi giỏi sẽ có xu hướng được giữ lâu hơn và do đó sẽ có cơ hội có thời gian dài hơn để thu thập WAR

Tuy nhiên, trong bối cảnh dự đoán, bao gồm cả thời gian đóng vai trò kiểm soát một cách rõ ràng (dưới bất kỳ hình thức nào, dù là trọng lượng hay mẫu số trong tính toán sự nghiệp trung bình WAR) đều phản tác dụng (tôi cũng nghi ngờ rằng hiệu ứng của nó cũng sẽ không tuyến tính). Vì vậy, tôi đề nghị thời gian mô hình hóa ít rõ ràng hơn trong một mô hình hỗn hợp bằng cách sử dụng lme4hoặc nlme.

j= =mTôiTôi

SWMộtRTôij= =α+σTôi2+<những thứ khác>+εTôij

Với lme4, cái này sẽ trông giống như
lmer(sWAR ~ <other stuff> + (1|Player), data=mydata)

SWMộtR


Tôi không chắc là tôi hoàn toàn hiểu. Nếu biến phụ thuộc là WAR theo mùa, các biến độc lập là gì? Một dòng thống kê giải đấu nhỏ giống hệt nhau cho mỗi người chơi? Có phải chúng ta về cơ bản nói rằng dòng thống kê nhỏ A có thể dẫn đến giải đấu lớn WAR B, C, D và E?
zgall1

Ngoài ra, kể từ khi đăng mô hình này, tôi đã theo dõi thêm một bài đăng mà bạn có thể muốn xem tại đây: stats.stackexchange.com/questions/61711/ Lỗi
zgall1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.