Đo lường hồi quy trung bình trong việc chạy tại nhà


11

Bất cứ ai theo dõi bóng chày đều có thể nghe về màn trình diễn MVP không có hồi kết của Jose Bautista ở Toronto. Trong bốn năm trước, anh ấy đạt khoảng 15 lần chạy bộ mỗi mùa. Năm ngoái, anh đã chạm mốc 54, một con số chỉ vượt qua 12 cầu thủ trong lịch sử bóng chày.

Năm 2010, anh được trả 2,4 triệu và anh yêu cầu đội 10,5 triệu cho năm 2011. Họ đang cung cấp 7,6 triệu. Nếu anh ta có thể lặp lại điều đó vào năm 2011, anh ta sẽ dễ dàng kiếm được một khoản tiền. Nhưng tỷ lệ cược của anh ta lặp lại là gì? Làm thế nào khó khăn chúng ta có thể mong đợi anh ta thoái lui đến trung bình? Bao nhiêu hiệu suất của anh ấy chúng ta có thể mong đợi là do cơ hội? Chúng ta có thể mong đợi tổng số hồi quy 2010 được điều chỉnh theo hồi quy của mình là bao nhiêu? Làm thế nào để tôi làm việc ra?

Tôi đã chơi xung quanh với Cơ sở dữ liệu bóng chày Lahman và tìm ra một truy vấn trả về tổng số lần chạy tại nhà cho tất cả các cầu thủ trong năm mùa trước, những người có ít nhất 50 gậy mỗi mùa.

Bảng trông như thế này (chú ý Jose Bautista ở hàng 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

và kết quả đầy đủ (232 hàng) có sẵn ở đây .

Tôi thực sự không biết bắt đầu từ đâu. ai đó có thể chỉ cho tôi phương hướng đúng không? Một số lý thuyết có liên quan và các lệnh R sẽ đặc biệt hữu ích.

Cảm ơn

Tommy

Lưu ý: Ví dụ là một chút giả định. Chạy tại nhà chắc chắn không phải là chỉ số tốt nhất về giá trị của người chơi và tổng số lần chạy tại nhà không xem xét số cơ hội khác nhau mỗi mùa mà người đánh bóng có cơ hội đạt được thành tích ở nhà (xuất hiện trên đĩa). Nó cũng không phản ánh rằng một số cầu thủ chơi ở các sân vận động thuận lợi hơn, và nhà trung bình của giải đấu chạy thay đổi qua từng năm. V.v. Nếu tôi có thể nắm bắt lý thuyết đằng sau kế toán cho hồi quy trung bình, tôi có thể sử dụng nó trên các biện pháp phù hợp hơn so với HR.


2
Bóng chày là nguồn ví dụ yêu thích của nhiều nhà thống kê Hoa Kỳ, do đó, một tìm kiếm của Google (/ Học giả) sẽ đưa ra một số bài viết có liên quan, ví dụ Morrison và Schmittlein (1981) jstor.org/ sóng / 2630890 . Tôi sẽ để nó cho ai đó quen thuộc hơn với cả bóng chày và R để trả lời câu hỏi của bạn.
vào

1
Tôi cũng đề nghị bạn kiểm tra công việc của JC Bradbury và blog của anh ấy, Sabernomics, sabernomics.com/sabernomics . Cuốn sách của ông về đo lường giá trị cầu thủ sẽ có khả năng sâu sắc về những đặc điểm được dự đoán về năng suất trong tương lai.
Andy W

2
Vấn đề như đã nêu là hơi giống một vấn đề ngoại lệ , nhưng không phải theo cách thông thường mà người ta nghĩ về các ngoại lệ. Để kết hợp kết quả tuyệt vời (tức là ngoại lệ), bạn sẽ cần một "phân phối lấy mẫu" với một cái đuôi nặng (kết quả của Jose vượt quá 3 độ lệch chuẩn so với mức trung bình của anh ấy so với dữ liệu trước đây), vì vậy điều này có thể giúp bạn phù hợp với dữ liệu hơn và tài khoản cho nó trong dự đoán.
xác suất

Nếu bạn xem xét một lối tắt nhỏ thô thiển bên cạnh tất cả các bình luận tinh vi hơn xuất hiện ở đây, thì đó là bài kiểm tra dành cho người ngoài cuộc của Dixon mà bạn có thể thực hiện trên một mẫu nhỏ như 4. Xem cee.vt.edu/ewr/en môial / tut / smprimer /
outmore

Câu trả lời:


3

Tôi nghĩ rằng chắc chắn có một sự thu hẹp Bayes hoặc sự điều chỉnh trước đó có thể giúp dự đoán nhưng bạn cũng có thể muốn xem xét một chiến thuật khác ...

Tra cứu người chơi trong lịch sử, không chỉ trong vài năm qua, những người đã có những mùa giải đột phá sau một cặp đôi trong chuyên ngành (tăng đáng kể có thể gấp đôi) và xem họ đã làm như thế nào trong năm tiếp theo. Có thể xác suất duy trì hiệu suất có dự đoán đúng.

Có nhiều cách để xem xét vấn đề này nhưng như mpiktas đã nói, bạn sẽ cần nhiều dữ liệu hơn. Nếu bạn chỉ muốn xử lý dữ liệu gần đây thì bạn sẽ phải xem xét các số liệu thống kê về giải đấu tổng thể, những người ném bóng mà anh ấy chống lại, đó là một vấn đề phức tạp.

Và sau đó chỉ xem xét dữ liệu của Bautista. Vâng, đó là năm tốt nhất của anh ấy nhưng đó cũng là lần đầu tiên kể từ năm 2007 anh ấy có hơn 350 AB (569). Bạn có thể muốn xem xét chuyển đổi phần trăm tăng hiệu suất.


3

Bạn có thể điều chỉnh một mô hình cho dữ liệu này một mình và có được các dự đoán tính đến hồi quy trung bình bằng cách sử dụng các mô hình hỗn hợp (đa cấp). Dự đoán từ các mô hình như vậy tính đến hồi quy trung bình. Ngay cả khi không biết gì về bóng chày, tôi cũng không tìm thấy kết quả mà tôi tin được một cách khủng khiếp, vì, như bạn nói, người mẫu thực sự cần phải tính đến các yếu tố khác, chẳng hạn như xuất hiện tấm.

Tôi nghĩ rằng một mô hình hiệu ứng hỗn hợp Poisson sẽ phù hợp hơn mô hình hỗn hợp tuyến tính vì số lần chạy tại nhà là một con số. Nhìn vào dữ liệu bạn cung cấp , một biểu đồ hrcho thấy nó bị lệch rất tích cực, cho thấy mô hình hỗn hợp tuyến tính sẽ không hoạt động tốt, và bao gồm một số lượng khá lớn các số 0, trước tiên có hoặc không có chuyển đổi log.

Đây là một số mã sử dụng lmerchức năng từ gói lme4 . Đã tạo một biến ID để xác định từng người chơi và định hình lại dữ liệu thành định dạng 'dài' như mpiktas đã chỉ ra trong câu trả lời của anh ta (tôi đã làm điều đó ở Stata vì tôi không giỏi quản lý dữ liệu trong R, nhưng bạn có thể làm điều đó trong một gói bảng tính):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Điều này phù hợp với một mô hình với một liên kết nhật ký cung cấp sự phụ thuộc theo cấp số nhân của tỷ lệ trúng theo năm, được phép thay đổi giữa các người chơi. Các chức năng liên kết khác là có thể, mặc dù liên kết nhận dạng đã báo lỗi do các giá trị được trang bị âm. Một liên kết sqrt hoạt động tốt mặc dù, và có BIC và AIC thấp hơn so với mô hình với liên kết nhật ký, vì vậy nó có thể phù hợp hơn. Các dự đoán về tỷ lệ trúng trong năm 2011 rất nhạy cảm với chức năng liên kết đã chọn, đặc biệt đối với những người chơi như Bautista có tỷ lệ trúng đã thay đổi rất nhiều gần đây.

Tôi sợ rằng tôi đã không thực sự có được những dự đoán như vậy lme4mặc dù. Tôi quen thuộc hơn với Stata, điều này giúp dễ dàng đưa ra dự đoán về các quan sát với các giá trị bị thiếu cho kết quả, mặc dù xtmelogit dường như không đưa ra bất kỳ lựa chọn nào về chức năng liên kết ngoài nhật ký, đưa ra dự đoán là 50 cho Bautista nhà chạy vào năm 2011. Như tôi đã nói, tôi không thấy điều đó quá đáng tin. Tôi rất biết ơn ai đó có thể chỉ ra cách tạo dự đoán cho năm 2011 từ các lmermô hình trên.

Một mô hình tự phát như AR (1) cho các lỗi ở cấp độ người chơi cũng có thể thú vị, nhưng tôi không biết cách kết hợp cấu trúc như vậy với mô hình hỗn hợp Poisson.


sử dụng chức năng tan chảy từ việc định hình lại gói, chuyển đổi sang định dạng dài là một dòng trong R, tan (dữ liệu, id = 1: 2).
mpiktas

Một tiện ích mở rộng / thay thế thú vị cho điều này là để phù hợp với mô hình phân cấp với phân phối lấy mẫu Sở hữu với tham số tỷ lệ được lấy mẫu (1 tốc độ mỗi năm), nhưng phân phối lấy mẫu Cauchy cho tham số tỷ lệ (thay vì hỗn hợp thông thường hoặc hỗn hợp thông thường). Phân phối Cauchy sẽ cho phép sự kiện cực đoan xảy ra (bằng cách lấy mẫu một tham số tốc độ lớn). Một trường hợp trung gian (giữa bình thường và Cauchy) là phân phối t. (Cauchy dễ lấy mẫu hơn vì nó có thể sử dụng phương pháp CDF nghịch đảo).
xác suất

2

Bạn cần thêm dữ liệu về người chơi và đặc điểm của họ trong khoảng thời gian bạn có dữ liệu về việc chạy tại nhà. Đối với bước đầu tiên, thêm một số đặc điểm thay đổi theo thời gian như tuổi người chơi hoặc kinh nghiệm. Sau đó, bạn có thể sử dụng mô hình dữ liệu bảng điều khiển hoặc HLM. Bạn sẽ cần chuẩn bị dữ liệu theo mẫu:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Mô hình đơn giản nhất sau đó sẽ là (hàm lme là từ gói nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Mô hình này sẽ phụ thuộc rất nhiều vào giả định rằng số lần chạy tại nhà của mỗi người chơi chỉ dựa vào kinh nghiệm cho phép một số thay đổi. Điều này có thể sẽ không chính xác lắm, nhưng ít nhất bạn sẽ có cảm giác số lượng của Jose Bautista khó có thể so với người chơi trung bình. Mô hình này có thể được cải thiện hơn nữa bằng cách thêm các đặc điểm của người chơi khác.


Tôi sẽ không nói rằng @TMOD cần nhiều dữ liệu hơn, chỉ là các dự đoán có thể chính xác hơn nếu @TMOD nhiều dữ liệu hơn. Có đủ thông tin trong câu hỏi để tạo ra một dự đoán.
xác suất

@probabilityislogic, vâng, có đủ thông tin để tạo dự đoán, nhưng sau đó mô hình sẽ chỉ có đánh chặn.
mpiktas

không nhất thiết, người ta có thể điều chỉnh mô hình AR (1) hoặc AR (2) cho dữ liệu này
xác suất

@probabilityislogic, ah vâng, bạn đúng.
mpiktas

2

Bạn có thể muốn xem Blog Sách.

Tom Tango và các tác giả khác của "Cuốn sách: Chơi tỷ lệ trong bóng chày" có lẽ là nguồn cung cấp sabermetrics tốt nhất hiện có. Đặc biệt, họ thích hồi quy trung bình. Họ đã đưa ra một hệ thống dự báo được thiết kế để trở thành hệ thống chấp nhận cơ bản nhất (Marcel) và nó hầu như chỉ dựa vào hồi quy trung bình.

Ngoài đỉnh đầu, tôi cho rằng một phương pháp sẽ là sử dụng dự báo như vậy để ước tính tài năng thực sự, và sau đó tìm một phân phối phù hợp xung quanh tài năng đó. Một khi bạn có được điều đó, mỗi lần xuất hiện của tấm sẽ giống như một thử nghiệm Bernoulli, vì vậy việc phân phối nhị thức có thể đưa bạn đến phần còn lại của con đường.


1

FYI, từ 2011 đến 2014, anh ta đạt 43, 27, 28 và 35.

Điều đó khá gần với mức trung bình 162 trò chơi của anh ấy là 32 (tất nhiên bao gồm các giá trị đó) và khoảng 1 SD dưới 54 trong năm 2010.

Có vẻ như hồi quy trung bình trong hành động: Một nhóm cực đoan được xây dựng bằng cách tận dụng các chủ đề ồn ào (1 trong trường hợp này) lệch khỏi nhóm của họ có nghĩa là tình cờ.

http://www.baseball-reference.com/players/b/bautijo02.shtml

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.