Có tồn tại một ai đó nhanh hơn Usain Bolt ngày hôm nay?


12

EDIT: Tôi quan tâm nhiều hơn đến các vấn đề kỹ thuật và phương pháp xác định khả năng tối đa "thực sự" trong một dân số nhất định được đưa ra một thống kê mẫu. Có những vấn đề với việc ước tính khả năng chạy nhanh hơn ông Bolt từ thời gian lập kỷ lục thiết lập kỷ lục vừa rõ ràng vừa tinh tế. Hài hước cho tôi bằng cách tưởng tượng điều này không phải là trường hợp.


Usain Bolt là người nhanh nhất được đo cho cú nhảy 100m. Tuy nhiên, với số lượng vận động viên ít ỏi, có vẻ như con người "thực sự" nhanh nhất còn sống đang ngồi trên một chiếc ghế dài ở đâu đó và chưa bao giờ thử sức với một sự nghiệp thi đấu.

Tôi đang cố gắng sử dụng thực tế là sự khác biệt giữa các mẫu ở đuôi phân phối bình thường trở nên nhỏ hơn và nhỏ hơn. Tôi đang sử dụng điều này để tính toán khả năng tồn tại một người nào đó nhanh hơn Usain Bolt bằng cách so sánh Usain với người nhanh thứ 2, nhanh thứ 3, v.v.

Để làm điều này, tôi đang cố gắng tính giá trị lớn nhất tồn tại ngoài "Usain Bolt" bằng cách lấy đạo hàm của CDF phân phối bình thường đối với , nâng giá trị đó lên thứ n (trong đó n là khoảng 7.000.000.000 hoặc số các mẫu nhỏ hơn "tối đa" - logic đằng sau điều này được mô tả trong Bài toán xe tăng Đứcynn trang Wikipedia về , khái quát giữa các bản phân phối khác nhau), ví dụ:

0yfYN(y)dy=λn0y[12[1+erf(yμσ2)]]n112πσ2e(yμ)22σ2dy

  1. Đây có phải là cách hợp lệ để tính xác suất tồn tại ai đó nhanh hơn Usain Bolt không?

  2. Có một tên cho loại câu hỏi này ngoài "Vấn đề xe tăng Đức cho các bản phân phối khác"

  3. Có cách nào tốt để ước tính độ lệch chuẩn so với các mẫu cực của phân phối không? Tìm kiếm thông tin về dấu gạch ngang 100m nhanh nhất mọi thời đại thật dễ dàng, tìm trung bình & phương sai rất khó)

Cảm ơn bạn đã kiên nhẫn của bạn trong việc làm việc với một lập trình viên mà không có nền tảng trong chủ đề.


2
Bạn đưa ra giả định rằng dù bạn là vận động viên có độc lập với tốc độ chạy của bạn hay không. Cái nào cũng được, nhưng có vấn đề.
bayerj

@bayerj Vâng, tôi nghĩ khá rõ ràng rằng đây sẽ là một cách thực sự tồi tệ để dự đoán người thách đấu Olympic tiếp theo. Tuy nhiên, nó có vẻ như là một câu hỏi thú vị nói chung và tôi đang cố gắng trả lời nó hết khả năng của mình với hy vọng ai đó thương hại và giúp đỡ tôi.
ŹV -

1
Tôi thấy câu hỏi này không được đặt ra vì chất lượng là "nhanh (er)", ở đây, đề cập đến một tiềm năng di truyền hoặc tài năng thể thao và không phải là khả năng thực sự đạt được tốc độ cao.
Digio

@Digio Thay thế "nhanh hơn" bằng "có số sê-ri cao hơn" giả sử một số công ty "Fubarco" tạo ra một bộ sản phẩm có số sê-ri được phân phối bình thường.
ŹV -

1
Tạo động lực cho một câu hỏi với một ví dụ nói chung là một việc nên làm. Tuy nhiên, ví dụ này dường như đang làm mọi người mất tập trung khỏi những gì bạn đang thực sự muốn hỏi. Bạn có thể chỉnh sửa điều này để thảo luận về tình huống bạn đang thực sự phải đối mặt?
gung - Phục hồi Monica

Câu trả lời:


2

Trái với những câu trả lời khác, tôi cho rằng bạn có thể nói điều gì đó về khả năng của Bolts với dữ liệu có sẵn. Trước hết, hãy thu hẹp câu hỏi của bạn. Bạn đang hỏi về con người nhanh nhất, nhưng vì có sự khác biệt trong phân phối tốc độ chạy cho nam và nữ, trong đó người phụ nữ chạy bộ tốt nhất dường như chậm hơn một chút thì người chạy tốt nhất, chúng ta nên tập trung vào người chạy bộ nam. Để có được một số dữ liệu, chúng ta có thể nhìn vào các màn trình diễn năm tốt nhất trên 100 chạy từ 45 năm qua . Có một số điều cần chú ý về dữ liệu này:

  • Đó là những khoảng thời gian chạy tốt nhất, vì vậy chúng không cho chúng ta biết về khả năng của tất cả mọi người, nhưng về tốc độ đạt được tối thiểu .
  • Chúng tôi giả định rằng dữ liệu này phản ánh mẫu của những người chạy tốt nhất trên thế giới. Mặc dù có thể đã xảy ra rằng thậm chí còn có những vận động viên tốt hơn không tham gia giải vô địch, giả định này có vẻ khá hợp lý.

Đầu tiên, hãy thảo luận về cách không phân tích dữ liệu này. Bạn có thể nhận thấy rằng nếu chúng ta vẽ thời gian chạy theo thời gian, chúng ta sẽ quan sát mối quan hệ tuyến tính mạnh mẽ.

Thời gian chạy tốt nhất so với thời gian

Điều này có thể dẫn bạn đến việc sử dụng hồi quy tuyến tính để dự báo số người chạy tốt hơn chúng ta có thể quan sát trong những năm tiếp theo. Điều này tuy nhiên sẽ là một ý tưởng rất tồi tệ , điều đó chắc chắn sẽ khiến bạn kết luận rằng trong khoảng hai nghìn năm nữa, con người sẽ có thể chạy 100 mét trong 0 giây và sau đó họ sẽ bắt đầu đạt được thời gian chạy tiêu cực! Điều này rõ ràng là vô lý, vì chúng ta có thể tưởng tượng rằng có một số loại giới hạn sinh học và vật lý của năng lực của chúng ta, mà chúng ta không biết.

Y=max(X1,X2,,Xn)X1,X2,,XnYiZ1,Z2,,ZkZi

Phân phối GEV cho tốc độ chạy

1%đuôi phân phối. Vì vậy, nếu chúng tôi bám vào dữ liệu này và phân tích ví dụ về đồ chơi này, chúng tôi sẽ kết luận rằng thời gian chạy nhỏ hơn nhiều là không thể (nhưng rõ ràng là có thể). Vấn đề rõ ràng với phân tích này là bỏ qua thực tế là chúng ta đã thấy những cải tiến hàng năm về thời gian chạy tốt nhất. Điều này đưa chúng ta trở lại vấn đề được mô tả trong phần đầu tiên của câu trả lời, tức là giả sử mô hình hồi quy ở đây là rủi ro. Một điều khác có thể được cải thiện là chúng ta có thể sử dụng phương pháp Bayes và giả sử thông tin trước đó sẽ giải thích một số kiến ​​thức ngoài dữ liệu về thời gian chạy sinh lý có thể xảy ra, nhưng theo tôi biết, nhưng theo tôi biết, điều này là không biết tại thời điểm hiện tại). Cuối cùng, lý thuyết giá trị cực đoan tương tự đã được sử dụng trong nghiên cứu thể thao, ví dụ như Einmahl và Magnus (2008) trong

Bạn có thể phản đối rằng bạn đã không hỏi về xác suất thời gian chạy nhanh hơn, nhưng về xác suất quan sát người chạy nhanh hơn. Thật không may, ở đây chúng tôi không thể làm gì nhiều vì chúng tôi không biết xác suất người chạy sẽ trở thành vận động viên chuyên nghiệp là bao nhiêu và thời gian chạy được ghi lại sẽ có sẵn cho anh ấy. Điều này không xảy ra ngẫu nhiên và có rất nhiều yếu tố góp phần vào việc một số vận động viên trở thành vận động viên chuyên nghiệp và một số thì không (hoặc thậm chí ai đó thích chạy và chạy). Đối với điều này, chúng ta sẽ phải có dữ liệu toàn dân chi tiết về người chạy, hơn nữa vì bạn đang hỏi về các thái cực của phân phối, dữ liệu sẽ phải rất lớn. Vì vậy, về điều này, tôi đồng ý với các câu trả lời khác.


1

Bản năng đầu tiên của tôi là đây là một ý tưởng tồi, nhưng hãy để tôi phá vỡ một chút tại sao.

1) Bạn muốn đo lường một biến không quan sát được, kỹ năng chạy tiềm ẩn, với một biến có thể quan sát được, thời gian chạy được ghi lại. Điều đó không sao, nhưng: Trong bài toán xe tăng của Đức, các số sê-ri đều được tạo ra từ cùng một phân phối thống nhất. Trong vấn đề của bạn, bạn phải suy ra kỹ năng biến tiềm ẩn (của 7 tỷ người) từ thời gian chạy biến có thể quan sát được. Trong GTP, nhiều số sê-ri được biết đến. Trong vấn đề của bạn, bạn đã không thu thập được dữ liệu nào cả và chỉ đang ở mức tối đa (Bolt). Hơn nữa, bạn dường như cho rằng kỹ năng tiềm ẩn không thể quan sát được này không phù hợp với thời gian chạy thực tế đến mức có thể ai đó chưa bao giờ chạy tốt hơn Bolt. Nó chỉ có vẻ vô lý!

2) Vận động viên không phải là mẫu ngẫu nhiên của dân số. Chúng được lựa chọn cẩn thận bởi nhiều thử nghiệm. Nếu chúng ta cho rằng tất cả mọi người có khả năng chạy đều có thể đã đua với ai đó ít nhất một lần trong đời và mỗi người đã đưa ra quyết định về việc họ có nên tiếp tục thi đấu ở cấp độ cao hơn hay không dựa trên mức độ thường xuyên hoặc họ giành được bao nhiêu chủng tộc --- sau đó dường như không thể tin rằng Bolt thực sự là con người nhanh nhất ở đó.

Đây chỉ là những lý do đầu tiên đến với tâm trí. Thành thật mà nói, bạn đang có một chút sai lầm với việc này. Không có cách nào để đo lường "xác suất" của loại điều bạn đang nói đến.


Một người trả lời khác đã đưa ra nhận xét tương tự và chắc chắn đúng là việc ước tính khả năng tồn tại một người nào đó nhanh hơn ông Bolt trên cơ sở này là rất thiếu sót. Nó cũng sẽ thú vị hơn để biết nếu logic kỹ thuật dự đoán dựa trên các giá trị cực đoan này là chính xác về nguyên tắc.
ŹV -

3
Tôi sẽ đề nghị trừu tượng hóa câu hỏi sau đó để đi vào trung tâm của những gì bạn thực sự muốn hỏi, vì bối cảnh sẽ tạo ra rất nhiều phiền nhiễu. Tôi vẫn chưa rõ "phân phối bình thường" mà bạn đang đề cập đến là gì. Thời gian chạy thực tế? Khả năng chạy của vận động viên?
hessian thoái hóa

-2

Câu trả lời là không.

Bạn đang giả định rằng có một mẫu từ dân số (vận động viên) và Bolt là mẫu tối đa trên mẫu này. Vì vậy, bạn đang tìm kiếm xác suất tối đa dân số lớn hơn tối đa của mẫu. Đó là giả thuyết của bạn.

Điều gì xảy ra nếu giả định của bạn sai và mẫu thực sự là dân số?

Tôi có thể đưa ra một lập luận hợp lý rằng mọi người có thể chạy đều có cơ hội đánh bại anh ta. Không ai làm thế, vì vậy anh ta là dân số tối đa thực sự của Trái đất.

Rõ ràng là các vận động viên không phải là một mẫu ngẫu nhiên. Tôi hy vọng không có câu hỏi về điều này. Dĩ nhiên, có một mức độ ngẫu nhiên trong cách người ta trở thành một vận động viên. Mặt khác, nếu một người không phải là một vận động viên thì các kỹ năng và thành tích thể thao của anh ta sẽ không thể so sánh với các vận động viên. Tôi có thể nhận ra rằng ai đó CÓ THỂ TIỀM NĂNG chạy nhanh hơn Bolt với tất cả các điều kiện để đào tạo VÀ CÓ được đào tạo chăm chỉ như Bolt. Tuy nhiên, không có khả năng nào là bạn kéo một người không phải vận động viên và anh ta đánh bại Bolt trong 100m dấu gạch ngang trong điều kiện theo dõi và trường.


Tôi quan tâm nhiều hơn đến phương pháp luận đằng sau nó là chính xác, hãy tưởng tượng Xe tăng có số sê-ri thường được phân phối w / trùng lặp thay vì tốc độ chạy có thể :)
V -
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.