Làm cách nào tôi có thể ước tính xác suất của một thành viên ngẫu nhiên trong một dân số là tốt hơn so với một thành viên ngẫu nhiên từ một dân số khác?


15

Giả sử tôi có lấy mẫu từ hai quần thể riêng biệt. Nếu tôi đo thời gian mỗi thành viên thực hiện một nhiệm vụ, tôi có thể dễ dàng ước tính giá trị trung bình và phương sai của mỗi dân số.

Nếu bây giờ tôi đưa ra giả thuyết một cặp ngẫu nhiên với một cá nhân trong mỗi quần thể, tôi có thể ước tính xác suất rằng cái đầu tiên nhanh hơn cái thứ hai không?

Tôi có một ví dụ cụ thể trong đầu: các phép đo là thời gian để tôi đạp xe từ A đến B và các quần thể đại diện cho các tuyến đường khác nhau mà tôi có thể đi; Tôi đang cố gắng tìm ra xác suất để chọn tuyến A cho chu kỳ tiếp theo của mình sẽ nhanh hơn chọn tuyến B. Khi tôi thực sự thực hiện chu trình, tôi đã có một điểm dữ liệu khác cho tập mẫu của mình :).

Tôi biết rằng đây là một cách đơn giản khủng khiếp để cố gắng giải quyết vấn đề này, nhất là bởi vì vào bất kỳ ngày nào, gió có khả năng ảnh hưởng đến thời gian của tôi hơn bất cứ điều gì khác, vì vậy hãy cho tôi biết nếu bạn nghĩ tôi đang hỏi câu hỏi sai ...


Điều này có thể được thực hiện thông qua thử nghiệm nhị thức đơn giản & @Macro có một câu trả lời tốt. Tuy nhiên, có một vấn đề là với chính các mẫu: có điều gì có thể ảnh hưởng đến quyết định của bạn đi tuyến A hoặc tuyến B không? Cụ thể, bạn có thích đi tuyến đường A khi đường khô, gió ở sau lưng và bữa tối đang chờ không? :) Chỉ cần cẩn thận với bất cứ điều gì có thể ảnh hưởng đến các ngoại lệ trong một trong hai hoặc có thể làm sai lệch các mẫu theo một cách nào đó. Chẳng hạn, hãy thử thiết lập kế hoạch lấy mẫu của bạn trước thời hạn, xem xét mọi nhu cầu thay đổi (ví dụ: an toàn).
Lặp lại

Một cân nhắc khác: Giả sử rằng bạn có hai tuyến đường có phương tiện rất giống nhau và không thống trị tuyến kia về khả năng nó sẽ nhanh hơn. Ví dụ: một cái luôn luôn là 10 hoặc 20 phút, trong khi cái kia luôn luôn chính xác là 15 phút. Bạn có thể thấy tốt hơn để xử phạt sự không chắc chắn lớn hơn (ví dụ độ lệch chuẩn) hoặc ủng hộ một điều có nhiều khả năng mất ít hơn một số ngưỡng thời gian. Câu hỏi của bạn là tốt là tốt; Tôi chỉ đề nghị một sàng lọc trong tương lai.
Lặp lại

Câu hỏi thống kê là tốt, nhưng nếu bạn muốn tìm ra xác suất tuyến nào nhanh hơn, tôi nên đề xuất đo chiều dài của các tuyến. Nếu địa hình không đồi núi thì tuyến đường ngắn hơn sẽ luôn nhanh hơn.
mpiktas

Nếu gió là một yếu tố quan trọng và nếu tốc độ gió có liên quan đến hai tuyến đường thì có vẻ như một người sẽ cần thông tin về sự phụ thuộc giữa A và B để trả lời chính xác câu hỏi. Bạn sẽ cần dữ liệu hai biến cho điều đó và thật khó để đi hai con đường cùng một lúc. Bạn có thể tranh thủ người khác giúp bạn thu thập dữ liệu, nhưng sau đó sẽ cần tính đến sự thay đổi giữa các người lái. Trong trường hợp A và B là độc lập, câu trả lời dưới đây là tuyệt vời.

Nói cách khác: nếu tôi đang cố gắng quyết định đi theo con đường nào, một người qua một đường hầm, một người qua một cánh đồng và gió thổi như điên, tôi rất có thể chọn lĩnh vực này ngay cả khi trung bình nó tệ hơn khủng khiếp.

Câu trả lời:


12

Giải pháp

Đặt hai phương tiện là μ y và độ lệch chuẩn của chúng lần lượt là σ xσ y . Sự khác biệt về timings giữa hai cưỡi ( Y - X ) do đó có trung bình μ y - μ x và độ lệch chuẩn μxμyσxσyYXμyμx . Sự khác biệt được tiêu chuẩn hóa ("điểm z") làσx2+σy2

z=μyμxσx2+σy2.

Trừ khi thời gian đi xe của bạn có các phân phối lạ, cơ hội đi xe mất nhiều thời gian hơn đi xe X là xấp xỉ phân phối tích lũy Bình thường, Φ , được đánh giá tại z .YXΦz

Tính toán

Bạn có thể xác định xác suất này trên một trong những chuyến đi của mình vì bạn đã có ước tính v.v .:-). Với mục đích này nó thật dễ dàng để ghi nhớ một vài giá trị quan trọng của Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) 0,16 1 / 6 , Φ ( - 2 ) 0,022 1 / 40 , và Φ ( - 3 ) 0,0013μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 . (Các xấp xỉ có thể nghèo cho | z | lớn hơn nhiều so với 2 , nhưng biết Φ ( - 3 ) giúp với suy.) Cùng với Φ ( z ) = 1 - Φ ( - z ) và một chút suy, bạn có thể nhanh chóng ước tính xác suất đến một con số đáng kể, quá đủ chính xác với bản chất của vấn đề và dữ liệu.Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

Thí dụ

Giả sử tuyến mất 30 phút với độ lệch chuẩn là 6 phút và tuyến Y mất 36 phút với độ lệch chuẩn là 8 phút. Với đủ dữ liệu bao gồm nhiều điều kiện khác nhau, biểu đồ dữ liệu của bạn cuối cùng có thể xấp xỉ những điều này:XY

Two histograms

(Đây là các hàm mật độ xác suất cho các biến Gamma (25, 30/25) và Gamma (20, 36/20). Quan sát rằng chúng bị lệch sang phải, như người ta mong đợi cho thời gian đi xe.)

Sau đó

μx=30,μy=36,σx=6,σy=8.

Từ đâu

z=363062+82=0.6.

Chúng ta có

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

Do đó, chúng tôi ước tính câu trả lời là 0,6 trong khoảng từ 0,5 đến 0,84: 0,5 + 0,6 * (0,84 - 0,5) = khoảng 0,70. (Giá trị chính xác nhưng quá chính xác cho phân phối Bình thường là 0,73.)

Có khoảng 70% cơ hội rằng tuyến đường sẽ mất nhiều thời gian hơn so với lộ trình X . Thực hiện tính toán này trong đầu bạn sẽ đưa tâm trí của bạn ra khỏi ngọn đồi tiếp theo. :-)YX

(Xác suất chính xác cho biểu đồ được hiển thị là 72%, mặc dù không phải là Bình thường: điều này minh họa phạm vi và tiện ích của xấp xỉ Bình thường cho sự khác biệt về thời gian chuyến đi.)


nếu bạn có iid nhận ra từ mỗi phân phối thì lợi thế của việc sử dụng xấp xỉ bình thường thay vì phương pháp lấy mẫu lại monte carlo (câu trả lời của tôi) để ước tính gì? P(X>Y)
Macro

@Macro: nếu dữ liệu có thể được giảm xuống thành thống kê tóm tắt cho Q quan tâm, người ta có thể lưu trữ ít dữ liệu hơn ... chỉ là một suy nghĩ.
Lặp lại

Xin lỗi, não tôi bị nóng và tôi đã bỏ lỡ câu trả lời rõ ràng. Bạn đang trả lời các câu hỏi khác nhau. Phương thức bootstrap mà bạn đã ước tính , trong khi @whuber đang xem xét sự khác biệt về thời gian trung bình, không giống nhau. Nó không phải là quá khó khăn để xây dựng một trường hợp tùy chọn Y là ngắn hơn so với tùy chọn X 60% thời gian, nhưng giá trị trung bình cho Y lớn hơn giá trị trung bình cho X . P(X>Y)YXYX
Lặp lại

FWIW: @whuber đang mô tả bài kiểm tra t của Sinh viên về sự khác biệt về phương tiện giữa hai mẫu với độ lệch chuẩn khác nhau.
Lặp lại

1
Cảm ơn, @whuber, đây là câu trả lời cho câu hỏi tôi đang cố hỏi :).
Andrew Aylett

6

Cách tiếp cận theo bản năng của tôi có thể không phức tạp nhất về mặt thống kê, nhưng bạn có thể thấy nó vui hơn :)

Tôi sẽ lấy một tờ giấy có kích thước vừa phải và chia các cột thành các khối thời gian. Tùy thuộc vào thời gian di chuyển của bạn - chúng ta đang nói về thời gian trung bình là 5 phút hoặc một giờ - bạn có thể sử dụng các khối có kích thước khác nhau. Giả sử mỗi cột là một khối hai phút. Chọn một màu cho tuyến A và một màu khác cho tuyến B và sau mỗi chuyến đi, tạo một dấu chấm trong cột thích hợp. Nếu đã có một chấm màu đó, hãy di chuyển lên một hàng. Nói cách khác, đây sẽ là một biểu đồ với số lượng tuyệt đối.

Sau đó, bạn sẽ xây dựng một biểu đồ thú vị với mỗi chuyến đi của bạn và có thể thấy trực quan sự khác biệt giữa hai tuyến đường.

Cảm giác của tôi dựa trên kinh nghiệm của chính tôi khi đi xe đạp (không được xác minh thông qua định lượng) là thời gian sẽ không được phân phối bình thường - họ sẽ có một độ lệch tích cực, hay nói cách khác là một cái đuôi dài của thời gian thượng lưu. Thời gian điển hình của tôi không dài hơn thời gian ngắn nhất của tôi, nhưng thỉnh thoảng tôi dường như bật hết đèn đỏ, và có một cấp cao hơn nhiều. Kinh nghiệm của bạn có thể khác nhau. Đó là lý do tại sao tôi nghĩ cách tiếp cận biểu đồ có thể tốt hơn, vì vậy bạn có thể tự mình quan sát hình dạng của phân phối.

Tái bút: Tôi không có đủ đại diện để bình luận trong diễn đàn này, nhưng tôi thích câu trả lời của người viết! Ông giải quyết mối quan tâm của tôi về độ lệch khá hiệu quả với một phân tích mẫu. Và tôi thích ý tưởng tính toán trong đầu để giữ cho tâm trí của bạn khỏi ngọn đồi tiếp theo :)


1
+1 Cho sự sáng tạo. Trên thực tế, ý tưởng của bạn là trên con đường hướng tới tiện ích thực tế. Sẽ khá thú vị hơn khi sử dụng một trong những trang web theo dõi đạp xe (tôi quên trang nào bây giờ, nhưng hãy thêm, nếu bạn biết) để theo dõi thời gian phân khúc. Nếu OP quay trở lại CV hoặc StackOverflow với câu hỏi về âm mưu phân chia thời gian và có được mật độ liên quan đến nó, thì đó sẽ là một bài tập thống kê tuyệt vời - GIS, trực quan thống kê và các hàm mật độ, oh my! :)
Lặp lại

1
Tôi đã sử dụng Google MyTracks trên điện thoại của mình để theo dõi các phân đoạn đạp xe. Tôi thấy rằng điện thoại không tuyệt vời vì nó có xu hướng ngốn điện trên một thiết bị không được tối ưu hóa cho nó. Garmin (và những người khác) làm cho các thiết bị GPS được nhắm mục tiêu cụ thể vào người chạy bộ và người đi xe đạp để theo dõi thời gian dành cho các tuyến đường và cung cấp các biểu đồ gọn gàng trong giao diện trực tuyến. Bản thân tôi không sử dụng thiết bị GPS chuyên dụng, nhưng một số bạn bè của tôi sử dụng chúng để chia sẻ các tuyến đường trên facebook.
Jonathan

1
Dưới đây là một ví dụ về những gì thiết bị Garmin tạo ra. Vấn đề với các biểu đồ là chúng đã được xử lý trước rất nhiều, làm mịn, v.v. Ngoài ra, không có cách nào thuận tiện để nhập dữ liệu vào R chẳng hạn. Nhưng là một thiết bị chuyên dụng, nó thực hiện công việc của nó một cách tuyệt vời, tôi không thể tưởng tượng việc chạy hoặc đi xe đạp mà không có nó.
mpiktas

+1 Lưu ý rằng không có nhiều sai lệch đến từ việc nhấn đèn đỏ (trừ khi chúng được định thời gian): gọi chung, chúng thường chỉ thêm một số nhiễu Gaussian vào phân bố thời gian. . đang đi xe, và thỉnh thoảng tai nạn / đường vòng / kẹt xe, v.v.
whuber

Bây giờ tôi nghĩ về nó nhiều hơn, một yếu tố rất quan trọng khác là thời gian trong ngày. Đèn giao thông hoạt động rất khác nhau vào thời gian giao thông cao điểm - màu xanh lá cây dài hơn nhiều cho đường có lưu lượng cao hơn. Trong thời gian thấp điểm, đèn có xu hướng quay vòng nhanh, mặc định là màu xanh lục cho đường có lưu lượng cao, nhưng thay đổi nhanh khi tôi nhấn nút giao cắt hoặc ô tô kích hoạt cảm biến.
Jonathan

5

XYx,yx>yP(Xi>Yj)Tôi,j

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)

Đây là một câu trả lời tốt, nhưng bạn có thể đơn giản hóa nó bằng cách loại bỏ các forvòng lặp: hãy x1 = sample(X, 10000, replace = TRUE)y1 = sample(Y, 10000, replace = TRUE)và sau đó tính toán mean(x1 > y1)cùng với mean(x1 == y1)- để có được một cảm giác của # lần các giá trị đều bình đẳng.
Lặp lại

Cảm ơn. Tôi biết vòng lặp là không cần thiết nhưng tôi muốn logic bên dưới cách tiếp cận phải thật rõ ràng. Mã của bạn chắc chắn sẽ tạo ra kết quả tương tự.
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.