Bootstrapping - tôi có cần xóa các ngoại lệ trước không?


19

Chúng tôi đã chạy thử nghiệm phân tách một tính năng sản phẩm mới và muốn đo lường xem sự gia tăng về doanh thu có đáng kể hay không. Các quan sát của chúng tôi chắc chắn không được phân phối một cách bình thường (hầu hết người dùng của chúng tôi không chi tiêu, và trong số đó, chúng bị lệch rất nhiều về những người chi tiêu nhỏ và một vài người chi tiêu rất lớn).

Chúng tôi đã quyết định sử dụng bootstrapping để so sánh các phương tiện, để giải quyết vấn đề dữ liệu không được phân phối bình thường (câu hỏi phụ: đây có phải là cách sử dụng bootstrapping hợp pháp không?)

Câu hỏi của tôi là, tôi có cần cắt bớt các ngoại lệ khỏi tập dữ liệu (ví dụ như một số chi tiêu rất lớn) trước khi tôi chạy bootstrapping, hoặc điều đó không quan trọng?


1
Câu hỏi hay: Tôi có thể tranh luận ủng hộ và chống lại việc loại bỏ các ngoại lệ. Tại sao không sử dụng trung bình nếu bạn lo lắng về các ngoại lệ và những gì bạn đang tìm kiếm chỉ là một "xu hướng trung tâm"? Cho rằng các biến liên quan đến tiền thường có phân phối sai lệch cao (ví dụ: Pareto) có thể không hợp lý ngay từ đầu.
usεr11852 nói Phục hồi Monic

1
@ user11852 Median cho bạn biết rất ít về giá trị trung bình, đó là những gì có liên quan đến doanh thu. Sẽ rất thú vị khi thấy lập luận của bạn ủng hộ loại bỏ các "ngoại lệ", đặc biệt khi đây có thể là những người đóng góp chính cho tổng doanh thu.
whuber

1
Thật không may, trung bình sẽ luôn bằng không, vì <10% người dùng chi tiêu hoàn toàn
user31228

2
@ user11852 Lập luận chung của bạn rằng các ngoại lệ là hợp pháp là hữu ích. Nhưng, liên quan đến khả năng khuếch đại, đối với tôi, điều ngược lại là đúng: bootstrapping chỉ có cơ hội hoạt động nếu sử dụng toàn bộ mẫu. Mặt khác, nó thể hiện một câu chuyện cổ tích, cho chúng ta biết mọi thứ sẽ thế nào nếu các ngoại lệ không tồn tại - nhưng rõ ràng là chúng có. Vấn đề lớn hơn là bootstrapping có chút biện minh lý thuyết khi áp dụng cho mẫu nhỏ: lý thuyết là một tiệm cận một.
whuber

2
Đây là một câu hỏi quan trọng (+1). Bạn có thể thêm một mẫu nhỏ của tập dữ liệu của bạn hoặc một mẫu mô phỏng giống với câu hỏi không? Tôi nghĩ rằng việc cung cấp một minh họa sẽ có kết quả hơn trong trường hợp này.
user603

Câu trả lời:


6

Trước khi giải quyết vấn đề này, điều quan trọng là phải thừa nhận rằng sai sót thống kê về "loại bỏ các ngoại lệ" đã được ban hành sai trong phần lớn các phương pháp sư phạm thống kê được áp dụng. Theo truyền thống, các ngoại lệ được định nghĩa là đòn bẩy cao, quan sát ảnh hưởng cao. Người ta có thể và nên xác định những quan sát như vậy trong phân tích dữ liệu, nhưng những điều kiện đó không đảm bảo loại bỏ những quan sát đó. Một "ngoại lệ thực sự" là một quan sát đòn bẩy cao / ảnh hưởng cao không phù hợp với các bản sao của thiết kế thử nghiệm. Để xem xét một quan sát như vậy đòi hỏi kiến ​​thức chuyên môn về dân số đó và khoa học đằng sau "cơ chế tạo dữ liệu". Khía cạnh quan trọng nhất là bạn sẽ có thể xác định được các ngoại lệ tiềm năng apriori .

Đối với khía cạnh bootstrapping của mọi thứ, bootstrap có nghĩa là mô phỏng các bản vẽ độc lập, lặp đi lặp lại từ dân số lấy mẫu. Nếu bạn quy định tiêu chí loại trừ trong kế hoạch phân tích của mình, bạn vẫn nên để các giá trị loại trừ trong phân phối lấy mẫu bootstrap của người giới thiệu . Điều này là do bạn sẽ mất điện do áp dụng các loại trừ sau khi lấy mẫu dữ liệu của bạn. Tuy nhiên, nếu không có tiêu chí loại trừ được quy định trước và các ngoại lệ được loại bỏ bằng cách sử dụng xét xử hậu hoc , vì rõ ràng tôi đang chống lại, loại bỏ các giá trị này sẽ lan truyền các lỗi tương tự gây ra bởi việc loại bỏ các ngoại lệ.

Hãy xem xét một nghiên cứu về sự giàu có và hạnh phúc trong một mẫu ngẫu nhiên đơn giản không xác định gồm 100 người. Nếu chúng ta đưa ra tuyên bố, "1% dân số nắm giữ 90% tài sản của thế giới" theo nghĩa đen, thì chúng ta sẽ quan sát, trung bình, một giá trị có ảnh hưởng rất cao. Giả sử thêm rằng, ngoài chất lượng cuộc sống cơ bản, không có hạnh phúc dư thừa do thu nhập lớn hơn (xu hướng tuyến tính không quan trọng). Vì vậy, cá nhân này cũng là đòn bẩy cao.

Hệ số hồi quy bình phương nhỏ nhất phù hợp với dữ liệu không bị biến đổi ước tính dân số tính trung bình theo xu hướng thứ nhất trong các dữ liệu này. Nó bị suy giảm nặng nề bởi 1 cá nhân của chúng tôi trong mẫu có hạnh phúc phù hợp với những người gần mức thu nhập trung bình. Nếu chúng ta loại bỏ cá thể này, độ dốc hồi quy bình phương nhỏ nhất lớn hơn nhiều, nhưng phương sai của biến hồi quy giảm, do đó suy luận về liên kết là gần như nhau. Khó khăn khi làm điều này là tôi đã không quy định trước các điều kiện trong đó các cá nhân sẽ bị loại trừ. Nếu một nhà nghiên cứu khác sao chép thiết kế nghiên cứu này, họ sẽ lấy mẫu trung bình một người có thu nhập cao, cá nhân hạnh phúc vừa phải và thu được kết quả không phù hợp với kết quả "cắt xén" của tôi.

Nếu chúng ta apriori quan tâm đến các hiệp hội hạnh phúc thu nhập vừa phải, sau đó chúng ta nên đã xác định trước rằng chúng ta sẽ, ví dụ: "so sánh cá nhân có thu nhập hộ gia đình hàng năm ít hơn $ 100,000". Vì vậy, loại bỏ các ngoại lệ khiến chúng ta ước tính một liên kết mà chúng ta không thể mô tả, do đó các giá trị p là vô nghĩa.

Mặt khác, các thiết bị y tế bị tính toán sai và các cuộc điều tra tự báo cáo có thể bị loại bỏ. Chính xác hơn là các tiêu chí loại trừ có thể được mô tả trước khi phân tích thực tế diễn ra, kết quả phân tích như vậy sẽ hợp lệ và nhất quán hơn.


Tôi không chắc tại sao tôi hiểu tại sao " nếu bạn quy định tiêu chí loại trừ trong kế hoạch phân tích của mình, bạn vẫn nên để các giá trị bị loại trừ trong phân phối lấy mẫu bootstrap của người giới thiệu. " Bạn đề cập rằng đây là " vì bạn sẽ mất điện do áp dụng loại trừ sau khi lấy mẫu dữ liệu của bạn. "Tôi không hiểu tại sao người ta cho rằng việc áp dụng tiêu chí loại trừ sau khi lấy mẫu dẫn đến mất điện, cũng như cách / tại sao để lại các trường hợp bị loại trừ trong mẫu" bootstrap "cho" (?) này, cũng không phải lý do tại sao đây là một cái gì đó rõ ràng phải được "chiếm." Có lẽ tôi đang dày đặc ở đây.
Jake Westfall

p

Hmm, suy nghĩ của tôi là nếu một người đã xác định trước các tiêu chí loại trừ - do đó chúng tôi rõ ràng không quan tâm đến một số loại trường hợp nhất định và có lẽ các bản sao nghiên cứu trong tương lai sẽ sử dụng các tiêu chí loại trừ tương tự này - vậy thì sẽ hợp lý khi rời đi những trường hợp đó nằm ngoài mẫu bootstrap, vì chúng là một phân khúc dân số mà chúng tôi không muốn đưa ra bất kỳ suy luận nào. Tôi thấy các bản sao trong tương lai có thể kết thúc như thế nào, ngoại trừ một tỷ lệ các trường hợp khác nhau, nhưng tôi hoàn toàn không thể tạo ra mối liên hệ với lý do tại sao điều này lại quan trọng đối với các trường hợp mà chúng tôi rõ ràng đang quan tâm ..
Jake Westfall

1
pH0
AdamO

0

Nhìn vào điều này như một vấn đề ngoại lệ đối với tôi. Nếu "<10% người dùng chi tiêu hoàn toàn", bạn cần mô hình hóa khía cạnh đó. Hồi quy Tobit hoặc Heckman sẽ là hai khả năng.


2
Hiện tại, đây là một nhận xét nhiều hơn là một câu trả lời. Bạn có phiền mở rộng nó một chút để làm cho nó nhiều câu trả lời hơn không?
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.