Khóa học sụp đổ trong ước tính trung bình mạnh mẽ


14

Tôi có một loạt (khoảng 1000) ước tính và tất cả chúng đều được coi là ước tính về độ co giãn dài hạn. Hơn một nửa trong số này được ước tính bằng phương pháp A và phần còn lại sử dụng phương pháp B. Ở đâu đó tôi đọc một cái gì đó như "Tôi nghĩ phương pháp B ước tính một cái gì đó rất khác so với phương pháp A, vì ước tính cao hơn nhiều (50-60%) ". Kiến thức về thống kê mạnh mẽ của tôi không có gì, vì vậy tôi chỉ tính toán phương tiện mẫu và trung bình của cả hai mẫu ... và tôi thấy ngay sự khác biệt. Phương pháp A rất tập trung, sự khác biệt giữa trung bình và trung bình là rất ít, nhưng mẫu phương pháp B rất khác nhau.

Tôi đã kết luận rằng các ngoại lệ và sai số đo làm lệch mẫu phương pháp B, vì vậy tôi đã ném đi khoảng 50 giá trị (khoảng 15%) rất không phù hợp với lý thuyết ... và đột nhiên phương tiện của cả hai mẫu (bao gồm cả CI của chúng) rất giống nhau . Các lô mật độ là tốt.

(Trong nhiệm vụ loại bỏ các ngoại lệ, tôi đã xem xét phạm vi của mẫu A và loại bỏ tất cả các điểm mẫu trong B nằm ngoài nó.) Tôi muốn bạn cho tôi biết nơi tôi có thể tìm hiểu một số điều cơ bản về ước tính mạnh mẽ về phương tiện sẽ cho phép tôi đánh giá tình huống này chặt chẽ hơn. Và để có một số tài liệu tham khảo. Tôi không cần hiểu biết sâu sắc về các kỹ thuật khác nhau, thay vào đó hãy đọc qua một cuộc khảo sát toàn diện về phương pháp ước lượng mạnh mẽ.

Tôi đã kiểm tra về tầm quan trọng của sự khác biệt trung bình sau khi loại bỏ các ngoại lệ và giá trị p là 0,0559 (t khoảng 1,9), đối với các mẫu đầy đủ, chỉ số t là khoảng 4,5. Nhưng đó không thực sự là vấn đề, phương tiện có thể hơi khác một chút, nhưng chúng không nên khác nhau 50-60% như đã nêu ở trên. Và tôi không nghĩ họ làm thế.


3
Phân tích dự định của bạn sử dụng dữ liệu này là gì? Thực tiễn loại bỏ các ngoại lệ là đáng tin cậy thống kê: bạn có thể "tạo dữ liệu" để đưa ra ý nghĩa hoặc thiếu ý nghĩa ở bất kỳ cấp độ nào bằng cách làm điều đó. Có phải các quần thể A và B đã nhận được các phép đo bằng các phương pháp A và B thực sự là các quần thể đồng nhất hoặc có thể các phương pháp của bạn đã cung cấp cho bạn các quần thể khác nhau không?
AdamO

Sẽ không có tính toán hay phân tích nào nữa được thực hiện với dữ liệu. Cả hai phương pháp được đề cập đều phù hợp, theo nghiên cứu gần đây, do đó, quần thể nên đồng nhất; nhưng dữ liệu không có chất lượng tốt và rõ ràng một số giá trị trong B bị nhầm lẫn (phương pháp dễ bị lỗi), chúng hoàn toàn không có ý nghĩa kinh tế. Tôi biết việc loại bỏ là không rõ ràng, đó là lý do tại sao tôi đang tìm kiếm một cái gì đó khắt khe và đáng tin cậy hơn.
Ondrej

Câu trả lời:


16

Bạn đang tìm kiếm lý thuyết, hoặc một cái gì đó thực tế?

Nếu bạn đang tìm kiếm sách, đây là một số mà tôi thấy hữu ích:

  • FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Robust Statistics: Phương pháp tiếp cận dựa trên các chức năng lưu loát , John Wiley & Sons, 1986.

  • PJ Huber, Thống kê mạnh mẽ , John Wiley & Sons, 1981.

  • PJ Rousseeuw, AM Leroy, Hồi quy mạnh mẽ và Phát hiện ngoại lệ , John Wiley & Sons, 1987.

  • RG Staudte, SJ Sheather, Ước tính và Thử nghiệm mạnh mẽ , John Wiley & Sons, 1990.

Nếu bạn đang tìm kiếm các phương pháp thực tế, đây là một vài phương pháp mạnh mẽ để ước tính giá trị trung bình ("công cụ ước tính vị trí" là tôi đoán thuật ngữ nguyên tắc hơn):

  • Trung bình là đơn giản, nổi tiếng và khá mạnh mẽ. Nó có sức mạnh tuyệt vời để vượt trội hơn. "Giá" của sự mạnh mẽ là khoảng 25%.

  • Mức trung bình 5% được đánh giá là một phương pháp khả thi khác. Ở đây bạn vứt bỏ 5% giá trị cao nhất và 5% thấp nhất, sau đó lấy giá trị trung bình (trung bình) của kết quả. Điều này ít mạnh mẽ hơn đối với các ngoại lệ: miễn là không quá 5% điểm dữ liệu của bạn bị hỏng, điều đó là tốt, nhưng nếu hơn 5% bị hỏng, nó đột nhiên biến thành khủng khiếp (nó không bị suy giảm một cách duyên dáng). "Giá" của sự mạnh mẽ là ít hơn so với trung bình, mặc dù tôi không biết chính xác nó là gì.

  • Các Hodges-Lehmann ước tính trung bình của tập hợp (một bộ chứa n ( n + 1 ) / 2 giá trị), nơi x 1 , ... , x n{(xi+xj)/2:1ijn}n(n+1)/2x1,,xnlà những quan sát. Điều này có độ mạnh rất tốt: nó có thể xử lý tham nhũng lên tới khoảng 29% số điểm dữ liệu mà không bị sụp đổ hoàn toàn. Và "giá" của sự mạnh mẽ là thấp: khoảng 5%. Nó là một thay thế hợp lý cho trung vị.

  • Giá trị trung bình liên mã là một công cụ ước tính khác đôi khi được sử dụng. Nó tính trung bình của các phần tư thứ nhất và thứ ba, và do đó rất đơn giản để tính toán. Nó có độ bền rất tốt: nó có thể chịu được tham nhũng tới 25% số điểm dữ liệu. Tuy nhiên, "giá" của sự mạnh mẽ là không tầm thường: khoảng 25%. Kết quả là, điều này có vẻ kém hơn so với trung bình.

  • Có nhiều biện pháp khác đã được đề xuất, nhưng những biện pháp trên có vẻ hợp lý.

Nói tóm lại, tôi muốn đề xuất trung bình hoặc có thể là công cụ ước tính Hodges-Lehmann.

PS, tôi nên giải thích ý của tôi về "giá" của sự mạnh mẽ. Công cụ ước tính mạnh mẽ được thiết kế để vẫn hoạt động tốt ngay cả khi một số điểm dữ liệu của bạn bị hỏng hoặc là ngoại lệ. Nhưng nếu bạn sử dụng một công cụ ước tính mạnh mẽ trên một tập dữ liệu không có ngoại lệ và không có tham nhũng thì sao? Lý tưởng nhất, chúng tôi muốn công cụ ước tính mạnh mẽ có hiệu quả trong việc sử dụng dữ liệu càng tốt. Ở đây chúng ta có thể đo lường hiệu quả bằng sai số chuẩn (theo trực giác, lượng lỗi điển hình trong ước tính do người ước tính tạo ra). Người ta biết rằng nếu các quan sát của bạn đến từ phân phối Gaussian (iid) và nếu bạn biết bạn sẽ không cần sự mạnh mẽ, thì giá trị trung bình là tối ưu: nó có lỗi ước lượng nhỏ nhất có thể. "Giá" của sự mạnh mẽ, ở trên, là lỗi tiêu chuẩn tăng bao nhiêu nếu chúng ta áp dụng một công cụ ước tính mạnh mẽ cụ thể cho tình huống này. Một mức giá mạnh mẽ 25% cho trung vị có nghĩa là kích thước của lỗi ước lượng điển hình với trung vị sẽ lớn hơn khoảng 25% so với kích thước của lỗi ước lượng điển hình với giá trị trung bình. Rõ ràng, "giá" càng thấp thì càng tốt.


n(n+1)/2(xi+xj)/21ijnwilcox.test(..., conf.int=TRUE)

+1, điều này thực sự xuất sắc. Tuy nhiên, tôi có một nitpick: Tôi sẽ không sử dụng cụm từ "cụm từ lỗi" trong đoạn cuối của bạn, vì nó thường được sử dụng để chỉ một cái gì đó khác; Thay vào đó, tôi sẽ sử dụng 'lỗi tiêu chuẩn của phân phối lấy mẫu' hoặc chỉ là 'lỗi tiêu chuẩn'.
gung - Tái lập Monica

Một câu trả lời có cấu trúc và súc tích, cảm ơn bạn! Tổng quan là những gì tôi cần, tôi sẽ đọc qua bài báo do Henrik gợi ý và nên được đề cập. Để giải trí đêm hè dài, tôi chắc chắn sẽ kiểm tra những cuốn sách được đề xuất bởi bạn và jbowman.
Ondrej

@caracal, bạn đúng rồi. Đặc tính của tôi về công cụ ước tính HL là không chính xác. Cảm ơn vì sự đúng đắn của bạn. Tôi đã cập nhật câu trả lời của mình cho phù hợp.
DW

Cảm ơn, @gung! Tôi đã chỉnh sửa câu trả lời để sử dụng 'lỗi tiêu chuẩn' như bạn đề xuất.
DW

7

Nếu bạn thích một cái gì đó ngắn và dễ tiêu hóa, thì hãy xem bài báo sau đây từ tài liệu tâm lý học:

Erceg-Hurn, DM, & Mirosevich, VM (2008). Phương pháp thống kê mạnh mẽ hiện đại: Một cách dễ dàng để tối đa hóa độ chính xác và sức mạnh của nghiên cứu của bạn. Nhà tâm lý học người Mỹ , 63 (7), 591 bóng601. doi: 10.1037 / 0003-066X.63.7.591

Họ chủ yếu dựa vào các cuốn sách của Rand R Wilcox (được thừa nhận cũng không quá toán học):

Wilcox, RR (2001). Nguyên tắc cơ bản của phương pháp thống kê hiện đại: cải thiện đáng kể sức mạnh và độ chính xác. Newyork; Berlin: Mùa xuân.
Wilcox, RR (2003). Áp dụng các kỹ thuật thống kê đương đại. Amsterdam; Boston: Nhà xuất bản học thuật.
Wilcox, RR (2005). Giới thiệu về ước tính mạnh mẽ và kiểm tra giả thuyết. Báo chí học thuật.


5

Một cuốn sách kết hợp lý thuyết với thực hành khá tốt là Phương pháp thống kê mạnh mẽ với R, của Jurečková và Picek. Tôi cũng thích Robust Statistics , bởi Maronna et al. Cả hai điều này có thể có nhiều toán học hơn bạn quan tâm, tuy nhiên. Đối với một hướng dẫn được áp dụng nhiều hơn tập trung vào R, pdf BelVenTutorial này có thể giúp ích.


À, giáo sư Jurečková - một giáo viên tại trường đại học của chúng tôi, tỷ lệ cược là gì. Tôi sẽ kiểm tra cả hai cuốn sách. Mặc dù tôi đang tìm kiếm một tài liệu ngắn gọn hơn (vì vấn đề này rất khó đối với tôi), nhưng việc tìm hiểu sâu hơn một chút sẽ không hại gì. Cảm ơn!
Ondrej

1
Đó là một thế giới nhỏ bé! Chà, ít nhất tôi đã sửa lỗi chính tả bằng cách sao chép từ bình luận của bạn ...
jbowman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.