So sánh đuôi của hai bản phân phối mẫu


13

Tôi có hai bộ dữ liệu gần như tập trung vào khoảng 0 nhưng tôi nghi ngờ rằng chúng có đuôi khác nhau. Tôi biết một vài thử nghiệm để so sánh phân phối với phân phối bình thường, nhưng tôi muốn so sánh trực tiếp hai phân phối.

Có một thử nghiệm đơn giản để so sánh độ béo của đuôi của 2 bản phân phối ?

Cảm ơn
fRed


Thẻ "fat-tails" có thực sự có ý nghĩa (cho các câu hỏi trong tương lai) không?
chl

@chl Bạn cho tôi biết, tôi chắc chắn không có kinh nghiệm như bạn trong thống kê. Nhưng IMO đó là một thiên kiến ​​cổ điển để đánh giá thấp tầm quan trọng của đuôi. Bạn đã đọc tác phẩm của Mandelbrot chưa? Đuôi béo rất quan trọng trong thống kê ứng dụng cho tài chính và cuộc khủng hoảng tín dụng năm 2008 xuất phát từ một số mô hình định giá giả định tính bình thường và đánh giá thấp các đuôi béo của phân phối tương quan. Chúng ta có thể thảo luận điều đó trong một chủ đề khác :)
RockScience

1
Câu hỏi này có khả năng thú vị nhưng một số làm rõ sẽ được hoan nghênh. Bạn có quan tâm về một đuôi hoặc cả hai? Làm thế nào để bạn đo "độ béo"? (Bạn có sẵn sàng thay đổi và bán lại hai bản phân phối để so sánh không?) Làm thế nào để bạn đo độ lệch trong "độ béo"? Nếu bạn suy ngẫm về một bài kiểm tra giả thuyết, thì chính xác thì giả thuyết thay thế sẽ là gì?
whuber

@RockScience, tôi có hai bản phân phối và chỉ muốn so sánh các đuôi, bạn đã quản lý cách thực hiện chưa? Tôi biết bạn có thể tính toán kurtosis nhưng làm thế nào bạn kiểm tra rằng cả hai đuôi là khác nhau?
dùng2380782

Câu trả lời:



2

Xây dựng một ngưỡng, cho biết lambda, chúng ta có thể kiểm tra sự bằng nhau của hai phương tiện hoặc phương sai của hai phân phối bị hạn chế trên vùng đuôi (\ lambda, vô cực) dựa trên hai bộ dữ liệu quan sát rơi vào vùng đuôi này. Tất nhiên, hai bài kiểm tra t-test mẫu hoặc F-test có thể ổn nhưng không có kết quả vì biến ngẫu nhiên bị hạn chế ở vùng đuôi này không bình thường ngay cả những bản gốc.


Lý thuyết giá trị cực đoan nghiên cứu các phân phối bị cắt ngắn như vậy: không có triệu chứng, sự phân bố của đuôi thường thuộc về họ Pareto tổng quát . Người ta cũng có thể cố gắng khớp dữ liệu với họ phân phối này và so sánh các tham số.
Vincent Zoonekynd

@Vincent Một cái đuôi thực tế có thể có bất kỳ phân phối. Lý thuyết giá trị cực đoan nói rất ít về các đuôi: nó tập trung vào phân phối cực đại (hoặc cực tiểu) của các mẫu iid, đây là một điều hoàn toàn khác.
whuber

1

Làm thế nào về việc phù hợp với phân phối lambda tổng quát và khoảng tin cậy bootstrapping trên các tham số thứ 3 và thứ 4?


2
Tại sao gia đình phân phối này sẽ đặc biệt tốt cho vấn đề này mà không phải là một số gia đình khác như phân phối Pearson?
whuber

1

Bài kiểm tra Chi Square (bài kiểm tra mức độ phù hợp) sẽ rất tốt trong việc so sánh các đuôi của hai bản phân phối vì nó được cấu trúc để so sánh hai bản phân phối bằng các thùng giá trị (được biểu thị bằng biểu đồ). Và, đuôi sẽ bao gồm nhiều xô nhất.

Mặc dù thử nghiệm này tập trung vào toàn bộ phân phối, nhưng không chỉ đuôi bạn có thể dễ dàng quan sát được bao nhiêu giá trị Chi hoặc độ phân kỳ được lấy từ sự khác biệt về độ béo của đuôi.

Xem rằng biểu đồ dẫn xuất thực sự có thể cung cấp cho bạn nhiều thông tin trực quan hơn về độ béo tương ứng của đuôi so với bất kỳ ý nghĩa thống kê liên quan đến thử nghiệm nào. Đó là một điều để nói rằng độ béo đuôi là khác nhau về mặt thống kê. Đó là một cái khác để quan sát trực quan nó. Họ nói rằng một bức tranh đáng giá bằng ngàn lời nói. Đôi khi nó cũng có giá trị bằng một nghìn số (có nghĩa là các biểu đồ đóng gói tất cả các số).


3
Dường như với tôi rằng bài kiểm tra Chi Square sẽ đặc biệt kém trong việc xác định sự khác biệt ở đuôi. Nếu các đuôi được bao phủ bởi nhiều thùng, thì - vì chúng là đuôi! - có thể có ít dữ liệu trong bất kỳ thùng nào, làm mất hiệu lực xấp xỉ chi bình phương. Nếu các đuôi được bao phủ bởi một vài thùng, thì bạn sẽ mất gần như toàn bộ sức mạnh để phân biệt hình dạng của chúng và những gì bạn quản lý để phân biệt đối xử có thể không liên quan hoặc hữu ích khủng khiếp. (Một vấn đề chúng tôi gặp phải ở đây là "độ béo của đuôi" chưa được xác định, vì vậy câu hỏi thực sự quá mơ hồ để trả lời tốt.)
whuber

@whuber, tôi không thể nói liệu tôi có đồng tình với nhận xét của bạn không vì tôi không hiểu đầy đủ một trong những điểm của bạn. Bạn có ý nghĩa chính xác bằng cách "vô hiệu hóa xấp xỉ chi bình phương"?
Sympa

Kiểm tra chi bình phương dựa trên một xấp xỉ lý thuyết Bình thường với phân phối thực sự của thống kê chi bình phương. Thông thường, xấp xỉ này trở nên kém khi dân số bin giảm xuống dưới 5.
whuber

@whuber, cảm ơn đã giải thích. Theo quan điểm của nó, tôi cảm thấy như cụm từ đầu tiên của bình luận ban đầu của bạn có thể không có sắc thái như bạn có thể quan tâm ("bài kiểm tra Chi Square sẽ đặc biệt kém trong việc xác định sự khác biệt ở đuôi"). Có thể tuyên bố phù hợp hơn sẽ là "nó phụ thuộc ..." Bài kiểm tra này có một số giá trị, bao gồm cả việc buộc bạn phải xác định các thùng có liên quan. Và, cũng quan trọng như tạo điều kiện cho việc xây dựng một biểu đồ. Cấp nếu bạn có ít hơn 5 quan sát trong một thùng, bạn sẽ mất độ chính xác như bạn đã giải thích rõ.
Sympa

@Gaetan Tôi đánh giá cao sự chú ý đến sắc thái, nhưng trong trường hợp này sự phán xét có vẻ hợp lý. So với nhiều phương pháp khác có sẵn để so sánh các bản phân phối, bài kiểm tra Chi Squared không theo kịp. Nếu bạn "xác định các thùng có liên quan" dựa trên dữ liệu, thử nghiệm không hợp lệ. Ngoài ra, biểu đồ thường không phải là một cách hữu ích để xem xét các đuôi phân phối. Tuy nhiên, tôi miễn cưỡng đề xuất các giải pháp thay thế bởi vì vấn đề không được xác định rõ ràng: hai bản phân phối có cùng "độ béo của đuôi" nghĩa là gì? Kurtosis là một khả năng, nhưng đó là một biện pháp thô thiển.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.