Lợi ích của việc sử dụng các lô QQ trên biểu đồ


22

Trong bình luận này , Nick Cox đã viết:

Binning vào các lớp học là một phương pháp cổ xưa. Mặc dù biểu đồ có thể hữu ích, phần mềm thống kê hiện đại giúp dễ dàng cũng như được khuyến khích để phù hợp với phân phối cho dữ liệu thô. Binning chỉ cần bỏ đi chi tiết rất quan trọng trong việc xác định phân phối nào là hợp lý.

Bối cảnh của nhận xét này cho thấy sử dụng các lô QQ như một phương tiện thay thế để đánh giá sự phù hợp. Tuyên bố nghe có vẻ rất hợp lý, nhưng tôi muốn biết về một tài liệu tham khảo đáng tin cậy hỗ trợ cho tuyên bố này. Có một số bài báo điều tra kỹ lưỡng hơn về thực tế này, ngoài một giếng đơn giản, điều này nghe có vẻ rõ ràng? Bất kỳ so sánh hệ thống thực tế của kết quả hoặc thích?

Tôi cũng muốn xem lợi ích của các lô QQ trên biểu đồ có thể được kéo dài đến mức nào, đối với các ứng dụng không phải là mô hình phù hợp. Các câu trả lời cho câu hỏi này đồng ý rằng, một trò chơi QQ [QQ] chỉ nói với bạn rằng "có gì đó không ổn". Tôi đang suy nghĩ về việc sử dụng chúng như một công cụ để xác định cấu trúc trong dữ liệu được quan sát so với mô hình null và tự hỏi liệu có tồn tại bất kỳ quy trình được thiết lập nào để sử dụng các lô QQ (hoặc dữ liệu cơ bản của chúng) để không chỉ phát hiện mà còn mô tả không ngẫu nhiên cấu trúc trong dữ liệu quan sát. Các tài liệu tham khảo bao gồm hướng này do đó sẽ đặc biệt hữu ích.


4
stats.stackexchange.com/questions/51718/ Cách đã trả lời một nửa câu hỏi, cụ thể là tại sao biểu đồ được tránh tốt nhất, bất kể bạn thay thế chúng bằng gì.
Gala

Câu trả lời:


25

Bài báo kinh điển ở đây là

Wilk, MB và R. Gnanadesikan. Năm 1968. Phương pháp vẽ xác suất để phân tích dữ liệu. Sinh trắc học 55: 1-17

và nó vẫn trả lời đọc gần và lặp đi lặp lại.

Một điều trị sáng suốt với nhiều ví dụ tốt đã được đưa ra bởi

Cleveland, WS 1993. Trực quan hóa dữ liệu. Hội nghị thượng đỉnh, NJ: Báo chí Hobart.

và điều đáng nói là phải giới thiệu nhiều hơn

Cleveland, WS 1994. Các yếu tố của dữ liệu đồ thị. Hội nghị thượng đỉnh, NJ: Báo chí Hobart.

Các văn bản khác có chứa tiếp xúc hợp lý với phương pháp này bao gồm

Davison, AC 2003. Mô hình thống kê. Cambridge: Nhà xuất bản Đại học Cambridge.

Rice, JA 2007. Thống kê toán học và phân tích dữ liệu. Belmont, CA: Duxbury.

Bỏ qua chuyện đó, tôi không biết bất cứ điều gì đúng với những gì bạn yêu cầu. Một khi bạn đã nhìn thấy điểm của các ô số lượng tử - lượng tử, cho thấy chi tiết rằng biểu đồ là một sự thay thế ở mức thứ hai có vẻ không thú vị cũng không hữu ích, giống như bắn cá vào thùng.

Nhưng tôi sẽ tóm tắt như thế này:

  1. Binning ngăn chặn các chi tiết, và các chi tiết thường rất quan trọng. Điều này có thể áp dụng không chỉ cho chính xác những gì đang diễn ra ở đuôi mà còn cho những gì đang diễn ra ở giữa. Ví dụ, độ chi tiết hoặc đa phương thức có thể quan trọng cũng như độ lệch hoặc trọng lượng đuôi.

  2. Binning yêu cầu các quyết định về nguồn gốc bin và chiều rộng thùng, điều này có thể ảnh hưởng đến sự xuất hiện của biểu đồ, vì vậy thật khó để biết đâu là thực và đâu là tác dụng phụ của các lựa chọn. Nếu phần mềm của bạn đưa ra những quyết định này cho bạn, vấn đề vẫn còn. (Ví dụ: các lựa chọn bin mặc định thường được thiết kế sao cho bạn không sử dụng "quá nhiều thùng", tức là với động cơ làm mịn một chút.)

  3. Vấn đề đồ họa và tâm lý của việc so sánh hai biểu đồ là khó hơn so với việc đánh giá sự phù hợp của một tập hợp các điểm với một đường thẳng.

-trung bình) / SD. Nếu các lượng tử chỉ là số liệu thống kê thứ tự, thì tất cả những gì bạn cần làm là áp dụng phép biến đổi, ví dụ logarit của cực đại là tối đa của logarit, v.v. (Một cách tầm thường, sự đảo ngược đảo ngược thứ tự.) Ngay cả khi bạn vẽ đồ thị lượng tử được chọn dựa trên hai thống kê thứ tự, thông thường chúng chỉ được nội suy giữa hai giá trị dữ liệu gốc và hiệu ứng của phép nội suy là không đáng kể. Ngược lại, biểu đồ trên nhật ký hoặc các thang đo biến đổi khác đòi hỏi một quyết định mới về nguồn gốc và chiều rộng của thùng không đặc biệt khó khăn, nhưng nó không tầm thường. Điều tương tự cũng có thể nói về ước tính mật độ như là một cách để tóm tắt phân phối.


8

Xem công việc của William S. Cleveland.

Trực quan hóa dữ liệu có lẽ là nguồn duy nhất tốt nhất, nhưng cũng xem trang web của anh ấy , đặc biệt là thư mục và trang để hiển thị dữ liệu (bao gồm mã S + có thể điều chỉnh để sử dụng R).

Cleveland có rất nhiều lý do tại sao các lô QQ là tốt và tại sao biểu đồ không tốt như vậy.



7

Khi bạn tìm hiểu cách sử dụng chúng, các ô QQ cho phép bạn xác định độ lệch, độ nặng, hình dạng chung, các đỉnh, v.v., các loại tính năng tương tự mà mọi người có xu hướng sử dụng biểu đồ để cố gắng đánh giá.

Ước tính mật độ hạt nhân hoặc ước tính mật độ log-spline có thể tránh được một số vấn đề với biểu đồ mà Gala đã chỉ ra trong các bình luận.

Xem xét ví dụ này từ liên kết đó:

Tuy nhiên, trừ khi bạn rất may mắn, đôi khi sự không hài lòng không bị ảnh hưởng có thể bị bỏ qua với biểu đồ và thậm chí với các ước tính mật độ trơn tru (vì chúng trơn tru, tự nhiên), nhưng thường sẽ rõ ràng trên các lô QQ. Ước tính mật độ trơn tru - trừ khi được xử lý đặc biệt - cũng có thể gặp rắc rối với các biến bị ràng buộc.

Biểu đồ và ước tính mật độ mịn đều dựa trên một xấp xỉ với dữ liệu - có thể hữu ích - nhưng cũng có thể giới thiệu các tạo tác hoặc những thứ hơi sai lệch.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.