Có giới hạn trên về số lượng khoảng trong biểu đồ không?


10

Tôi đã đọc nhiều bài báo và những đoạn trích từ cuốn sách giải thích làm thế nào để chọn một tốt số khoảng cách (thùng) cho biểu đồ của một tập dữ liệu, nhưng tôi tự hỏi nếu có một cứng tối đa số khoảng cách dựa trên số điểm trong một bộ dữ liệu, hoặc một số tiêu chí khác.

Bối cảnh: Lý do tôi hỏi là tôi đang cố gắng viết phần mềm dựa trên quy trình từ một bài nghiên cứu. Một bước trong quy trình là tạo một số biểu đồ từ tập dữ liệu, sau đó chọn độ phân giải tối ưu dựa trên hàm đặc trưng (được xác định bởi các tác giả của bài báo). Vấn đề của tôi là các tác giả không đề cập đến giới hạn trên cho số lượng khoảng thời gian để kiểm tra. (Tôi có hàng trăm bộ dữ liệu để phân tích và mỗi loại có thể có số thùng "tối ưu" khác nhau. Ngoài ra, điều quan trọng là số thùng tối ưu được chọn, vì vậy hãy xem kết quả và chọn một thùng tốt sẽ không công việc.)

Đơn giản chỉ cần đặt số lượng khoảng thời gian tối đa là số điểm trong tập dữ liệu sẽ là một hướng dẫn tốt hoặc có một số tiêu chí khác thường được sử dụng trong thống kê?


Bạn có nghĩa là thùng có kích thước bằng nhau (nghĩa là thùng có cùng khoảng cách)?
Adam Ryczkowski

Tôi tin rằng câu trả lời sẽ phụ thuộc vào thuật toán bạn đang cố gắng thực hiện. Tôi nghĩ rằng câu hỏi không đầy đủ nếu bạn không cung cấp một liên kết đến bài nghiên cứu đó.
Adam Ryczkowski

Số lượng điểm chắc chắn là tối đa về mặt lý thuyết, nhưng đó gần như không phải là biểu đồ, nó sẽ là một biểu đồ dải được định dạng kỳ lạ hoặc âm mưu thảm.
Peter Flom

1
Trên thực tế, số điểm KHÔNG thực sự là tối đa, xin lỗi, tôi đã không có đủ cà phê! Một số thùng sẽ là 0. ví dụ: giả sử (ví dụ đơn giản đến nực cười) rằng bạn có 3 điểm: 1.02 2.21 và 5.92. Nếu bạn thực sự muốn có số lượng thùng tối đa, thì rõ ràng là nhiều hơn 3. Có thể là 6: 1-2, 2-3, 3-4, 4-5 và 5-6 (với các khoảng mở và đóng thích hợp để tránh việc đóng thùng đôi)
Peter Flom

1
2JJ

Câu trả lời:


6

Thực sự không có giới hạn trên cứng nào, nhưng mặt khác, trong hầu hết các tình huống, một khi bạn nhận được tất cả các quan sát độc đáo trong thùng của mình, các thùng nhỏ hơn chỉ phục vụ để xác định chính xác vị trí của chúng mà không truyền tải nhiều hơn. ví dụ: so sánh những điều này:

biểu đồ với 30 thùng
biểu đồ với 100 thùng

Ngoại trừ trong một số trường hợp rất đặc biệt, có thể không có lợi ích thiết thực trong cốt truyện thứ hai, và không nhiều trong phần đầu tiên. Nếu dữ liệu của bạn là liên tục, điều này có thể vượt quá số lượng thùng hữu ích.

Vì vậy, trong hầu hết các tình huống, điều đó có vẻ như ít nhất là một giới hạn trên thực tế - mọi quan sát duy nhất trong thùng riêng của nó.

(Nếu có lợi ích trong thùng nhiều hơn một mỗi quan sát duy nhất, bạn có lẽ nên được thực hiện một hoặc một rugplot stripchart jittered để nhận được rằng loại thông tin) - một cái gì đó giống như những gì đang thực hiện bên lề của những biểu đồ:

biểu đồ rugplot với jitter
biểu đồ với thoát y

(Những biểu đồ được lấy từ câu trả lời này , gần cuối)


5

Có một trường hợp tốt để có số lượng thùng lớn, ví dụ như thùng cho mọi giá trị có thể, bất cứ khi nào người ta nghi ngờ rằng chi tiết của biểu đồ sẽ không bị nhiễu, nhưng cấu trúc tốt thú vị hoặc quan trọng.

Điều này không liên quan trực tiếp đến động lực chính xác cho câu hỏi này, muốn có một quy tắc tự động cho một số thùng tối ưu, nhưng nó có liên quan đến toàn bộ câu hỏi.

Hãy để chúng tôi nhảy ngay lập tức để ví dụ. Trong vòng tròn nhân khẩu học của các lứa tuổi được báo cáo là phổ biến, đặc biệt nhưng không chỉ ở các quốc gia có trình độ hiểu biết hạn chế. Điều có thể xảy ra là nhiều người không biết ngày sinh chính xác của họ, hoặc có những lý do xã hội hoặc cá nhân hoặc vì nói quá hoặc để phóng đại tuổi của họ. Lịch sử quân sự có đầy đủ các ví dụ về những người nói dối về tuổi của họ hoặc để tránh hoặc tìm kiếm sự phục vụ trong các lực lượng vũ trang. Thật vậy, nhiều độc giả sẽ biết ai đó rất nhút nhát hoặc nói cách khác là không hoàn toàn trung thực về tuổi của họ, ngay cả khi họ không nói dối về điều tra dân số. Kết quả thực tế khác nhau nhưng như đã ngụ ý thường là làm tròn, ví dụ: độ tuổi kết thúc bằng 0 và 5 phổ biến hơn nhiều so với độ tuổi một năm trở lên.

Ngẫu nhiên, nhìn vào các chữ số cuối cùng của dữ liệu được báo cáo là một phương pháp đơn giản và tốt để kiểm tra dữ liệu bịa đặt, một cách dễ hiểu và ít vấn đề hơn so với việc xem xét kỹ lưỡng các chữ số đầu tiên hiện nay có kháng cáo với Luật Benford.

Kết quả cuối cùng cho biểu đồ nên rõ ràng. Một bài thuyết trình giống như đột biến có thể phục vụ để hiển thị, hoặc nói chung hơn để kiểm tra, loại cấu trúc tốt này. Đương nhiên, nếu không có gì đáng quan tâm, biểu đồ có thể ít được sử dụng.

Một ví dụ cho thấy tuổi tác tăng lên từ cuộc điều tra dân số Ghana năm 1960. Xem http://www.stata.com/manuals13/rspikeplot.pdf

Đã có một đánh giá tốt về phân phối các chữ số cuối cùng trong

Preece, DA 1981. Phân phối các chữ số cuối cùng trong dữ liệu. Thống kê 30: 31-60.

Một lưu ý về thuật ngữ: một số người viết về các giá trị duy nhất của một biến khi họ sẽ nói tốt hơn về các giá trị riêng biệt của một biến. Từ điển và hướng dẫn sử dụng vẫn khuyên rằng "duy nhất" có nghĩa là chỉ xảy ra một lần. Do đó, độ tuổi được báo cáo riêng biệt của một dân số có thể là, trong các năm, 0, 1, 2, v.v. nhưng phần lớn các độ tuổi đó sẽ không phải là duy nhất đối với một người.


4

Không có tối đa cứng cho số lượng thùng trong biểu đồ. Nếu biến được vẽ là liên tục, thì một đối số có thể được tạo cho vô số danh mục (và biểu đồ về cơ bản trở thành một biểu đồ thảm).

Số lượng điểm trong tập dữ liệu không phải là giới hạn trên phù hợp. Hãy xem xét một tập dữ liệu chứa hai giá trị: 1 và 1000. Có hai thùng sẽ không phù hợp.

Hai phương pháp thực tế để xác định giới hạn trên là: a) Xác định làm tròn dữ liệu bên dưới. Ví dụ: nếu dữ liệu là số nguyên thì có nghĩa là có các thùng có chiều rộng nguyên. b) Nhìn vào độ phân giải có thể nhìn thấy tối đa (ví dụ: số pixel ở chiều ngang có thể được sử dụng để vẽ đồ thị).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.