Một biểu đồ thích hợp để minh họa mối quan hệ giữa hai biến số thứ tự là gì?
Một vài lựa chọn tôi có thể nghĩ ra:
- Phân tán âm mưu với thêm jitter ngẫu nhiên để dừng các điểm ẩn nhau. Rõ ràng là một đồ họa tiêu chuẩn - Minitab gọi đây là "biểu đồ giá trị riêng". Theo tôi, nó có thể gây hiểu nhầm vì nó khuyến khích trực quan một loại nội suy tuyến tính giữa các cấp thứ tự, như thể dữ liệu từ một thang đo khoảng.
- Biểu đồ phân tán được điều chỉnh sao cho kích thước (diện tích) của điểm thể hiện tần số của sự kết hợp các mức đó, thay vì vẽ một điểm cho mỗi đơn vị lấy mẫu. Tôi đã thỉnh thoảng nhìn thấy những âm mưu như vậy trong thực tế. Chúng có thể khó đọc, nhưng các điểm nằm trên một mạng cách đều đặn, phần nào vượt qua sự chỉ trích của âm mưu phân tán bị xáo trộn mà nó trực quan "xen kẽ" dữ liệu.
- Đặc biệt nếu một trong các biến được coi là phụ thuộc, một ô vuông được nhóm theo các mức của biến độc lập. Có khả năng trông khủng khiếp nếu số cấp độ của biến phụ thuộc không đủ cao (rất "phẳng" với râu ria bị thiếu hoặc các quartile bị sụp đổ thậm chí tệ hơn khiến nhận dạng trực quan của trung vị không thể), nhưng ít nhất thu hút sự chú ý đến trung vị và tứ phân vị thống kê mô tả có liên quan cho một biến số thứ tự.
- Bảng giá trị hoặc lưới trống của các ô có bản đồ nhiệt để chỉ ra tần số. Trực quan khác nhau nhưng về mặt khái niệm tương tự như biểu đồ phân tán với vùng điểm hiển thị tần số.
Có những ý tưởng khác, hoặc suy nghĩ về những âm mưu nào là thích hợp hơn? Có bất kỳ lĩnh vực nghiên cứu nào trong đó các lô thứ tự so với thứ tự nhất định được coi là tiêu chuẩn không? (Tôi dường như nhớ lại bản đồ nhiệt tần số đang lan rộng trong bộ gen nhưng nghi ngờ rằng nó thường xuyên hơn cho danh nghĩa so với danh nghĩa.) Gợi ý cho một tài liệu tham khảo tiêu chuẩn tốt cũng sẽ rất được hoan nghênh, tôi đoán điều gì đó từ Agresti.
Nếu bất cứ ai muốn minh họa bằng một âm mưu, mã R cho dữ liệu mẫu không có thật sau đây.
"Tập thể dục quan trọng với bạn như thế nào?" 1 = hoàn toàn không quan trọng, 2 = hơi không quan trọng, 3 = không quan trọng cũng không quan trọng, 4 = hơi quan trọng, 5 = rất quan trọng.
"Bạn có thường xuyên chạy 10 phút hoặc lâu hơn không?" 1 = không bao giờ, 2 = ít hơn một lần mỗi hai tuần, 3 = một lần một hoặc hai tuần, 4 = hai hoặc ba lần mỗi tuần, 5 = bốn lần trở lên mỗi tuần.
Nếu nó là tự nhiên để coi "thường" là một biến phụ thuộc và "tầm quan trọng" là một biến độc lập, nếu một âm mưu phân biệt giữa hai biến.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Một câu hỏi liên quan cho các biến liên tục tôi thấy hữu ích, có thể là một điểm khởi đầu hữu ích: các lựa chọn thay thế cho các biểu đồ phân tán khi nghiên cứu mối quan hệ giữa hai biến số là gì?