Có lần tôi tình cờ tìm thấy một loại âm mưu cho dữ liệu phân loại (ví dụ: bảng dự phòng) trên internet, thứ mà tôi thực sự thích, nhưng tôi chưa bao giờ tìm thấy nó nữa và thậm chí tôi không biết nó được gọi là gì. Về cơ bản, nó giống như một sơ đồ sàng, trong đó chiều cao hàng và chiều rộng cột được chia tỷ lệ so với xác suất cận biên. Do đó, mỗi hộp được chia tỷ lệ theo tần số tương đối được mong đợi dưới sự độc lập. Tuy nhiên, nó khác với một sơ đồ sàng ở chỗ, thay vì âm mưu nở chéo trong mỗi hộp, nó vẽ một điểm (như trong một biểu đồ tán xạ) tại một vị trí được chọn ngẫu nhiên từ một bộ đồng phục bivariate cho mỗi lần quan sát. Theo cách này, mật độ của các điểm phản ánh mức độ quan sát phù hợp với số lượng dự kiến. Đó là, nếu mật độ tương tự nhau trong mỗi hộp, mô hình null là hợp lý, ) có thể không có nhiều khả năng theo mô hình null. Bởi vì các điểm được vẽ thay vì nở chéo, có một sự tương ứng đơn giản và trực quan giữa phần tử được vẽ và số lượng quan sát được, điều này không nhất thiết đúng với các ô sàng (xem bên dưới). Hơn nữa, vị trí ngẫu nhiên của các điểm tạo cho cảm giác 'hữu cơ'. Ngoài ra, màu sắc có thể được sử dụng để làm nổi bật các hộp / ô phân tách mạnh từ mô hình null và ma trận lô có thể được sử dụng để kiểm tra mối quan hệ cặp đôi giữa nhiều biến khác nhau, do đó nó có thể kết hợp các lợi thế của các ô tương tự.
- Có ai biết cốt truyện này được gọi là gì không?
- Có một gói / chức năng sẽ làm điều này dễ dàng trong R, hoặc phần mềm khác (giả sử, Mondrian) không? Tôi không thể tìm thấy bất cứ điều gì như nó trong vcd . Tất nhiên, nó có thể được mã hóa cứng từ đầu, nhưng đó sẽ là một nỗi đau.
Dưới đây là một ví dụ đơn giản về sơ đồ sàng, lưu ý rằng thật dễ dàng để biết cách tính số lượng dự kiến cho các loại khác nhau sẽ diễn ra theo mô hình null, nhưng khó có thể điều hòa sự nở chéo với các số thực tế, mang lại một âm mưu không phải là khá dễ đọc và gớm ghiếc về mặt thẩm mỹ:
B ~B
A 38 4
~A 3 19
Đối với giá trị của nó, một ô khảm có một vấn đề ngược lại: mặc dù dễ dàng hơn để xem các ô nào có số lượng 'quá nhiều' hoặc 'quá ít' (so với mô hình null), khó nhận ra mối quan hệ giữa các số lượng dự kiến sẽ có được. Cụ thể, độ rộng cột được chia tỷ lệ so với xác suất cận biên, nhưng độ cao của hàng thì không, khiến cho thông tin đó gần như không thể trích xuất được.
và bây giờ cho một cái gì đó hoàn toàn khác nhau...
- Có ai biết quy ước sử dụng màu xanh cho 'quá nhiều' và màu đỏ cho 'quá ít' đến từ đâu không? Điều này luôn luôn là phản trực giác đối với tôi. Dường như với tôi rằng mật độ đặc biệt cao (hoặc quá nhiều quan sát) đi cùng với nóng , và mật độ thấp đi với lạnh , và (ít nhất là trong ánh sáng sân khấu) màu đỏ là ấm áp và xanh lam là mát mẻ .
Cập nhật: Nếu tôi nhớ chính xác, cốt truyện tôi thấy là ở dạng pdf của một chương (giới thiệu hoặc ch1) từ một cuốn sách được cung cấp trực tuyến miễn phí dưới dạng một lời trêu ghẹo tiếp thị. Đây là một phiên bản sơ bộ của ý tưởng mà tôi đã mã hóa từ đầu:
Ngay cả với phiên bản thô này, tôi nghĩ nó dễ đọc hơn so với âm mưu sàng lọc và về mặt nào đó dễ dàng hơn so với âm mưu khảm (ví dụ, dễ dàng nhận ra mối quan hệ nào giữa các tần số tế bào sẽ được độc lập). Sẽ thật tuyệt nếu có một chức năng đó: a. sẽ làm điều này tự động với bất kỳ bảng dự phòng, b. có thể được sử dụng như một khối xây dựng của ma trận cốt truyện và c. sẽ có các tính năng tốt đẹp đi kèm với các ô trên (như truyền thuyết dư lượng chuẩn hóa trên cốt truyện khảm).
shading.points()
để làm những gì bạn muốn, trong khung strucplot đã được trích dẫn ở trên và có sẵn dưới dạng họa tiết trong vcd
gói.
R
chức năngassocplot
đến gần với những gì bạn có ý nghĩa? Nếu không, tôi cá là mộtR
lập trình viên có thể sửa đổi điều đó hoặcmosaicplot
để làm những gì bạn muốn.