Thay thế cho các ô sàng / khảm cho các bảng dự phòng

Có lần tôi tình cờ tìm thấy một loại âm mưu cho dữ liệu phân loại (ví dụ: bảng dự phòng) trên internet, thứ mà tôi thực sự thích, nhưng tôi chưa bao giờ tìm thấy nó nữa và thậm chí tôi không biết nó được gọi là gì. Về cơ bản, nó giống như một sơ đồ sàng, trong đó chiều cao hàng và chiều rộng cột được chia tỷ lệ so với xác suất cận biên. Do đó, mỗi hộp được chia tỷ lệ theo tần số tương đối được mong đợi dưới sự độc lập. Tuy nhiên, nó khác với một sơ đồ sàng ở chỗ, thay vì âm mưu nở chéo trong mỗi hộp, nó vẽ một điểm (như trong một biểu đồ tán xạ) tại một vị trí được chọn ngẫu nhiên từ một bộ đồng phục bivariate cho mỗi lần quan sát. Theo cách này, mật độ của các điểm phản ánh mức độ quan sát phù hợp với số lượng dự kiến. Đó là, nếu mật độ tương tự nhau trong mỗi hộp, mô hình null là hợp lý, ) có thể không có nhiều khả năng theo mô hình null. Bởi vì các điểm được vẽ thay vì nở chéo, có một sự tương ứng đơn giản và trực quan giữa phần tử được vẽ và số lượng quan sát được, điều này không nhất thiết đúng với các ô sàng (xem bên dưới). Hơn nữa, vị trí ngẫu nhiên của các điểm tạo cho cảm giác 'hữu cơ'. Ngoài ra, màu sắc có thể được sử dụng để làm nổi bật các hộp / ô phân tách mạnh từ mô hình null và ma trận lô có thể được sử dụng để kiểm tra mối quan hệ cặp đôi giữa nhiều biến khác nhau, do đó nó có thể kết hợp các lợi thế của các ô tương tự. $i,j$

Có ai biết cốt truyện này được gọi là gì không?
Có một gói / chức năng sẽ làm điều này dễ dàng trong R, hoặc phần mềm khác (giả sử, Mondrian) không? Tôi không thể tìm thấy bất cứ điều gì như nó trong vcd . Tất nhiên, nó có thể được mã hóa cứng từ đầu, nhưng đó sẽ là một nỗi đau.

Dưới đây là một ví dụ đơn giản về sơ đồ sàng, lưu ý rằng thật dễ dàng để biết cách tính số lượng dự kiến cho các loại khác nhau sẽ diễn ra theo mô hình null, nhưng khó có thể điều hòa sự nở chéo với các số thực tế, mang lại một âm mưu không phải là khá dễ đọc và gớm ghiếc về mặt thẩm mỹ:

    B ~B
 A 38  4
~A  3 19

nhập mô tả hình ảnh ở đây
Đối với giá trị của nó, một ô khảm có một vấn đề ngược lại: mặc dù dễ dàng hơn để xem các ô nào có số lượng 'quá nhiều' hoặc 'quá ít' (so với mô hình null), khó nhận ra mối quan hệ giữa các số lượng dự kiến sẽ có được. Cụ thể, độ rộng cột được chia tỷ lệ so với xác suất cận biên, nhưng độ cao của hàng thì không, khiến cho thông tin đó gần như không thể trích xuất được.
nhập mô tả hình ảnh ở đây
và bây giờ cho một cái gì đó hoàn toàn khác nhau...

Có ai biết quy ước sử dụng màu xanh cho 'quá nhiều' và màu đỏ cho 'quá ít' đến từ đâu không? Điều này luôn luôn là phản trực giác đối với tôi. Dường như với tôi rằng mật độ đặc biệt cao (hoặc quá nhiều quan sát) đi cùng với nóng , và mật độ thấp đi với lạnh , và (ít nhất là trong ánh sáng sân khấu) màu đỏ là ấm áp và xanh lam là mát mẻ .

Cập nhật: Nếu tôi nhớ chính xác, cốt truyện tôi thấy là ở dạng pdf của một chương (giới thiệu hoặc ch1) từ một cuốn sách được cung cấp trực tuyến miễn phí dưới dạng một lời trêu ghẹo tiếp thị. Đây là một phiên bản sơ bộ của ý tưởng mà tôi đã mã hóa từ đầu:
nhập mô tả hình ảnh ở đây
Ngay cả với phiên bản thô này, tôi nghĩ nó dễ đọc hơn so với âm mưu sàng lọc và về mặt nào đó dễ dàng hơn so với âm mưu khảm (ví dụ, dễ dàng nhận ra mối quan hệ nào giữa các tần số tế bào sẽ được độc lập). Sẽ thật tuyệt nếu có một chức năng đó: a. sẽ làm điều này tự động với bất kỳ bảng dự phòng, b. có thể được sử dụng như một khối xây dựng của ma trận cốt truyện và c. sẽ có các tính năng tốt đẹp đi kèm với các ô trên (như truyền thuyết dư lượng chuẩn hóa trên cốt truyện khảm).

r data-visualization categorical-data

— gung - Phục hồi Monica
nguồn

Vì vậy, về cơ bản bạn muốn một cốt truyện khảm với một loại điền khác nhau? Liệu các Rchức năng assocplotđến gần với những gì bạn có ý nghĩa? Nếu không, tôi cá là một Rlập trình viên có thể sửa đổi điều đó hoặc mosaicplotđể làm những gì bạn muốn.

— Peter Flom - Tái lập Monica

Các tài liệu tham khảo liên quan về sự quan tâm, các sắc thái dựa trên dư lượng để trực quan hóa (có điều kiện) Độc lập ( Zeileis và cộng sự 2007 ), PDF ở đây , và một chủ đề khác ở đây về trực quan hóa các bảng dự phòng với một vài tham chiếu. Tôi tin rằng bài báo Zeileis có một cuộc thảo luận tốt về màu sắc có thể trả lời câu hỏi cuối cùng của bạn (có thể tốt khi xem qua các tài liệu tham khảo để xem liệu họ có trích dẫn biểu đồ mà bạn đang nói không).

— Andy W

Ngược lại, @PeterFlom, về cơ bản tôi muốn một cái rây với một loại điền khác. Ngoài ra, bạn có thể nói rằng tôi muốn một ô khảm trong đó các hộp được hiển thị được chia tỷ lệ so với tần số dự kiến dưới sự độc lập (và có thể là một loại điền khác).

— gung - Phục hồi Monica

"Có ai biết quy ước sử dụng màu xanh cho 'quá nhiều' và màu đỏ cho 'quá ít' đến từ đâu không? Điều này luôn phản tác dụng đối với tôi." Điểm tốt. Nó thực sự là phản trực giác. Các quang phổ ánh sáng đi khoảng từ màu xanh ở bên trái (kết hợp với các bước sóng nhỏ hơn) sang màu đỏ ở bên phải (gắn liền với bước sóng lớn hơn). Màn hình khảm dường như đảo ngược điều này trên đầu của nó ...

— Landroni

Ý tưởng của sơ đồ sàng là số lượng hộp trong mỗi ô tỷ lệ với tần số quan sát, do đó mật độ tương đối cho thấy lớn hơn hoặc ít hơn tần số dự kiến. Nếu bạn không thích màu sắc, bạn có thể dễ dàng thay đổi chúng từ mặc định. Nếu bạn không thích chức năng tạo bóng sàng mặc định, bạn có thể dễ dàng tự viết, ví dụ, shading.points()để làm những gì bạn muốn, trong khung strucplot đã được trích dẫn ở trên và có sẵn dưới dạng họa tiết trong vcdgói.

— user101089

Cuốn sách bạn mô tả nghe có vẻ như, 'Trực quan hóa dữ liệu phân loại,' Michael Friendly. Cốt truyện được mô tả trong chương 1 có vẻ phù hợp với yêu cầu của bạn được mô tả như một loại mô hình khái niệm để trực quan hóa dữ liệu bảng dự phòng (được tác giả mô tả một cách lỏng lẻo như một mô hình áp suất động với mật độ quan sát) và có thể được nhìn thấy trong bản xem trước của google cho Ch 1. Cuốn sách hướng đến người dùng SAS.

Một bài viết về chủ đề này được tham khảo tại đây: www.datavis.ca/ con / koln / kolnpapr.pdf

'Các mô hình khái niệm để trực quan hóa dữ liệu bảng dự phòng,' Michael Friendly.

nhập mô tả hình ảnh ở đây

* tình cờ, tác giả cũng được liệt kê là một trong những tác giả của gói vcd (vì nó được lấy cảm hứng đặc biệt từ cuốn sách của anh ta đã đề cập ở trên) - có thể bạn có thể hỏi anh ta trực tiếp nếu có một sửa đổi đơn giản cho một trong các chức năng được xây dựng không dễ dàng rõ ràng.

** Lược đồ tô màu dường như liên quan đến màu xanh lam với độ lệch dương từ độc lập và màu đỏ cho độ lệch âm. Mặc dù lược đồ màu đỏ có ý nghĩa trong bối cảnh đó, nhưng có lẽ nó sẽ thích hợp hơn khi sử dụng màu xanh lá cây để thể hiện độ lệch dương.

http://www.datavis.ca/ con/asa92.html

— vỗ
nguồn

Công việc tốt đẹp bí ẩn được giải quyết! Tôi cần phải thực sự mua cuốn sách thay vì xem trước nó trong nhiều mẩu tin khác nhau và thư viện của tôi sẽ gửi cho tôi các chương mỗi giờ. IMO hình thức trực quan này nhắc nhở tôi rất nhiều về cái mà người vẽ bản đồ gọi là "bản đồ chấm" và người ta có thể sử dụng tài liệu từ đó để chứng minh làm thế nào các chấm là một công cụ trực quan tốt hơn so với các đường kẻ và đường chéo. Nó cũng là một tài liệu tốt về các vị trí ưu tiên của các dấu chấm.

— Andy W

Điều này cho tôi một khởi đầu tốt. Cảm ơn bạn đã giúp đỡ.

— gung - Phục hồi Monica

Có thể không phải là những gì bạn đã thấy, nhưng để hình dung về sự khởi hành dự kiến theo âm mưu tương ứng độc lập được thúc đẩy tốt.

http://www.jstatsoft.org/v20/i03/

(Một bên, cuốn sách của SAS và M Friendly đã nhầm lẫn về sự điều chỉnh được đề xuất và nhiều cốt truyện có tạo tác trong đó và điều này có thể đã làm sao lãng giá trị cảm nhận của chúng.)

— phaneron
nguồn

Cảm ơn sự giúp đỡ của bạn, tôi thích các lô tương ứng. Bạn có thể nói thêm về điều chỉnh đề nghị này đã bị nhầm lẫn? Điều chỉnh là gì? Làm thế nào nó không chính xác? Và những gì đã sai với các lô?

— gung - Phục hồi Monica

@gung: Xem download.journals.elsevierhealth.com/pdfs/journals/0895-4356/ Lời

— phaneron