Làm thế nào để quy mô âm mưu violin để so sánh?


14

Tôi đang cố gắng vẽ các ô vĩ cầm và tự hỏi liệu có một thực tiễn tốt nhất được chấp nhận để nhân rộng chúng theo các nhóm không. Dưới đây là ba tùy chọn tôi đã thử sử dụng bộ mtcarsdữ liệu R (Motor Trend Cars từ năm 1973, được tìm thấy ở đây ).

Chiều rộng bằng nhau

Có vẻ là những gì giấy ban đầu * làm và những gì R vioplotlàm ( ví dụ ). Tốt để so sánh hình dạng.

Các lô violon diện tích bằng nhau

Khu vực bình đẳng

Cảm thấy đúng vì mỗi ô là một ô xác suất, và do đó diện tích của mỗi ô phải bằng 1,0 trong một số không gian tọa độ. Tốt để so sánh mật độ trong mỗi nhóm, nhưng có vẻ phù hợp hơn nếu các ô được phủ lên.

Âm mưu rộng bằng nhau

Khu vực có trọng số

Giống như diện tích bằng nhau, nhưng trọng số của số lượng quan sát. 6 xi-lanh trở nên tương đối mỏng hơn vì có ít những chiếc xe đó. Tốt để so sánh mật độ giữa các nhóm.

Âm mưu khu vực có trọng số

* Âm mưu của đàn violon: Một âm mưu theo dõi mật độ hộp âm mưu (DOI: 10.2307 / 2685478)


1
Mục đích của các lô sẽ, ở một mức độ lớn, xác định giải pháp nào là phù hợp. Sau đó, những gì bạn đang cố gắng để hiển thị với họ?
whuber

@whuber Câu hỏi hay, mặc dù tôi không có câu trả lời trực tiếp. Tôi đang cố gắng cung cấp một đồ họa cho EDA và đang tìm kiếm một mặc định chung tốt (và liệu các tùy chọn khác có đủ hữu ích để hiển thị hay không).
xan

Tôi muốn đề nghị bạn kiểm soát các lô phù hợp với mục đích của bạn hơn là chấp nhận một số mặc định.
whuber

Tôi sẽ đề xuất rằng phiên bản "vùng có trọng số" của bạn là "Tốt để so sánh các nhóm con của dân số" vì việc thêm chiều rộng để có được hình dạng của toàn bộ dân số là điều hợp lý.
Henry

Tôi thích các khu vực bằng nhau, để duy trì tác động trực quan của hình dạng phân phối. Sau đó, bổ sung biểu đồ bằng nhiệt kế hiển thị kích thước mẫu hoặc chỉ sử dụng biểu diễn văn bản của kích thước mẫu bên cạnh violin.
Frank Harrell

Câu trả lời:


4

Lô hộp được sử dụng để tóm tắt sơ đồ của một phân phối. Các ô vĩ cầm chỉ là các ô hộp trong đó các hộp Q1, Q2 và Q3 được thay thế bằng một loạt các lượng tử. Vì lý do đó, tôi nghĩ rằng thông lệ được chấp nhận là sử dụng chiều rộng đồng đều giữa các nhóm.

Tuy nhiên, bạn đưa ra một điểm tốt: mật độ giữa các nhóm nên được so sánh như thế nào? Câu trả lời phụ thuộc vào việc bạn đang xem từng nhóm là dân số riêng hay dân số.

ΣiPi=1


Âm mưu violon ban đầu được giới thiệu và định nghĩa là âm mưu hộp mật độ và dấu vết mật độ. Một Google nhanh chóng cho thấy rằng trong thực tế, nhiều âm mưu được công khai dưới dạng các ô vĩ cầm bỏ qua hộp và nhiều âm mưu không hiển thị bất kỳ lượng tử nào như vậy. Vì vậy, định nghĩa được mở rộng ở đây.
Nick Cox

5

Thành thật mà nói, tôi nghĩ rằng bạn đang tiếp cận nó từ sai hướng. Tất cả ba lô rõ ràng cho bạn biết thông tin có giá trị - nếu không, bạn sẽ không xem xét sử dụng lô nào. Phân tích dữ liệu thăm dò là về việc hiểu dữ liệu của bạn. Trường hợp nó phù hợp với mong đợi. Nó không ở đâu. Làm thế nào nó được định hình trên nhiều biến.

Toàn bộ quan điểm của việc thực hiện EDA là đánh giá xem các mặc định của chúng tôi, có thể là các giả định phân phối hoặc đại số, mô hình thống kê sẽ được sử dụng, v.v. Như vậy, khái niệm về EDA "mặc định" có phần thiếu sót.

Nhìn vào tất cả chúng - hoặc ít nhất là tất cả các âm mưu liên quan đến câu hỏi bạn định hỏi. Không có lý do gì để tự trói mình vào "Điều thú vị" và "Tôi sẽ bỏ qua điều gì" ở giai đoạn EDA. Và nếu chúng ta chỉ cung cấp dữ liệu thông qua mặc định, thì đó không thực sự là EDA ở nơi đầu tiên.


+1 cho các nhận xét khai sáng về EDA, mặc dù vẫn chưa rõ (với tôi) liệu OP có theo EDA hay không ...
chl

@chl Một số ý kiến ​​của OP cho rằng đó là những gì anh ấy theo đuổi. Nếu nó chỉ là "cái nào trong số này hữu ích hơn" thì câu trả lời tôi sợ sẽ trở thành một "thậm chí còn mơ hồ hơn", bạn muốn thể hiện điều gì? "
Fomite

À, tôi đã bỏ lỡ nhận xét đó ... Vì vậy, phản hồi của bạn đáng giá +1 lần nữa, nhưng tôi không thể :(
chl

4

Còn băng thông thì sao? Bạn đã nghĩ về điều đó?

Nếu bạn sử dụng các cài đặt mặc định của Phần mềm để lấy pdf, rất có thể bạn đang sử dụng quy tắc ngón tay cái để có băng thông tối ưu của hạt nhân gaussian. "Băng thông tối ưu" này sau đó có thể khác nhau đối với mỗi tập hợp con. Bây giờ hãy tự hỏi, những hình dạng vẫn có thể so sánh? Có thể là, người ta chạy vào đo cùng một biến (ước tính mật độ hạt nhân) với Tiêu chuẩn kép.

Đối với ước tính mật độ hạt nhân, các quy tắc rõ ràng đã được phát triển để có được băng thông phù hợp (một số loại xác thực chéo), nhưng đối với các ô vĩ cầm, chúng chủ yếu bị bỏ qua. Có thể quan trọng, khi kích thước mẫu khác nhau rất nhiều.

Tôi đang có vấn đề này ngay bây giờ. Bạn nghĩ gì về nó? Làm thế nào để bạn giải quyết nó? Bất kỳ ý kiến ​​được đánh giá rất cao.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.