Cách tốt nhất để hình dung mối quan hệ giữa các biến rời rạc và liên tục là gì?


19

Cách tốt nhất để thể hiện mối quan hệ giữa:

  • biến liên tục và rời rạc,
  • hai biến rời rạc?

Cho đến nay tôi đã sử dụng các biểu đồ phân tán để xem xét mối quan hệ giữa các biến liên tục. Tuy nhiên, trong trường hợp các điểm dữ liệu biến rời rạc được tích lũy tại các khoảng thời gian nhất định. Do đó, dòng phù hợp nhất có thể bị sai lệch.


4
Đối với trường hợp rời rạc, câu trả lời này cho một câu hỏi hơi liên quan ở đây , về việc vẽ dữ liệu phân loại theo thứ tự có thể giúp ích (mặc dù có thể không có các hộp trong trường hợp của bạn). Tôi thực sự không chắc bạn nghĩ 'sự thiên vị' này phát sinh như thế nào; nó sẽ ảnh hưởng đến ấn tượng trực quan của các điểm dữ liệu (dẫn đến việc sử dụng hy vọng đường truyền sẽ đi đâu đó ngoài nơi cần thiết) nhưng không phải là dữ liệu thực tế. Bạn có thể giải thích lý do của bạn ở đây?
Glen_b -Reinstate Monica

Câu trả lời:


26

Dưới đây: Biểu đồ ban đầu có thể gây hiểu nhầm vì tính chất rời rạc của các biến làm cho các điểm trùng nhau:

nhập mô tả hình ảnh ở đây

Một cách để làm việc xung quanh nó là giới thiệu một số tính minh bạch cho biểu tượng dữ liệu:

nhập mô tả hình ảnh ở đây

Một cách khác là thay thế vị trí của biểu tượng một cách nhẹ nhàng để tạo ra một vết bẩn. Kỹ thuật này được gọi là "jittering:"

nhập mô tả hình ảnh ở đây

Cả hai giải pháp vẫn sẽ cho phép bạn khớp một đường thẳng để đánh giá tuyến tính.

Mã R để bạn tham khảo:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
Câu trả lời tốt đẹp. Điều gì về một lô phân tán bong bóng với số lượng cá thể thay đổi? Tôi đã thử sử dụng các kỹ thuật này trên một tập dữ liệu lớn và tất cả đều mất quá nhiều thời gian để hiển thị các bảng chữ cái.
Josh

14

Tôi sẽ sử dụng các ô vuông để hiển thị mối quan hệ giữa một biến rời rạc và biến liên tục. Bạn có thể làm cho các ô vuông của mình thẳng đứng hoặc nằm ngang bằng phần mềm thống kê tiêu chuẩn, vì vậy thật dễ dàng để hình dung thành IV hoặc DV. Nó có thể sử dụng một phân tán với một biến rời rạc và liên tục, chỉ cần gán một số vào biến rời rạc (ví dụ, 1 & 2), và jitter những giá trị đó (lưu ý âm mưu đầu ở bên phải ở đây ).

Về nhận xét của bạn rằng dòng phù hợp nhất có thể bị sai lệch, nó phụ thuộc vào những gì bạn có. Chẳng hạn, nếu bạn có một biến rời rạc với hai cấp là IV và biến liên tục là DV của bạn, bạn có thể vẽ một đường qua hai phương tiện và điều này sẽ không bị sai lệch. (Chúng tôi thường nghĩ tình huống này là phù hợp cho bài kiểm tra t, nhưng thực ra nó là một hình thức - tức là trường hợp đơn giản - hồi quy, xem câu trả lời của tôi ở đây .) Mặt khác, nếu bạn có một bài rời rạc biến có hai mức là hồi quy DV, tiêu chuẩn (OLS) của bạn sẽ không phù hợp (hồi quy logistic sẽ được gọi là) và dòng phù hợp nhất sẽ bị sai lệch, nhưng bạn có thể điều chỉnh (& vẽ) một dòng thấp như một phần của ban đầu thăm dò dữ liệu.

Để hình dung mối quan hệ giữa hai biến rời rạc, tôi sẽ sử dụng một biểu đồ khảm . Bạn cũng có thể sử dụng một sơ đồ sàng , một biểu đồ liên kết hoặc một biểu đồ áp lực động với một số chương trình.


8

Khi xem xét mối quan hệ giữa một biến kết quả nhị phân và một yếu tố dự báo liên tục, tôi sẽ sử dụng mượt mà hoàng thổ (với outlier phát hiện tắt, ví dụ, trong R lowess(x, y, iter=0).

Trong bản phát hành tiếp theo của Hmiscgói R, bạn có thể dễ dàng tạo một latticeđồ họa duy nhất đặt các đường cong đó vào màn hình đa màn hình cho nhiều dự đoán, ví dụ:

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

Nếu bạn không hài lòng với các biểu đồ phân tán đơn giản, bạn có thể muốn thêm tần số của các điểm dữ liệu tại mỗi giá trị của biến rời rạc. Làm thế nào để làm điều này sau đó chỉ phụ thuộc vào chương trình thống kê bạn đang sử dụng. Dưới đây là một ví dụ cho Stata. Bạn cũng có thể áp dụng điều này cho biểu đồ phân tán của hai biến phân loại. Mặt khác, biểu đồ hộp hoặc biểu đồ thanh chồng chéo có thể tốt nhưng điều này thực sự phụ thuộc vào cách bạn muốn trình bày các biến này.


1

Tôi đã tìm thấy một bài báo áp dụng về sự liên kết giữa hai biến nhị phân trên http://www.boekboek.com/xb130929113026 - ở đây, trong bài viết đó, nó đã được hiển thị và chứng minh rằng sự liên kết giữa hai biến nhị phân có thể được biểu thị như một phần của hiệp hội hoàn hảo. Vì vậy, điều này trở nên khả thi và thích hợp hơn: sự liên kết giữa biến A và biến B là 50% thay vì nêu rõ: OR = 9 (không dễ diễn giải) hoặc rủi ro thực tế = 2 (rủi ro tương đối được xem xét quá là một thước đo của sự liên kết mặc dù trên thực tế nó là một chức năng của sự liên kết, tỷ lệ lưu hành hoặc tỷ lệ mắc bệnh và tính tích cực).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.