Phân tích dữ liệu biến liên tục và phân loại


9

Tôi có ba biến:

  • khoảng cách (liên tục, phạm vi vô cực âm đến vô cực dương)
  • isLand (phân loại rời rạc / Boolean, phạm vi biến 1 hoặc 0)
  • người cư ngụ (phân loại rời rạc, phạm vi biến 0-7)

Tôi muốn trả lời các câu hỏi thống kê sau:

  • Làm cách nào để so sánh các bản phân phối có cả biến phân loại và biến liên tục. Ví dụ: tôi muốn xác định xem phân phối dữ liệu của khoảng cách so với người cư ngụ có khác nhau hay không tùy thuộc vào giá trị của isLand.
  • Cho hai trong ba biến, tôi có thể dự đoán biến thứ ba bằng một số phương trình không?
  • Làm thế nào tôi có thể xác định tính độc lập với nhiều hơn hai biến?

1
Tôi muốn khuyên bạn nên chia thành ba câu hỏi riêng biệt.
Shane

Trên thực tế, bây giờ tôi đọc điều này gần hơn một chút, tôi thấy rằng câu trả lời cho mỗi câu hỏi có liên quan rất chặt chẽ.
Shane

Tôi cảm thấy rằng trung tâm của câu hỏi là so sánh hai bản phân phối khác nhau, tôi chỉ tình cờ liệt kê ba cách khác nhau để làm điều đó.
Elpezmuerto

Đối với occupantsnhững gì bạn có là một biến số thứ tự, vì vậy tôi sẽ không nghĩ đó là một biến số. Đặc biệt với 8 giá trị, nó gần như liên tục.
Mike Dunlavey

Câu trả lời:


5

Tôi khuyên bạn nên đọc về các mô hình logistic hoặc log-linear nói riêng và các phương pháp phân tích dữ liệu phân loại nói chung. Các ghi chú trong khóa học sau đây là khá tốt cho sự khởi đầu: Phân tích dữ liệu rời rạc . Các sách giáo khoa bởi Agresti là khá tốt. Bạn cũng có thể xem xét Kleinbaum để bắt đầu nhanh chóng.


Tôi thực sự có sách giáo khoa Agresti trên bàn của tôi ngay bây giờ và tôi đã sử dụng nó. Vấn đề là tôi không biết nên sử dụng phương pháp cụ thể nào.
Elpezmuerto

2
@Elpezmuerto Rất ngắn gọn, để bổ sung cho câu trả lời @ars, câu hỏi 1 có thể được trả lời bằng một âm mưu có điều kiện hoặc trellis, ví dụ như dist ~ occ | isLandsử dụng Lattice, hoặc xem coplot()chức năng trong vcdgói - đây là cho mục đích khám phá; câu hỏi 2 gọi cho một mô hình dự đoán; tùy thuộc vào biến bạn xem là kết quả của mình, nó có thể là hồi quy logistic (ví dụ: nếu Y = isLand), hồi quy tuyến tính (ví dụ: nếu Y = khoảng cách) hoặc trực tiếp mô hình tuyến tính cung cấp cho bạn phân loại phép đo liên tục của bạn; câu hỏi 3 rõ ràng là một mô hình log-linear theo đề xuất của @ars.
chl

1
@Elpezmuerto @ars Nhờ vào công việc của Laura Thompson, cuốn sách của Agresti cũng có sẵn trong R, j.mp/9fXheu :-)
chl

2
@chl: đó là một phát hiện tuyệt vời! Cảm ơn bạn. @Elpezmuerto: Có một loạt các ví dụ về Agresti liên quan đến cua - Tôi khá chắc chắn có một biến liên tục (kích thước của cua?) Cùng với một màu (phạm vi) và boolean (không thể nhớ lại). Rất gần với trường hợp của bạn - có lẽ nên đọc qua các ví dụ đó kéo dài ít nhất 2 chương (một chương là hồi quy logistic tôi tin).
ars

@ars Đây là đặc biệt. chương 4 và 5, với chiều rộng và trọng lượng của carapace là các biến liên tục và điều kiện cột sống như một biến phân loại (thứ tự) khác, được sử dụng trong hồi quy Poisson và Logistic :)
chl

2
  1. Để kiểm tra mối quan hệ giữa một yếu tố liên tục và phân loại, một khởi đầu tốt là sử dụng các ô vuông cạnh nhau, liên tục ở bên trái, phân loại ở phía dưới. Là phương tiện khác nhau? Sử dụng ANOVA để kiểm tra.

  2. Để kiểm tra mối quan hệ giữa các yếu tố phân loại, một khởi đầu tốt là sử dụng một biểu đồ khảm, cũng như một bảng dự phòng. Bạn có thể nhóm trước sau đó thực hiện các ô riêng biệt.

  3. Để dự đoán người cư ngụ, hồi quy logistic có lẽ là cách tốt nhất để đi.

  4. Để dự đoán isLand, hồi quy logistic (nhị thức) nên thực hiện thủ thuật.

  5. Để dự đoán khoảng cách, hồi quy OLS sẽ hoạt động.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.