Dữ liệu cơ sở : Tôi có ~ 1.000 người được đánh dấu bằng các đánh giá: '1,' [tốt] '2,' [giữa] hoặc '3' [xấu] - đây là những giá trị tôi đang cố gắng dự đoán cho mọi người trong tương lai . Ngoài ra, tôi có một số thông tin về nhân khẩu học: giới tính (phân loại: M / F), tuổi tác (số: 17-80) và chủng tộc (phân loại: đen / da trắng / latino).
Tôi chủ yếu có bốn câu hỏi:
Ban đầu tôi đã cố chạy bộ dữ liệu được mô tả ở trên dưới dạng phân tích hồi quy bội. Nhưng gần đây tôi đã biết rằng vì sự phụ thuộc của tôi là một yếu tố có trật tự và không phải là một biến liên tục, tôi nên sử dụng hồi quy logistic thứ tự cho một cái gì đó như thế này. Tôi ban đầu sử dụng một cái gì đó như
mod <- lm(assessment ~ age + gender + race, data = dataset)
, bất cứ ai có thể chỉ cho tôi đi đúng hướng?Từ đó, giả sử tôi nhận được các hệ số mà tôi cảm thấy thoải mái, tôi hiểu cách chỉ cắm các giá trị số cho x1, x2, v.v. - nhưng tôi sẽ xử lý như thế nào với chủng tộc, ví dụ, nơi có nhiều phản hồi: đen / da trắng / latino? Vì vậy, nếu nó cho tôi biết hệ số da trắng là 0,289 và ai đó tôi đang cố gắng dự đoán là da trắng, làm thế nào để tôi cắm lại vì giá trị không phải là số?
Tôi cũng có các giá trị ngẫu nhiên bị thiếu - một số cho chủng tộc, một số cho giới tính, v.v. Tôi có phải làm gì thêm để đảm bảo rằng điều này không sai lệch gì không? (Tôi nhận thấy khi tập dữ liệu của tôi được tải vào R-Studio, khi dữ liệu bị thiếu được tải dưới dạng
NA
, R sẽ nói một cái gì đó giống như(162 observations deleted due to missingness)
- nhưng nếu chúng được tải dưới dạng khoảng trống, thì không có gì.)Giả sử tất cả những điều này hoạt động và tôi có dữ liệu mới về giới tính, tuổi tác và chủng tộc mà tôi muốn dự đoán - có cách nào dễ dàng hơn trong R để chạy tất cả những điều đó thông qua bất kỳ công thức nào của tôi với các hệ số mới hóa ra là, thay vì làm bằng tay? (Nếu câu hỏi này không phù hợp ở đây, tôi có thể đưa nó trở lại diễn đàn R.)