Câu chuyện dài : làm những gì @untitleprogrammer đã nói, hãy thử cả hai mô hình và xác thực chéo để giúp chọn một mô hình.
Cả hai cây quyết định (tùy thuộc vào việc triển khai, ví dụ: C4.5) và hồi quy logistic sẽ có thể xử lý dữ liệu liên tục và phân loại tốt. Đối với hồi quy logistic, bạn sẽ muốn giả mã các biến phân loại của bạn .
Như @untitleprogrammer đã đề cập, thật khó để biết một tiên nghiệm kỹ thuật nào sẽ tốt hơn chỉ đơn giản dựa trên các loại tính năng bạn có, liên tục hoặc cách khác. Nó thực sự phụ thuộc vào vấn đề cụ thể của bạn và dữ liệu bạn có. (Xem Không có Định lý Bữa trưa Miễn phí )
Bạn sẽ muốn ghi nhớ mặc dù mô hình hồi quy logistic đang tìm kiếm một ranh giới quyết định tuyến tính duy nhất trong không gian tính năng của bạn, trong khi đó, cây quyết định về cơ bản phân vùng không gian tính năng của bạn thành nửa không gian bằng cách sử dụng ranh giới quyết định tuyến tính theo trục . Hiệu quả ròng là bạn có một ranh giới quyết định phi tuyến tính, có thể nhiều hơn một.
Điều này thật tuyệt khi các điểm dữ liệu của bạn không dễ dàng bị phân tách bởi một siêu phẳng, nhưng mặt khác, các cây quyết định rất linh hoạt đến mức chúng có thể dễ bị quá mức. Để chống lại điều này, bạn có thể thử cắt tỉa. Hồi quy logistic có xu hướng ít nhạy cảm hơn (nhưng không miễn dịch!) Đối với quá mức.
x yxy
Vì vậy, bạn phải tự hỏi:
- loại ranh giới quyết định nào có ý nghĩa hơn trong vấn đề cụ thể của bạn?
- Bạn muốn cân bằng thiên vị và phương sai như thế nào?
- Có sự tương tác giữa các tính năng của tôi?
Tất nhiên, luôn luôn nên thử cả hai mô hình và xác thực chéo. Điều này sẽ giúp bạn tìm ra cái nào có nhiều khả năng có lỗi tổng quát hóa tốt hơn.