Cây quyết định hay hồi quy logistic?


14

Tôi đang làm việc trên một vấn đề phân loại. Tôi có một tập dữ liệu chứa số biến phân loại và biến liên tục bằng nhau. Làm thế nào tôi sẽ biết những gì để sử dụng kỹ thuật? giữa một cây quyết định và hồi quy logistic?

Có đúng không khi cho rằng hồi quy logistic sẽ phù hợp hơn với biến liên tục và cây quyết định sẽ phù hợp hơn với biến liên tục + phân loại?


Bạn có thể thêm nhiều chi tiết như số lượng hàng, số cột (cũng có bao nhiêu phân loại / liên tục) không?
Nitesh

Xin chào @Nitesh, tôi có 32 biến đầu vào + 1 biến mục tiêu. Các hồ sơ gần 2,5 lakh cho dữ liệu đào tạo và cho biết khoảng 1 lakh dữ liệu thử nghiệm. Kiểm tra dữ liệu là hết thời gian dữ liệu.
Arun

Câu trả lời:


22

Câu chuyện dài : làm những gì @untitleprogrammer đã nói, hãy thử cả hai mô hình và xác thực chéo để giúp chọn một mô hình.

Cả hai cây quyết định (tùy thuộc vào việc triển khai, ví dụ: C4.5) và hồi quy logistic sẽ có thể xử lý dữ liệu liên tục và phân loại tốt. Đối với hồi quy logistic, bạn sẽ muốn giả mã các biến phân loại của bạn .

Như @untitleprogrammer đã đề cập, thật khó để biết một tiên nghiệm kỹ thuật nào sẽ tốt hơn chỉ đơn giản dựa trên các loại tính năng bạn có, liên tục hoặc cách khác. Nó thực sự phụ thuộc vào vấn đề cụ thể của bạn và dữ liệu bạn có. (Xem Không có Định lý Bữa trưa Miễn phí )

Bạn sẽ muốn ghi nhớ mặc dù mô hình hồi quy logistic đang tìm kiếm một ranh giới quyết định tuyến tính duy nhất trong không gian tính năng của bạn, trong khi đó, cây quyết định về cơ bản phân vùng không gian tính năng của bạn thành nửa không gian bằng cách sử dụng ranh giới quyết định tuyến tính theo trục . Hiệu quả ròng là bạn có một ranh giới quyết định phi tuyến tính, có thể nhiều hơn một.

Điều này thật tuyệt khi các điểm dữ liệu của bạn không dễ dàng bị phân tách bởi một siêu phẳng, nhưng mặt khác, các cây quyết định rất linh hoạt đến mức chúng có thể dễ bị quá mức. Để chống lại điều này, bạn có thể thử cắt tỉa. Hồi quy logistic có xu hướng ít nhạy cảm hơn (nhưng không miễn dịch!) Đối với quá mức.

xyxy

Vì vậy, bạn phải tự hỏi:

  • loại ranh giới quyết định nào có ý nghĩa hơn trong vấn đề cụ thể của bạn?
  • Bạn muốn cân bằng thiên vị và phương sai như thế nào?
  • Có sự tương tác giữa các tính năng của tôi?

Tất nhiên, luôn luôn nên thử cả hai mô hình và xác thực chéo. Điều này sẽ giúp bạn tìm ra cái nào có nhiều khả năng có lỗi tổng quát hóa tốt hơn.


Chính xác là @Victor.
không có tiêu đề

@Victor Cảm ơn rất nhiều vì đã giải thích rất chi tiết.
Arun

6

Hãy thử sử dụng cả cây hồi quy và cây quyết định. So sánh hiệu quả của từng kỹ thuật bằng cách sử dụng xác nhận chéo 10 lần. Bám sát một cái có hiệu quả cao hơn. Sẽ rất khó để đánh giá phương pháp nào sẽ phù hợp hơn chỉ bằng cách biết rằng tập dữ liệu của bạn là liên tục và, hoặc phân loại.


1

Nó thực sự phụ thuộc vào cấu trúc phân phối cơ bản của dữ liệu của bạn. Nếu bạn có lý do chính đáng để tin rằng dữ liệu gần đúng với phân phối Bernoulli, hồi quy logistic đa thức sẽ hoạt động tốt và cung cấp cho bạn kết quả có thể hiểu được. Tuy nhiên, nếu tồn tại các cấu trúc phi tuyến trong phân phối cơ bản, bạn nên nghiêm túc xem xét một phương pháp phi tham số.

Mặc dù bạn có thể sử dụng cây quyết định làm phương pháp không tham số của mình, bạn cũng có thể xem xét việc tạo ra một khu rừng ngẫu nhiên - điều này về cơ bản tạo ra một số lượng lớn các cây quyết định riêng lẻ từ các tập hợp con của dữ liệu và phân loại cuối cùng là phiếu bầu tổng hợp của tất cả các cây . Một khu rừng ngẫu nhiên giúp cung cấp cho bạn ý tưởng về việc chia sẻ từng biến dự đoán đóng góp cho phản hồi.

Một yếu tố khác cần ghi nhớ là khả năng diễn giải. Nếu bạn chỉ đang cố gắng phân loại dữ liệu, thì có lẽ bạn không quan tâm đến mối quan hệ cơ bản giữa các biến giải thích và phản hồi. Tuy nhiên, nếu bạn quan tâm đến khả năng diễn giải, hồi quy logistic đa thức sẽ dễ diễn giải hơn nhiều, các phương pháp tham số nói chung, bởi vì chúng đưa ra các giả định về phân phối cơ bản, cho bạn biết các mối quan hệ dễ hiểu hơn.


0

Để sử dụng Cây quyết định, bạn nên chuyển đổi biến liên tục thành phân loại.

Một điều nữa, Hồi quy logistic thường được sử dụng để dự đoán kết quả theo xác suất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.