Mô hình dự đoán - Chúng ta có nên quan tâm đến mô hình hỗn hợp?


19

Đối với mô hình dự đoán, chúng ta có cần quan tâm đến các khái niệm thống kê như hiệu ứng ngẫu nhiên và không độc lập của các quan sát (các biện pháp lặp đi lặp lại) không? Ví dụ....

Tôi có dữ liệu từ 5 chiến dịch thư trực tiếp (diễn ra trong suốt một năm) với các thuộc tính khác nhau và cờ để mua. Lý tưởng nhất là tôi sẽ sử dụng tất cả dữ liệu này kết hợp để xây dựng mô hình mua các thuộc tính khách hàng nhất định tại thời điểm chiến dịch. Lý do là sự kiện mua hàng rất hiếm và tôi muốn sử dụng càng nhiều thông tin càng tốt. Có khả năng một khách hàng nhất định có thể có mặt ở bất kỳ nơi nào từ 1 đến 5 trong số các chiến dịch - có nghĩa là không có sự độc lập giữa các hồ sơ.

Có vấn đề này khi sử dụng:

1) Phương pháp học máy (ví dụ: cây, MLP, SVM)

2) Một cách tiếp cận thống kê (hồi quy logistic)?

**ADD:**

Suy nghĩ của tôi về mô hình dự đoán là nếu mô hình hoạt động, sử dụng nó. Vì vậy mà tôi chưa bao giờ thực sự xem xét tầm quan trọng của các giả định. Suy nghĩ về trường hợp tôi mô tả ở trên khiến tôi băn khoăn.

Lấy các thuật toán học máy như a MLP and SVM. Chúng được sử dụng thành công để mô hình hóa một sự kiện nhị phân như ví dụ của tôi ở trên nhưng cũng là dữ liệu chuỗi thời gian có mối tương quan rõ ràng. Tuy nhiên, nhiều hàm sử dụng mất khả năng và có nguồn gốc giả định rằng các lỗi là iid. Ví dụ, các cây được tăng cường độ dốc trong R gbmsử dụng các hàm mất lệch được lấy từ nhị thức ( Trang 10 ).


1
Sẽ là vấn đề đối với các phương pháp thống kê giả định tính độc lập giữa các hồ sơ, bởi vì sau đó bạn đang xử lý các biện pháp lặp đi lặp lại.
Michelle

4
Dường như với tôi một trong những khác biệt chính giữa học máy tập trung vào dự đoán và thống kê tập trung vào suy luận là chính xác những gì bạn nói, B_Miner. Học máy quan tâm nhiều hơn đến những gì hoạt động trong khi thống kê truyền thống đặc biệt chú ý đến các giả định. Trong cả hai trường hợp, bạn cần nhận thức được các giả định / tính chất của phương pháp của mình sau đó đưa ra quyết định sáng suốt cho dù chúng có quan trọng hay không. Bạn có thể tự đánh lừa mình trong mô hình dự đoán về việc liệu mô hình của bạn có hoạt động hay không nếu bạn không hiểu các giả định / tính chất của phương pháp này.
Anne Z.

2
@ AnneZ. Nếu bạn làm theo phương pháp xác nhận được đề xuất của đào tạo-, kiểm tra và xác nhận hợp lệ (tất cả các mẫu đủ lớn) trong mô hình dự đoán và bạn tìm thấy một cái gì đó hoạt động, liệu người ta vẫn phải bận tâm nếu các giả định cơ bản được đáp ứng? Tôi chắc chắn không đề xuất ứng dụng ML không suy nghĩ, tôi chỉ tự hỏi ...
steffen

2
Trong bối cảnh này, bài báo "Mô hình thống kê: Hai nền văn hóa" có thể thú vị, được thảo luận trong câu lạc bộ tạp chí định
steffen

Câu trả lời:


14

Tôi đã tự hỏi điều này bản thân mình , và đây là kết luận dự kiến ​​của tôi. Tôi sẽ rất vui nếu bất cứ ai có thể bổ sung / sửa lỗi này với kiến ​​thức của họ và bất kỳ tài liệu tham khảo nào về chủ đề này.

Nếu bạn muốn kiểm tra các giả thuyết về hệ số hồi quy logistic bằng cách kiểm tra ý nghĩa thống kê, bạn cần mô hình hóa mối tương quan qua các quan sát (hoặc nói cách khác là không độc lập) vì nếu không, các lỗi tiêu chuẩn của bạn sẽ quá nhỏ, ít nhất là khi bạn đang xem xét trong- hiệu ứng cụm. Nhưng các hệ số hồi quy không thiên vị ngay cả với các quan sát tương quan, do đó, sẽ tốt nếu sử dụng mô hình như vậy để dự đoán.

Trong mô hình dự đoán, bạn không cần phải tính toán rõ ràng mối tương quan khi đào tạo mô hình của mình, cho dù bạn đang sử dụng hồi quy logistic hay một số phương pháp khác. Tuy nhiên, nếu bạn muốn sử dụng một bộ giữ để xác thực hoặc tính toán lỗi ngoài mẫu, bạn sẽ muốn đảm bảo rằng các quan sát cho từng cá nhân chỉ xuất hiện trong một bộ, cả đào tạo hoặc xác nhận nhưng không phải cả hai. Mặt khác, mô hình của bạn sẽ dự đoán cho các cá nhân, nó đã có một số thông tin và bạn không nhận được thông tin chính xác về khả năng phân loại ngoài mẫu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.