Khoảng dự đoán cho các thuật toán học máy


13

Tôi muốn biết nếu quy trình được mô tả dưới đây là hợp lệ / có thể chấp nhận và bất kỳ lời biện minh nào có sẵn.

Ý tưởng: Các thuật toán học tập được giám sát không giả định các cấu trúc / phân phối cơ bản về dữ liệu. Vào cuối ngày, họ ước tính điểm đầu ra. Tôi hy vọng sẽ định lượng được sự không chắc chắn của các ước tính bằng cách nào đó. Bây giờ, quy trình xây dựng mô hình ML vốn đã ngẫu nhiên (ví dụ: lấy mẫu để xác thực chéo để điều chỉnh siêu tham số và lấy mẫu theo GBM ngẫu nhiên), do đó, một đường ống mô hình sẽ cung cấp cho tôi một đầu ra khác nhau cho cùng một công cụ dự đoán với mỗi hạt giống khác nhau. Ý tưởng (ngây thơ) của tôi là điều hành quá trình này nhiều lần để đưa ra phân phối dự đoán và tôi hy vọng có thể đưa ra tuyên bố về sự không chắc chắn của các dự đoán.

Nếu có vấn đề, bộ dữ liệu tôi làm việc thường rất nhỏ (~ 200 hàng.)

Điều này có nghĩa không?

Để làm rõ, tôi không thực sự khởi động dữ liệu theo nghĩa truyền thống (nghĩa là tôi không lấy mẫu lại dữ liệu). Bộ dữ liệu tương tự được sử dụng trong mỗi lần lặp, tôi chỉ khai thác tính ngẫu nhiên trong xval và GBM ngẫu nhiên.


2
Nếu bạn thực sự muốn có một khoảng dự đoán (chứ không phải là khoảng tin cậy), bạn cần tính đến sự thay đổi trong các quan sát về mô hình, không chỉ là biến thể trong các dự đoán mô hình
Glen_b -Reinstate Monica

@Glen_b cách tiếp cận được nêu trong OP hoặc phiên bản nâng cấp sẽ giúp tôi có được khoảng tin cậy? Tôi bắt đầu nghĩ rằng một khoảng dự đoán là không thể mà không chỉ định phân phối cơ bản cho dữ liệu vì vậy tôi có thể cần phải viết lại câu hỏi vào lần tới.
kevinykuo

Bạn có thể khởi động các khoảng dự đoán bootstrap ... chỉ không bằng cách thực hiện những gì bạn mô tả trong Q.
Glen_b -Reinstate Monica

@Glen_b bạn có thể mô tả làm thế nào để làm như vậy trong một câu trả lời?
kevinykuo

1
Tôi không thể đưa ra một câu trả lời đầy đủ ở đây. Nhưng hãy xem Davison & Hinkley (1997) trong các chương về hồi quy bội và GLM, điều này mang lại cảm giác về loại điều có thể cần thiết. Ví dụ, trong trường hợp hồi quy bội, phần dư được định cỡ lại để có được ước lượng bootstrap về độ không đảm bảo dự đoán (biến đổi trong dự đoán do độ không đảm bảo của tham số) và được ghép lại để xử lý biến đổi quy trình. Với sơ đồ phù hợp, có lẽ bạn cũng có thể xử lý sự không chắc chắn của đặc tả mô hình trong bước đầu tiên nhưng bạn không thể bỏ qua bước thứ 2 để thay đổi quy trình
Glen_b -Reinstate Monica

Câu trả lời:


5

Đối với tôi nó có vẻ là cách tiếp cận tốt như bất kỳ để định lượng sự không chắc chắn trong các dự đoán. Chỉ cần đảm bảo lặp lại tất cả các bước lập mô hình (đối với GBM sẽ là điều chỉnh tham số) từ đầu trong mỗi mẫu lại bootstrap. Nó cũng có thể là giá trị để bootstrap bảng xếp hạng quan trọng để định lượng sự không chắc chắn trong bảng xếp hạng.

Tôi đã thấy rằng đôi khi các khoảng không chứa dự đoán thực tế, đặc biệt là khi ước tính xác suất. Việc tăng số lượng quan sát tối thiểu trong mỗi nút thiết bị đầu cuối thường giải quyết được điều đó, ít nhất là trong dữ liệu mà tôi đã làm việc cùng.

Dự đoán phù hợp có vẻ như là một cách tiếp cận hữu ích để định lượng sự tin cậy trong các dự đoán về dữ liệu mới. Tôi mới chỉ trầy xước bề mặt cho đến nay và những người khác có lẽ phù hợp hơn để đưa ra ý kiến ​​về điều đó.

Có một số mã R thô trong bài trả lời của tôi cho bài đăng này về việc tìm kiếm Khoảng dự đoán GBM.

Hi vọng điêu nay co ich!


2

Bạn có thể phân chia sự không chắc chắn của bạn về dự đoán cho các điều khoản 'thiên vị' và 'phương sai'. Thuật ngữ thiên vị đề cập đến lỗi chính tả của mô hình: nếu bạn phù hợp với mô hình tuyến tính cho hàm phi tuyến, bạn sẽ luôn gặp một số lỗi. Thuật ngữ 'Phương sai' đề cập đến lỗi trong ước tính tham số mô hình. Bạn tiếp cận tài khoản cho một phần của sự không chắc chắn, trong khi không thể ước tính độ lệch.

Theo đề xuất của dự đoán tuân thủ @ErikL là cách tiếp cận hợp lý về mặt lý thuyết, thông qua một ý tưởng khá giống với bootstrap. Dự đoán phù hợp bằng cách tái cấu trúc mô hình bằng cách sử dụng một điểm mới có tính đến cả sai lệch và phương sai, trong khi để hồi quy, chúng cần các tài nguyên tính toán quan trọng. Bạn có thể thử nó với Python bằng thư viện không phù hợp .


1

Không, nó có vẻ là một ý tưởng tồi. Đầu tiên, như Alexey đã chỉ ra, có sự thiên vị và phương sai. Ngay cả đối với sự lựa chọn tham số tốt nhất, bạn không thể tránh được phương sai. Phương pháp của bạn thậm chí không cố gắng giải quyết nó. Có một vấn đề rất quan trọng khác, đó là một số, và có lẽ hầu hết, lỗi của mô hình của bạn là ở dữ liệu, thay vì sự ngẫu nhiên vốn có của mô hình. (Không đề cập đến việc một số mô hình, như hồi quy tuyến tính đơn giản, hoàn toàn không ngẫu nhiên và đối với các mô hình ngẫu nhiên, mức độ ngẫu nhiên thay đổi theo từng mô hình)

Tôi đề nghị bạn kiểm tra cách tiếp cận của bạn trên một số dữ liệu mô phỏng đơn giản và một số mô hình mà bạn biết. Tôi chắc chắn rằng, vì những lý do tôi đã mô tả, lỗi ước tính của bạn sẽ nhỏ hơn nhiều so với lỗi thực sự (hoặc phân phối của bạn sẽ hẹp hơn nhiều).

Để ước tính phân phối lỗi, bạn có thể sử dụng xác thực chéo cũ tốt.


0

Tôi đang suy nghĩ về vấn đề này bây giờ. Đây là những phát hiện của tôi:

(1) Phương pháp Delta
(2) Lấy mẫu lại Bootstrap
(3) Phương pháp Bayes
(4) Ước lượng phương sai trung bình (MVE)

Ý tưởng đang cố gắng ước tính hai nguồn của tính biến thiên dự đoán, độ không đảm bảo từ ước tính tham số mô hình và lỗi không thể khắc phục.

Dưới đây là một số tài liệu tham khảo:

Phương pháp tiếp cận máy học để ước tính khoảng dự đoán cho đầu ra mô hình, Durga L. Shrestha, Dimitri P. Solomatine, 2006
So sánh một số ước tính lỗi cho các mô hình mạng thần kinh, Robert Tibshirani, 1995
Đánh giá toàn diện về các khoảng dự đoán dựa trên mạng thần kinh và mới Những tiến bộ, Abbas khosravi, Doug Creighton, 2011

Hy vọng điều này sẽ giúp và sửa chữa cho tôi bất kỳ điều nào ở trên là không phù hợp. Tôi muốn nghe nhiều hơn từ những người khác.


1
Bạn có thể giải thích làm thế nào bài này giải quyết câu hỏi ban đầu?
whuber

Tiêu đề là 'PI cho các thuật toán ML', @kevinykuo đang hỏi liệu cách 'bootstraping' của anh ấy có hoạt động không. Tôi đang chỉ ra một số tài liệu tham khảo về một số phương pháp được sử dụng trong PI cho Mạng thần kinh.
Demo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.