Tại sao chúng ta lấy trung bình để dự đoán hồi quy Rừng ngẫu nhiên?

8

Trong tất cả các tài liệu rừng ngẫu nhiên (hồi quy) mà tôi đã đọc, khi đến lúc thu thập dự đoán của tất cả các cây, chúng tôi lấy giá trị trung bình làm dự đoán.

Câu hỏi của tôi là tại sao chúng ta làm điều đó?

Có một biện minh thống kê cho việc lấy trung bình?

EDIT: Để làm rõ câu hỏi, tôi biết có thể sử dụng các hàm tổng hợp khác (chúng tôi sử dụng chế độ để phân loại), tôi chủ yếu quan tâm đến việc có một số biện minh lý thuyết đằng sau sự lựa chọn của hàm trung bình.

regression random-forest ensemble

— Quán ba
nguồn

1

Có thể có liên quan: stats.stackexchange.com/questions/174390/ từ

— Matthew Drury

! nhập mô tả hình ảnh ở đây Đây là tài liệu tham khảo: Về xác suất so với nhãn lớp một phần sebastianraschka.com/Articles/

— mẹo

5

Tôi đã luôn nghĩ về việc tính trung bình theo quan điểm của sự đánh đổi sai lệch. Nếu tôi nhớ chính xác thì Leo Breiman đã ám chỉ điều này trong bài báo RandomForest với tuyên bố của mình "... mạnh mẽ hơn đối với tiếng ồn."

Lời giải thích như sau: về cơ bản, bạn đang lấy một bó cây được trồng hết chiều dài - không cần cắt tỉa - vì vậy bạn biết rằng mỗi cây sẽ bị thiên vị. Tuy nhiên, việc lấy mẫu ngẫu nhiên gây ra mỗi cây trong rừng sẽ gây ra sai lệch thường xuyên như sai lệch quá mức. Vì vậy, bằng cách lấy trung bình, sau đó bạn loại bỏ sự thiên vị của từng cây - hơn + dưới sự hủy bỏ sai lệch. Hy vọng trong quá trình bạn cũng giảm được phương sai trong mỗi cây và do đó, phương sai tổng thể cũng sẽ được giảm.

Như được chỉ ra bởi các câu trả lời khác cho bài đăng, đây có thể không phải là lý do duy nhất để tính trung bình.

— Lucas Roberts
nguồn

1

Chấp nhận điều này, vì câu trả lời dường như trung bình được chọn từ "trực giác" thay vì động lực lý thuyết cụ thể, trái ngược với câu trả lời có động cơ lý thuyết trên GLMs: stats.stackexchange.com/q/174390/16052

— Bar

1

@Bar, với cây quyết định, vấn đề thực sự là tối ưu hóa toàn cầu là NP-hard nên tối ưu hóa tham lam được thực hiện. Tối ưu hóa tham lam cho mỗi cây không cho chúng ta biết về rừng. Thật không may, toán học cho vấn đề này kém phát triển hơn bất kỳ ai trong chúng ta mong muốn.

— Lucas Roberts

5

Khi sử dụng mức trung bình, bạn đang nói hai điều:

Các ngoại lệ không phải là một vấn đề lớn (nếu không, bạn sẽ sử dụng trung bình hoặc ít nhất là lọc ra một số ngoại lệ trước khi lấy trung bình)
Mọi dự đoán đều có cùng trọng lượng (nếu không bạn sẽ tính theo trọng số)

Bạn không nên hy vọng sẽ có những ngoại lệ lớn vì bạn có thể làm cho cỡ mẫu đủ lớn để chúng ít quan trọng hơn ở mức trung bình và vì bạn sẽ mong đợi sự ổn định tối thiểu từ các dự đoán của từng cây.

Không có lý do để nghĩ rằng một số cây nên có trọng lượng dự đoán nhiều hơn những cây khác, cũng không có cách nào để xác định trọng lượng như vậy.

Bạn không thể thực sự sử dụng chế độ vì các dự đoán ở quy mô liên tục. Ví dụ: nếu bạn có dự đoán 80 80 100 101 99 98 97 102 103 104 96, chế độ sẽ dự đoán là 80. Đó không thể là điều bạn muốn. Nếu tất cả các giá trị có số thập phân riêng biệt, chế độ sẽ không biết cách quyết định.

Các trung bình khác ngoài trung bình số học tồn tại, như trung bình hình học và trung bình hài. Chúng được thiết kế để kéo mức trung bình xuống nếu có một số giá trị thấp trong chuỗi dữ liệu. Đó không phải là những gì bạn muốn ở đây.

— David Ernst
nguồn

1

Nếu các ngoại lệ là một mối quan tâm, có những lựa chọn thay thế ở giữa trung bình và trung bình mẫu, như phương tiện thắng hoặc cắt, có thể bảo vệ tốt hơn trong khi hiệu quả hơn so với trung bình.

— kjetil b halvorsen

3

Tất nhiên bạn có thể sử dụng bất kỳ hàm tổng hợp nào hữu ích trong tình huống cụ thể của bạn. Trung vị là một cách tốt để làm cho một mẫu nhỏ mạnh mẽ chống lại các ngoại lệ. Trong rừng hồi quy, bạn thường có thể ảnh hưởng đến cỡ mẫu để tránh gặp vấn đề về cỡ mẫu nhỏ. Do đó, giá trị trung bình có vẻ hợp lý trong một phần rất lớn các trường hợp sử dụng.

— Bernhard
nguồn

1

Sẽ không khả thi nếu lấy trung vị, chế độ hoặc một số hàm tổng hợp khác?

Phân loại rừng ngẫu nhiên ( nghĩa là không ước tính xác suất) dựa trên chế độ dự đoán (biểu quyết đa số), vì vậy, bạn có thể tổng hợp kết quả theo ý muốn.

— Bọ lửa
nguồn

Cảm ơn câu trả lời, tôi đã thêm một câu làm rõ cho câu hỏi của tôi. Tôi biết có thể sử dụng các hàm tổng hợp khác, điều tôi băn khoăn là liệu có lý do lý thuyết nào cho sự lựa chọn trung bình không.

— Bar

1

Điều đầu tiên đầu tiên. Như nhiều người khác nói bạn có thể sử dụng các số liệu khác nhưng trung bình là tùy chọn "mặc định".

Là một tùy chọn mặc định, người ta sẽ thiết lập một chức năng hoạt động trong một số điều kiện nhẹ

Bây giờ, nếu bạn nghĩ về nó, một khu rừng ngẫu nhiên là một tập hợp các cây và mỗi cây này có mục tiêu để ước tính biến trả lời số của bạn.

Ngoài ra, như @David Ernst đề cập chính xác:

Không có lý do để nghĩ rằng một số cây nên có trọng lượng dự đoán như những cây khác, cũng không có cách nào để xác định trọng lượng như vậy.

Hơn nữa, không có lý do để nghĩ rằng những cây này sẽ có độ lệch chuẩn khác nhau. Một lần nữa, trong điều kiện nhẹ!

Điều đó đang được nói, trung bình nên hoạt động vì luật yếu của số lượng lớn

— Vasilis Vasileiou
nguồn

-1

Trong đoàn Tính trung bình là ưu tiên nhiều hơn vào sự tự tin hơn là đa số.

Ví dụ bạn có 3 cây,

2 trong số họ bỏ phiếu A với độ tin cậy 22% và 1 phiếu B với độ tin cậy 90%.

Nếu chúng ta sử dụng đa số, chúng ta sẽ có phiếu bầu A. Trung bình là 22, N, N Nếu chúng ta sử dụng sự tự tin, chúng ta sẽ có phiếu bầu B. Trung bình là 90, N, N

Sẽ hợp lý hơn khi đi với độ tin cậy 90% vì nó chắc chắn hơn so với phần lớn những người khác chỉ với độ tin cậy 22%.

— PauAI
nguồn

Nó không hoàn toàn rõ ràng với tôi quan điểm của bạn là gì. Bạn có thể chỉnh sửa để làm rõ nó có lẽ? Điều gì sẽ xảy ra nếu có 100 A và chỉ một B có cùng xếp hạng độ tin cậy?

— mdewey