Điều hòa cây hồi quy tăng cường (BRT), mô hình tăng tổng quát (GBM) và máy tăng cường độ dốc (GBM)


9

Câu hỏi:

  1. Sự khác biệt giữa các cây hồi quy được tăng cường (BRT) và các mô hình tăng cường tổng quát (GBM) là gì? Chúng có thể được sử dụng thay thế cho nhau? Là một hình thức cụ thể của người khác?
  2. Tại sao Ridgeway sử dụng cụm từ "Các mô hình hồi quy tổng quát tăng cường" (GBM), để mô tả những gì Friedman đã đề xuất trước đây là "Máy tăng tốc độ dốc" (GBM)? Hai từ viết tắt này giống hệt nhau, mô tả cùng một thứ, nhưng được bắt nguồn từ các cụm từ khác nhau.

Lý lịch:

Tôi gặp khó khăn khi xác định các thuật ngữ BRT và GBM khác nhau như thế nào. Từ những gì tôi hiểu cả hai đều là thuật ngữ để mô tả cây phân loại và hồi quy có tính ngẫu nhiên được kết hợp thông qua một số loại tăng (ví dụ: đóng bao, bootstrapping, xác thực chéo). Ngoài ra, từ những gì tôi thu thập được thuật ngữ GBM lần đầu tiên được Friedman (2001) đưa ra trong bài viết "Xấp xỉ chức năng tham lam: một máy tăng cường độ dốc". Ridgeway sau đó đã thực hiện quy trình được Friedman mô tả năm 2006 trong gói "Các mô hình hồi quy tổng quát tăng cường" (GBM). Trong lĩnh vực của tôi (sinh thái học) Elith et al. (2008) là người đầu tiên chứng minh gbmgói Ridgeway cho mô hình phân phối loài. Tuy nhiên, các tác giả trong Elith et al. sử dụng thuật ngữ "cây hồi quy tăng cường" (BRT) để mô tả Friedman và Ridgeway '

Tôi bối rối không biết những thuật ngữ này có thể được sử dụng thay thế cho nhau không? Điều hơi khó hiểu là một tác giả sẽ sử dụng cùng một từ viết tắt (từ một cụm từ khác) để mô tả cùng một lý thuyết mà một tác giả trước đó đã đề xuất. Điều khó hiểu là tác giả thứ ba đã sử dụng một thuật ngữ hoàn toàn khác khi mô tả lý thuyết này theo thuật ngữ sinh thái.

Điều tốt nhất tôi có thể đưa ra là BRT là một dạng GBM cụ thể trong đó phân phối là nhị thức, nhưng tôi không chắc về điều này.

Elith và cộng sự. định nghĩa cây hồi quy được tăng cường như thế này "Cây hồi quy tăng cường kết hợp điểm mạnh của hai thuật toán: cây hồi quy (mô hình liên quan đến phản ứng với các yếu tố dự đoán của chúng bằng cách chia nhị phân đệ quy) và tăng cường (một phương pháp thích ứng để kết hợp nhiều mô hình đơn giản để cải thiện hiệu suất dự đoán được cải thiện ). Mô hình BRT cuối cùng có thể được hiểu là mô hình hồi quy phụ gia, trong đó các thuật ngữ riêng lẻ là các cây đơn giản, được trang bị theo hướng thuận, theo giai đoạn "(Elith et al. 2008).


1
Tôi không thể vào bên trong các tác giả và nói với bạn, nhưng có vẻ hợp lý là những cái tên nói lên tất cả. Tăng cường là một phương pháp sử dụng một chuỗi những người học yếu. Phương pháp tinh túy sẽ là "những cái cây nhỏ" như gốc cây. Nếu bạn tăng mô hình cây hồi quy, bạn sẽ có được cây hồi quy được tăng cường. Một tiên nghiệm, người ta có thể tăng các phương thức khác, bao gồm các phương pháp phân loại và trả về một thứ gọi là máy tăng cường độ dốc không phải là cây hồi quy được tăng cường.
meh

Tôi không nhớ các chi tiết ngoài tầm tay, nhưng một cuốn sách tôi đọc đã chỉ ra làm thế nào nếu một người sử dụng gốc cây cho kết quả rất giống với một trò chơi.
meh

Câu trả lời:


15

Như @aginensky đã đề cập trong luồng ý kiến, không thể có được trong đầu của tác giả, nhưng BRT rất có thể chỉ đơn giản là một mô tả rõ ràng hơn về gbmquy trình mô hình hóa, tha thứ cho tôi vì đã nêu rõ các cây phân loại và hồi quy rõ ràng. Và vì bạn đã hỏi về việc tăng cường, độ dốc và cây hồi quy, đây là những giải thích bằng tiếng Anh đơn giản của tôi về các thuật ngữ. FYI, CV không phải là một phương pháp thúc đẩy mà là một phương pháp giúp xác định các tham số mô hình tối ưu thông qua việc lấy mẫu lặp lại. Xem ở đây để giải thích tuyệt vời của quá trình.

Tăng cường là một loại phương pháp tập hợp . Các phương thức của bộ đồng bộ đề cập đến một tập hợp các phương thức theo đó các dự đoán cuối cùng được thực hiện bằng cách tổng hợp các dự đoán từ một số mô hình riêng lẻ. Tăng cường, đóng bao và xếp chồng là một số phương pháp tập hợp được triển khai rộng rãi. Xếp chồng liên quan đến việc phù hợp với một số mô hình khác nhau (theo bất kỳ cấu trúc nào bạn chọn) và sau đó kết hợp chúng trong một mô hình tuyến tính duy nhất. Điều này được thực hiện bằng cách khớp các dự đoán của các mô hình riêng lẻ với biến phụ thuộc. LOOCV SSE thường được sử dụng để xác định các hệ số hồi quy và mỗi mô hình được coi là một hàm cơ bản (theo tôi, điều này rất, rất giống với GAM). Tương tự, đóng baoliên quan đến việc lắp một số mô hình có cấu trúc tương tự với các mẫu đã được khởi động. Có nguy cơ một lần nữa nêu rõ, xếp chồng và đóng bao là các phương pháp tập hợp song song.

Tăng cường , tuy nhiên, là một phương pháp tuần tự. Friedman và Ridgeway đều mô tả quy trình thuật toán trong bài báo của họ vì vậy tôi sẽ không chèn nó ở đây chỉ trong giây này, nhưng phiên bản tiếng Anh đơn giản (và có phần đơn giản) là bạn phù hợp với một mô hình, với mỗi mô hình tiếp theo đang tìm cách giảm thiểu phần dư được tính trọng số bởi các lỗi của mô hình trước đó (tham số co ngót là trọng số được phân bổ cho từng lỗi dư của từng dự đoán từ lần lặp trước và bạn càng có thể đủ khả năng để có nó thì càng tốt). Theo một nghĩa trừu tượng, bạn có thể nghĩ về việc thúc đẩy như một quá trình học tập rất giống con người, nơi chúng ta áp dụng kinh nghiệm trong quá khứ vào các bước lặp mới của các nhiệm vụ chúng ta phải thực hiện.

Bây giờ, phần gradient của toàn bộ điều này xuất phát từ phương pháp được sử dụng để xác định số lượng mô hình tối ưu (được gọi là các lần lặp trong gbmtài liệu) được sử dụng để dự đoán nhằm tránh tình trạng thừa. Chức năng mất GBM đào tạo (màu đen) và lỗi CV (màu xanh lá cây)

Như bạn có thể thấy từ hình ảnh bên trên (đây là một ứng dụng phân loại, nhưng điều này cũng đúng với hồi quy), lỗi CV ban đầu giảm khá mạnh vì thuật toán chọn những mô hình đó sẽ dẫn đến lỗi CV giảm nhiều nhất trước khi làm phẳng và trèo trở lại một lần nữa khi đoàn bắt đầu tập luyện quá sức. Số lần lặp tối ưu là số lần lặp tương ứng với điểm uốn của hàm lỗi CV (độ dốc của hàm bằng 0), được minh họa thuận tiện bằng đường đứt nét màu xanh.

Việc gbmtriển khai của Ridgeway sử dụng cây phân loại và hồi quy và trong khi tôi không thể yêu cầu đọc suy nghĩ của mình, tôi sẽ tưởng tượng rằng tốc độ và sự dễ dàng (không nói gì về sự mạnh mẽ của chúng đối với các shenanigans) mà cây có thể phù hợp có ảnh hưởng khá lớn đến sự lựa chọn của anh về kỹ thuật người mẫu. Điều đó đã được nói, trong khi tôi có thể sai, tôi không thể tưởng tượng được một lý do nghiêm ngặt về mặt lý thuyết tại sao hầu như bất kỳ kỹ thuật mô hình nào khác không thể được thực hiện. Một lần nữa, tôi không thể tuyên bố biết tâm trí của Ridgeway, nhưng tôi tưởng tượng phần khái quát củagbmTên của nó đề cập đến vô số các ứng dụng tiềm năng. Gói có thể được sử dụng để thực hiện hồi quy (tuyến tính, Poisson và lượng tử), nhị thức (sử dụng một số hàm mất khác nhau) và phân loại đa thức và phân tích tỷ lệ sống (hoặc ít nhất là tính toán hàm nguy hiểm nếu phân phối coxph là bất kỳ dấu hiệu nào).

Bài báo của Elith có vẻ hơi quen (tôi nghĩ rằng tôi đã gặp nó vào mùa hè năm ngoái trong khi xem xét các phương pháp trực quan thân thiện với gbm) và, nếu bộ nhớ phục vụ đúng, nó có phần mở rộng của gbmthư viện, tập trung vào điều chỉnh mô hình tự động để hồi quy (như trong phân phối gaussian , không phải nhị thức) các ứng dụng và cải thiện việc tạo cốt truyện. Tôi tưởng tượng danh pháp RBT là có để giúp làm rõ bản chất của kỹ thuật mô hình hóa, trong khi GBM thì tổng quát hơn.

Hy vọng điều này sẽ giúp làm sáng tỏ một vài điều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.