Khi tối ưu hóa mô hình hồi quy logistic, đôi khi nhiều dữ liệu làm cho mọi thứ đi * nhanh hơn *. Bất cứ ý tưởng tại sao?


8

Tôi đã chơi đùa với hồi quy logistic với các thuật toán tối ưu hóa hàng loạt khác nhau (gradient liên hợp, newton-raphson và các phương pháp quasinewton khác nhau). Một điều tôi nhận thấy là đôi khi, việc thêm nhiều dữ liệu vào một mô hình thực sự có thể khiến việc đào tạo mô hình mất ít thời gian hơn nhiều. Mỗi lần lặp yêu cầu nhìn vào nhiều điểm dữ liệu hơn, nhưng tổng số lần lặp được yêu cầu có thể giảm đáng kể khi thêm nhiều dữ liệu. Tất nhiên, điều này chỉ xảy ra trên một số bộ dữ liệu nhất định và tại một số điểm, việc thêm nhiều dữ liệu sẽ khiến việc tối ưu hóa bị chậm lại.

Đây có phải là một hiện tượng nghiên cứu tốt? Tôi có thể tìm thêm thông tin về lý do tại sao / khi điều này có thể xảy ra?


5
Đây là một quan sát thú vị. Số lần lặp có thể giảm với nhiều dữ liệu hơn là trực quan: ngoại trừ việc tách hoàn toàn, có nhiều dữ liệu hơn hàm ý độ chính xác cao hơn ngay cả trong các ước tính bắt đầu thô của giải pháp. Với ít dữ liệu hơn, một tìm kiếm ban đầu rộng hơn, với độ dốc nhỏ, có thể cần phải xảy ra. Phân tích ma trận thông tin trong một vùng lân cận của các giá trị tham số thực sẽ làm cho trực giác này định lượng.
whuber

5
Bên cạnh những điều @whuber đề cập, việc thêm dữ liệu có thể làm cho bề mặt có khả năng "đẹp hơn", có nghĩa là các thuật toán điển hình sẽ hội tụ nhanh hơn nhiều. Trong các mẫu nhỏ, sự hội tụ cho GLM đôi khi có thể chậm vì bề mặt không phải là một thứ đẹp, gần như bậc hai trong các tham số. Khi kích thước mẫu trở nên lớn hơn - đặc biệt là nếu bạn có chức năng liên kết chính tắc, do đó, khả năng chỉ là một chức năng của một số thống kê đủ đơn giản - có thể nhanh hơn không chỉ trong các lần lặp, mà thậm chí có thể theo thời gian.
Glen_b -Reinstate Monica

1
Tôi hiểu trực giác mà cả hai bạn đề cập, nhưng tôi tò mò liệu điều này có thể được định lượng hơn một chút bằng cách nào đó. Ví dụ, có thể một số kết quả thử nghiệm cho thấy mức độ cải thiện tốc độ có thể đạt được bằng nhiều dữ liệu hơn.
Mike Izbicki

1
Rất nhiều điều kỳ lạ có thể ảnh hưởng đến tốc độ xử lý. Xem câu hỏi được đánh giá cao nhất trên Stack Overflow chẳng hạn.
Nick Stauner

Bạn có thể cung cấp một trường hợp cho thấy điều này? Nếu bạn có thể biến nó thành "điển hình" cho trải nghiệm của mình và chỉ ra rằng làm thế nào một tập hợp con của dữ liệu "lành mạnh" khác có tốc độ hội tụ chậm, nhưng tập hợp dữ liệu có khả năng hội tụ nhanh hơn, điều đó có thể giúp trả lời tốt hơn. Tôi nghĩ rằng tôi vừa diễn giải Mike Izbicki.
EngrStudent

Câu trả lời:


4

Với số lượng dữ liệu ít hơn, mối tương quan giả giữa các đầu vào hồi quy thường cao, vì bạn chỉ có quá nhiều dữ liệu. Khi các biến hồi quy tương quan, bề mặt khả năng tương đối bằng phẳng và việc tối ưu hóa trở nên khó khăn hơn, đặc biệt là biến không sử dụng Hessian đầy đủ (ví dụ Newton Raphson), để tìm mức tối thiểu.

Có một số biểu đồ đẹp ở đây và giải thích thêm, với cách thức các thuật toán khác nhau thực hiện đối với dữ liệu với số lượng tương quan khác nhau, tại đây: http://fa.bianp.net/blog/2013/numerical-optimulators-for-logistic-regression/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.