Lợi thế của việc giảm kích thước của các yếu tố dự đoán cho mục đích hồi quy là gì?


11

Các ứng dụng hoặc lợi thế của kỹ thuật hồi quy giảm kích thước (DRR) hoặc kỹ thuật giảm kích thước được giám sát (SDR) so với các kỹ thuật hồi quy truyền thống (không có bất kỳ giảm kích thước nào) là gì? Các lớp kỹ thuật này tìm thấy biểu diễn chiều thấp của bộ tính năng cho bài toán hồi quy. Ví dụ về các kỹ thuật này bao gồm Hồi quy nghịch đảo thái lát, Chỉ dẫn Hessian chính, Ước lượng phương sai trung bình cắt lát, Hồi quy nghịch đảo hạt nhân, Hồi quy thành phần chính, v.v.

  1. Về mặt RMSE được xác thực chéo, nếu một thuật toán thực hiện tốt hơn trong nhiệm vụ hồi quy mà không có bất kỳ sự giảm kích thước nào, thì việc sử dụng thực sự của việc giảm kích thước để hồi quy là gì? Tôi không hiểu ý của những kỹ thuật này.

  2. Có phải các kỹ thuật này được sử dụng để giảm độ phức tạp không gian và thời gian cho hồi quy? Nếu đó là lợi thế chính, một số tài nguyên về giảm độ phức tạp cho các bộ dữ liệu chiều cao khi các kỹ thuật này được đưa vào sử dụng sẽ hữu ích. Tôi tranh luận điều này với thực tế là việc chạy một kỹ thuật DRR hoặc SDR tự nó đòi hỏi một chút thời gian và không gian. Đây có phải là hồi quy SDR / DRR + trên một tập dữ liệu có độ mờ thấp nhanh hơn so với chỉ hồi quy trên tập dữ liệu có độ mờ cao không?

  3. Có phải thiết lập này đã được nghiên cứu ngoài lợi ích trừu tượng, và không có một ứng dụng thực tế tốt?

Như một suy nghĩ phụ: đôi khi có những giả định rằng phân phối chung của các tính năng và phản hồi nằm trên một đa tạp. Thật hợp lý khi tìm hiểu đa tạp từ mẫu quan sát trong bối cảnh này để giải quyết vấn đề hồi quy.YXY


1
Bạn nói về việc học đa dạng để blogpost sau đây có thể giúp ích: Normaldeviate.wordpress.com/2012/09/08/hunting-for-manifold
kjetil b halvorsen

Câu trả lời:


5

Theo giả thuyết đa tạp, dữ liệu được cho là nằm trên đa tạp chiều thấp, hàm ý rằng phần dư là nhiễu, vì vậy nếu bạn giảm chính xác kích thước, bạn nên cải thiện hiệu suất bằng cách mô hình hóa tín hiệu thay vì nhiễu. Đó không chỉ là một câu hỏi về không gian và sự phức tạp.


nhưng tôi không thấy các kỹ thuật như SIR hoạt động tốt hơn sau khi giảm kích thước trên cơ sở mạnh mẽ. Chỉnh sửa cho tôi nếu tôi sai hoặc nếu bạn biết về kỹ thuật SDR / DDR có thể tìm thấy tín hiệu này tốt hơn - trong cài đặt hồi quy, hãy cho tôi biết đó là kỹ thuật gì (tên).
tòa

Tất nhiên, nó phụ thuộc vào thuật toán hồi quy và chiều kích nội tại của dữ liệu. Tôi không thể nói riêng cho SIR, nhưng đây là một bài báo so sánh các thuật toán hồi quy khác nhau trên tập dữ liệu MNIST, có chiều thấp. Có lẽ bạn có thể chia sẻ một số dữ liệu rắc rối để mọi người có thể hiểu được.
Emre

"Giả thuyết đa dạng" là gì?
amip nói phục hồi Monica


Tôi tự hỏi liệu công cụ này có giống với mạng lưới thần kinh và tỷ lệ đa chiều phi tuyến ở chỗ nó "nghe có vẻ" nó sẽ tuyệt vời ở mọi nơi nhưng trong thực tế lại hoạt động tốt trong một loạt các trường hợp hạn chế hơn
Shadowtalker 11/12/14

6

Mục đích của việc giảm kích thước trong hồi quy là chính quy.

Hầu hết các kỹ thuật mà bạn liệt kê không được biết đến nhiều; Tôi chưa nghe nói về bất kỳ ai trong số họ ngoài hồi quy thành phần chính (PCR). Vì vậy, tôi sẽ trả lời về PCR nhưng hy vọng rằng điều tương tự cũng áp dụng cho các kỹ thuật khác.

Hai từ khóa ở đây là quá mứcchính quy . Để điều trị và thảo luận lâu dài, tôi giới thiệu bạn đến Các yếu tố của học thống kê , nhưng rất ngắn gọn, điều gì xảy ra nếu bạn có nhiều dự đoán ( ) và không đủ mẫu ( ) là hồi quy chuẩn sẽ vượt quá dữ liệu và bạn sẽ xây dựng một mô hình dường như có hiệu suất tốt trên tập huấn luyện nhưng thực sự có hiệu suất rất kém trên bất kỳ tập kiểm thử nào.npn

Trong một ví dụ cực đoan, khi số lượng dự đoán vượt quá số lượng mẫu (mọi người gọi nó là vấn đề ), bạn thực sự có thể hoàn toàn phù hợp với bất kỳ biến phản hồi , đạt hiệu suất dường như . Điều này rõ ràng là vô nghĩa.y 100 %p>ny100%

Để đối phó với việc quá mức người ta phải sử dụng chính quy , và có rất nhiều chiến lược chính quy hóa khác nhau. Trong một số phương pháp tiếp cận một cố gắng để làm giảm đáng kể số lượng các nhân tố ảnh, làm giảm các vấn đề với tình hình, và sau đó sử dụng hồi quy chuẩn. Đây là chính xác những gì hồi quy thành phần chính làm. Vui lòng xem Các yếu tố , phần 3.4--3.6. PCR thường không tối ưu và trong hầu hết các trường hợp, một số phương pháp chính quy hóa khác sẽ hoạt động tốt hơn, nhưng nó rất dễ hiểu và dễ hiểu.pn

Lưu ý rằng PCR cũng không phải là tùy ý (ví dụ: việc giữ ngẫu nhiên các kích thước có khả năng thực hiện kém hơn nhiều). Lý do cho điều này là PCR được kết nối chặt chẽ với hồi quy sườn, đây là một công cụ thường xuyên co ngót tiêu chuẩn được biết là hoạt động tốt trong nhiều trường hợp lớn. Xem câu trả lời của tôi ở đây để so sánh: Mối quan hệ giữa hồi quy sườn và hồi quy PCA .p

Để thấy hiệu suất tăng so với hồi quy tiêu chuẩn, bạn cần một bộ dữ liệu có nhiều dự đoán và không quá nhiều mẫu và bạn chắc chắn cần sử dụng xác thực chéo hoặc bộ kiểm tra độc lập. Nếu bạn không thấy hiệu suất tăng, thì có lẽ tập dữ liệu của bạn không có đủ kích thước.

Chủ đề liên quan với câu trả lời tốt:


1
Với các ấn phẩm của anh ấy, thật an toàn khi cho rằng anh ấy biết điều này.
Emre

Cảm ơn, @Emre, tôi không biết OP là ai. Tôi có thể đã hiểu nhầm câu hỏi, nhưng sau khi đọc lại bây giờ tôi không thấy làm thế nào tôi có thể diễn giải nó khác đi. Nếu người ta hỏi lợi thế thực tế của PCR là gì, thì câu trả lời chính quy; PCR thực sự liên quan chặt chẽ với hồi quy sườn núi, đây là một trong những phương pháp chính quy chuẩn nhất.
amip nói phục hồi Monica

p>n

@ssdecontrol: Tôi đồng ý. Tôi nghĩ rằng sự đồng thuận là PCR khá nhiều không cạnh tranh và hầu như luôn có những cách tiếp cận tốt hơn. Đây cũng là những gì tôi đã viết trong câu trả lời của mình (phải không?), Nhưng câu hỏi cụ thể là về việc giảm kích thước của các yếu tố dự đoán và về mục đích của nó có thể là gì. Câu trả lời của tôi là mục đích là chính quy.
amip nói rằng Phục hồi lại

Hiểu. Nhưng tôi nghĩ rằng chúng ta có thể đồng ý rằng câu hỏi được tải cụ thể để thách thức tính hữu dụng của nó vì nó thực sự không phải là cách tốt nhất để thường xuyên mặc dù có sự hấp dẫn trực quan của nó
Shadowtalker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.