Máy học cực đoan: tất cả là gì?


19

Tôi đã suy nghĩ, thực hiện và sử dụng mô hình Extreme Learning Machine (ELM) trong hơn một năm nay và càng làm lâu, tôi càng nghi ngờ rằng đó thực sự là một điều tốt. Tuy nhiên, ý kiến ​​của tôi dường như trái ngược với cộng đồng khoa học nơi - khi sử dụng trích dẫn và các ấn phẩm mới làm thước đo - nó dường như là một chủ đề nóng.

ELM đã được giới thiệu bởi Huang et. al. khoảng năm 2003. Ý tưởng cơ bản khá đơn giản: bắt đầu với mạng nơ ron nhân tạo 2 lớp và gán ngẫu nhiên các hệ số trong lớp đầu tiên. Điều này, một biến đổi vấn đề tối ưu hóa phi tuyến tính thường được xử lý thông qua backpropagation thành một vấn đề hồi quy tuyến tính đơn giản. Chi tiết hơn, với , mô hình làxRD

f(x)=i=1Nhiddenwiσ(vi0+k=1Dvikxk).

Bây giờ, chỉ có được điều chỉnh (để giảm thiểu mất bình phương lỗi-lỗi), trong khi các đều được chọn ngẫu nhiên. Để bù đắp cho sự mất mát về mức độ tự do, đề xuất thông thường là sử dụng một số lượng lớn các nút ẩn (ví dụ: tham số miễn phí ).v i k w iwivikwi

Từ một góc độ (không phải là người thường phát huy trong các tài liệu, mà xuất phát từ phía mạng thần kinh), toàn bộ thủ tục chỉ đơn giản là hồi quy tuyến tính, nhưng một trong những nơi bạn chọn chức năng cơ sở của bạn ngẫu nhiên, ví dụϕ

ϕi(x)=σ(vi0+k=1Dvikxk).

(Nhiều lựa chọn khác bên cạnh sigmoid có thể cho các hàm ngẫu nhiên. Chẳng hạn, nguyên tắc tương tự cũng đã được áp dụng bằng các hàm cơ sở xuyên tâm.)

Từ quan điểm này, toàn bộ phương pháp trở nên quá đơn giản và đây cũng là điểm khiến tôi bắt đầu nghi ngờ rằng phương pháp này thực sự là một phương pháp tốt (... trong khi tiếp thị khoa học của nó chắc chắn là). Vì vậy, đây là những câu hỏi của tôi:

  • Ý tưởng để raster không gian đầu vào bằng cách sử dụng các hàm cơ sở ngẫu nhiên, theo tôi, tốt cho kích thước thấp. Trong các chiều cao, tôi nghĩ rằng không thể tìm thấy một lựa chọn tốt bằng cách sử dụng lựa chọn ngẫu nhiên với số lượng cơ sở hợp lý. Do đó, ELM có suy giảm kích thước cao (do lời nguyền của chiều không)?

  • Bạn có biết kết quả thí nghiệm ủng hộ / mâu thuẫn với ý kiến ​​này không? Trong bài báo được liên kết chỉ có một bộ dữ liệu hồi quy 27 chiều (PYRIM) trong đó phương thức thực hiện tương tự như SVM (trong khi tôi muốn xem so sánh với ANN backpropagation)

  • Tổng quát hơn, tôi muốn ở đây nhận xét của bạn về phương pháp ELM.


Xem ở đây để biết toàn bộ câu chuyện: theanonymousemail.com/view/?msg=ZHEZJ1AJ
davidhigh

Câu trả lời:


10

Trực giác của bạn về việc sử dụng ELM cho các vấn đề chiều cao là chính xác, tôi có một số kết quả về điều này, mà tôi đang chuẩn bị xuất bản. Đối với nhiều vấn đề thực tế, dữ liệu không phải là phi tuyến tính và ELM hoạt động khá tốt, nhưng sẽ luôn có các bộ dữ liệu trong đó lời nguyền về chiều có nghĩa là cơ hội tìm thấy một hàm cơ sở tốt với độ cong ngay khi bạn cần nó trở nên nhỏ, thậm chí với nhiều vectơ cơ sở.

Cá nhân tôi sẽ sử dụng một cái gì đó giống như một máy vectơ hỗ trợ bình phương nhỏ nhất (hoặc mạng chức năng cơ sở xuyên tâm) và thử và chọn các vectơ cơ sở từ những người trong tập huấn theo cách tham lam (ví dụ như bài viết của tôi , nhưng có khác / tốt hơn các cách tiếp cận đã được xuất bản cùng thời gian, ví dụ như trong cuốn sách rất hay của Scholkopf và Smola về "Học với hạt nhân"). Tôi nghĩ rằng tốt hơn là tính toán một giải pháp gần đúng cho vấn đề chính xác, thay vì một giải pháp chính xác cho một vấn đề gần đúng và các máy hạt nhân có nền tảng lý thuyết tốt hơn (đối với một hạt nhân cố định; o).


1
+1. Tôi chưa bao giờ nghe về ELM trước đây, nhưng từ mô tả trong OP nghe có vẻ hơi giống máy trạng thái lỏng (LSM): kết nối mạng ngẫu nhiên và chỉ tối ưu hóa các trọng số đọc. Tuy nhiên, trong LSM, "hồ chứa" ngẫu nhiên được tái phát, trong khi đó trong ELM, nó là nguồn cấp dữ liệu. Đó thực sự là sự tương đồng và khác biệt?
amip nói rằng Phục hồi lại

1
Cảm ơn bạn đã trả lời tốt, xin vui lòng cập nhật câu trả lời khi bài báo của bạn đã được xuất bản. Về kernel: tất nhiên bạn cũng có phiên bản "kernel" của ELM. Chỉ cần thay thế sigmoid ở trên bằng một số kernel (không nhất thiết phải xác định dương) và chọn ngẫu nhiên rất nhiều . Cùng một "mánh" ở đây như trong ELM gốc, cùng một vấn đề. Các phương pháp mà bạn đề cập để chọn các trung tâm cũng có tầm quan trọng trực tiếp ở đây (ngay cả khi chức năng mục tiêu trong ELM và SVM khác nhau) ... điều này có thể biến nó từ phương pháp "hoàn toàn mù" thành phương pháp "mù hoàn toàn". x ik(x,xi)xi
davidhigh

@amoeba: Tôi không biết máy trạng thái lỏng, nhưng từ những gì bạn nói thì nghe có vẻ rất giống ... và tất nhiên, về mặt kỹ thuật thì tổng quát hơn. Tuy nhiên, recurrency chỉ thêm một dạng ngẫu nhiên phức tạp hơn cho vấn đề, mà theo tôi không giải quyết được các vấn đề về lời nguyền (... nhưng ok, ai làm điều này?). Là những trọng số tái chế được lựa chọn với một số chăm sóc hoặc cũng hoàn toàn ngẫu nhiên?
davidhigh

@davidhigh cho một hạt nhân RBF, "định lý representer" cho thấy rằng không có giải pháp nào tốt hơn là tập trung vào một hàm cơ sở trên mỗi mẫu đào tạo (đưa ra một số giả định hợp lý về hàm chi phí thường xuyên). Đây là một trong những tính năng hay của các phương thức kernel (và splines), vì vậy không cần phải trải rộng chúng một cách ngẫu nhiên. Nhân tiện, việc xây dựng một mô hình tuyến tính trên đầu ra của các hàm cơ sở được chọn ngẫu nhiên có một lịch sử rất dài, yêu thích của tôi là lớp duy nhất tìm kiếm perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 nhưng tôi có thể bị thiên vị!
Dikran Marsupial

1
@DikranMarsupial bạn đã xuất bản hay bạn có sẵn bất cứ điều gì trước khi xuất bản không?
Tom Hale

0

ELM "học" từ dữ liệu bằng cách phân tích giải quyết các trọng số đầu ra. Do đó, dữ liệu được đưa vào mạng càng lớn sẽ tạo ra kết quả tốt hơn. Tuy nhiên, điều này cũng đòi hỏi số lượng nút ẩn nhiều hơn. Nếu ELM được đào tạo với ít hoặc không có lỗi, khi được cung cấp một bộ đầu vào mới, nó không thể tạo ra đầu ra chính xác.

Ưu điểm chính của ELM so với mạng lưới thần kinh truyền thống như vậy là sự lan truyền ngược là thời gian đào tạo nhanh. Hầu hết thời gian tính toán được dành cho việc giải quyết trọng lượng lớp đầu ra như được đề cập trong bài báo Huang.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.