Người ta có thể xây dựng các mô hình tuyến tính trên các khối dữ liệu của bộ dữ liệu không, nếu một người không thể xây dựng chúng trên toàn bộ tập dữ liệu?


7

Người ta có thể xây dựng các mô hình tuyến tính trên "khối" của tập dữ liệu không, nếu người ta không thể xây dựng chúng trên toàn bộ tập dữ liệu?

Đặc biệt, tôi vẫn còn hơn 88k biến (tính năng) và người ta không thể làm gì nhiều với chúng mà không có bộ nhớ lớn. Nhưng việc thực hiện các mô hình trên "các khối" có làm mất các tương tác xảy ra giữa các khối hoặc có một số kỹ thuật để "tổng hợp" các khối này không?


1
đào tạo các mô hình tuyến tính và mạng nơ-ron (mô hình phi tuyến) với SGD là viết tắt của độ dốc dốc ngẫu nhiên. Thủ thuật rất đơn giản, bạn tính toán độ dốc của tổn thất trên một lô ngẫu nhiên và cập nhật các trọng số.
Fadi Bakoura

Câu trả lời:


6

Nếu "biến" chỉ các ví dụ đào tạo:

Bạn có thể sử dụng Stochastic Gradient Descent (SGD) trong đó mỗi lần lặp sử dụng một ví dụ đào tạo.

Hoặc bạn có thể sử dụng Mini-Batch Gradient Descent trong đó mỗi lần lặp sử dụng một phân vùng của tập huấn luyện. SGD là Mini-Batch Gradient Descent trong đó kích thước phân vùng là một ví dụ đào tạo.


Nếu "biến" đề cập đến các tính năng:

Bạn nên sử dụng giảm kích thước để giảm số lượng tính năng của bạn. Chẳng hạn, bạn có thể sử dụng Phân tích thành phần chính (PCA) để giảm kích thước vectơ đặc trưng của mình trong khi vẫn duy trì phương sai cao. Điều này cũng sẽ giúp mô hình của bạn đào tạo nhanh hơn đáng kể.


lưu ý phụ: Nếu "biến" đề cập đến các tính năng và bạn có nhiều điểm dữ liệu, bạn có thể sử dụng Bộ mã hóa tự động để trích xuất các biểu diễn nhỏ gọn hơn. xem VAE, DAE. SAE, CAE
Fadi Bakoura
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.