Có cần thiết phải thực hiện chuẩn hóa cho SVM và Rừng ngẫu nhiên không?


Câu trả lời:


29

Câu trả lời cho câu hỏi của bạn phụ thuộc vào chức năng tương tự / khoảng cách mà bạn dự định sử dụng (trong SVM). Nếu đó là khoảng cách Euclide đơn giản (không trọng số), thì nếu bạn không bình thường hóa dữ liệu của mình, bạn sẽ vô tình đưa ra một số tính năng quan trọng hơn các tính năng khác.

Ví dụ: nếu thứ nguyên thứ nhất của bạn nằm trong khoảng từ 0-10 và thứ nguyên thứ hai từ 0-1, thì chênh lệch 1 trong thứ nguyên thứ nhất (chỉ bằng một phần mười của phạm vi) đóng góp nhiều vào tính toán khoảng cách như hai giá trị cực kỳ khác nhau trong chiều thứ hai (0 và 1). Vì vậy, bằng cách này, bạn đang phóng đại những khác biệt nhỏ trong chiều thứ nhất. Tất nhiên, bạn có thể đưa ra chức năng khoảng cách tùy chỉnh hoặc cân nhắc kích thước của mình theo ước tính của chuyên gia, nhưng điều này sẽ dẫn đến rất nhiều thông số có thể điều chỉnh tùy thuộc vào chiều của dữ liệu của bạn. Trong trường hợp này, chuẩn hóa là một con đường dễ dàng hơn (mặc dù không nhất thiết là lý tưởng) bởi vì ít nhất bạn có thể bắt đầu.

Cuối cùng, vẫn dành cho các SVM, một điều khác bạn có thể làm là đưa ra một hàm tương tự chứ không phải là một hàm khoảng cách và cắm nó vào như một hạt nhân (về mặt kỹ thuật, hàm này phải tạo ra ma trận xác định dương). Chức năng này có thể được xây dựng theo bất kỳ cách nào bạn thích và có thể tính đến sự chênh lệch trong phạm vi các tính năng.

Mặt khác, đối với các khu rừng ngẫu nhiên, vì một tính năng không bao giờ được so sánh về độ lớn với các tính năng khác, nên các phạm vi không quan trọng. Đó chỉ là phạm vi của một tính năng được phân chia ở mỗi giai đoạn.


12

Rừng ngẫu nhiên là bất biến đối với các biến đổi đơn điệu của các tính năng riêng lẻ. Các bản dịch hoặc mỗi tỷ lệ tính năng sẽ không thay đổi bất cứ điều gì cho Khu rừng ngẫu nhiên. SVM có thể sẽ làm tốt hơn nếu các tính năng của bạn có cùng độ lớn, trừ khi bạn biết apriori rằng một số tính năng quan trọng hơn nhiều so với các tính năng khác, trong trường hợp đó, nó có thể có cường độ lớn hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.