Bạn có phải chuẩn hóa dữ liệu khi xây dựng cây quyết định bằng R không?

Vì vậy, dữ liệu của chúng tôi được thiết lập trong tuần này có 14 thuộc tính và mỗi cột có các giá trị rất khác nhau. Một cột có các giá trị dưới 1 trong khi một cột khác có các giá trị đi từ ba đến bốn chữ số.

Chúng tôi đã học được bình thường hóa vào tuần trước và có vẻ như bạn phải bình thường hóa dữ liệu khi chúng có các giá trị rất khác nhau. Đối với cây quyết định, trường hợp có giống nhau không?

Tôi không chắc về điều này nhưng việc chuẩn hóa có ảnh hưởng đến cây quyết định kết quả từ cùng một tập dữ liệu không? Có vẻ như không nên nhưng ...

r beginner

— Jae
nguồn

Hầu hết các loại cây quyết định phổ biến mà bạn gặp phải không bị ảnh hưởng bởi bất kỳ chuyển đổi đơn điệu nào. Vì vậy, miễn là bạn bảo tồn orde, các cây quyết định là như nhau (rõ ràng bởi cùng một cây ở đây tôi hiểu cùng một cấu trúc quyết định, không phải là các giá trị giống nhau cho mỗi thử nghiệm trong mỗi nút của cây).

Lý do tại sao nó xảy ra là vì cách các hàm tạp chất thông thường hoạt động. Để tìm phân chia tốt nhất, nó tìm kiếm trên mỗi thứ nguyên (thuộc tính) một điểm phân chia về cơ bản là một mệnh đề if nhóm các giá trị đích tương ứng với các phiên bản có giá trị kiểm tra nhỏ hơn giá trị phân tách và bên phải các giá trị lớn hơn bằng nhau. Điều này xảy ra đối với các thuộc tính số (mà tôi nghĩ là trường hợp của bạn vì tôi không biết cách bình thường hóa một thuộc tính danh nghĩa). Bây giờ bạn có thể lưu ý rằng các tiêu chí nhỏ hơn hoặc lớn hơn. Điều đó có nghĩa là thông tin thực từ các thuộc tính để tìm phân chia (và toàn bộ cây) chỉ là thứ tự của các giá trị. Điều đó có nghĩa là miễn là bạn biến đổi các thuộc tính của mình theo cách mà thứ tự ban đầu được bảo lưu, bạn sẽ nhận được cùng một cây.

Không phải tất cả các mô hình là không nhạy cảm với loại chuyển đổi như vậy. Ví dụ, mô hình hồi quy tuyến tính cho kết quả tương tự nếu bạn nhân một thuộc tính với giá trị khác 0. Bạn sẽ nhận được các hệ số hồi quy khác nhau, nhưng giá trị dự đoán sẽ giống nhau. Đây không phải là trường hợp khi bạn ghi nhật ký chuyển đổi đó. Vì vậy, đối với hồi quy tuyến tính, ví dụ, chuẩn hóa là vô ích vì nó sẽ cung cấp kết quả tương tự.

Tuy nhiên đây không phải là trường hợp với hồi quy tuyến tính bị phạt, như hồi quy sườn. Trong hồi quy tuyến tính bị phạt, một ràng buộc được áp dụng cho các hệ số. Ý tưởng là ràng buộc được áp dụng cho tổng hàm của các hệ số. Bây giờ nếu bạn thổi phồng một thuộc tính, hệ số sẽ bị xì hơi, điều đó có nghĩa là cuối cùng hình phạt cho hệ số đó sẽ được sửa đổi một cách giả tạo. Trong tình huống như vậy, bạn bình thường hóa các thuộc tính để mỗi hệ số được ràng buộc 'công bằng'.

Hy vọng nó giúp

— rapaio
nguồn