Đây là một chủ đề rộng, và bạn sẽ gặp một loạt lý do tại sao dữ liệu nên, hoặc đã bị xô lệch. Không phải tất cả chúng đều liên quan đến độ chính xác dự đoán.
Đầu tiên, đây là một ví dụ mà người lập mô hình có thể muốn xô. Giả sử tôi đang xây dựng mô hình chấm điểm tín dụng: Tôi muốn biết xu hướng của mọi người để mặc định cho khoản vay. Trong dữ liệu của tôi, tôi có một cột cho biết trạng thái của báo cáo tín dụng. Đó là, tôi đã đặt hàng báo cáo từ một cơ quan xếp hạng và cơ quan này đã trả lại, nói rằng, điểm số độc quyền của họ, cùng với một biến phân loại cho thấy độ tin cậy của điểm số này. Chỉ số này có thể bị phạt nhiều hơn so với tôi cần cho mục đích của tôi. Ví dụ: "không đủ thông tin cho điểm đáng tin cậy" có thể được chia thành nhiều lớp như "dưới 20 tuổi", "gần đây đã chuyển đến quốc gia", "không có lịch sử tín dụng trước", v.v. có thể dân cư thưa thớt, và do đó khá vô dụng trong hồi quy hoặc mô hình khác. Để giải quyết vấn đề này, tôi có thể muốn gộp các lớp lại với nhau để hợp nhất sức mạnh thống kê thành một lớp "đại diện". Ví dụ, tôi chỉ có thể sử dụng một chỉ báo nhị phân "thông tin tốt được trả về" so với "không có thông tin nào được trả lại". Theo kinh nghiệm của tôi, nhiều ứng dụng của xô hóa rơi vào vị trí nàysụp đổ của các loại thể loại dân cư thưa thớt .
Một số thuật toán sử dụng xô trong nội bộ. Ví dụ, cây phù hợp với các thuật toán tăng cường thường dành phần lớn thời gian của chúng trong bước tóm tắt, trong đó dữ liệu liên tục trong mỗi nút được phân tách và giá trị trung bình của phản hồi trong mỗi nhóm được tính toán. Điều này làm giảm đáng kể độ phức tạp tính toán của việc tìm kiếm một sự phân chia thích hợp, mà không phải hy sinh nhiều về độ chính xác do sự tăng cường.
Bạn cũng có thể chỉ cần nhận dữ liệu được đóng gói sẵn. Dữ liệu rời rạc dễ nén và lưu trữ hơn - một dãy dài các số dấu phẩy động không thể nén được, nhưng khi được phân tách thành "cao", "trung bình" và "thấp", bạn có thể tiết kiệm rất nhiều không gian trong cơ sở dữ liệu của mình. Dữ liệu của bạn cũng có thể từ một nguồn được nhắm mục tiêu vào một ứng dụng không mô hình hóa. Điều này có xu hướng xảy ra rất nhiều khi tôi nhận được dữ liệu từ các tổ chức làm công việc phân tích ít hơn. Dữ liệu của họ thường được sử dụng để báo cáo và được tóm tắt ở mức cao để giúp giải thích các báo cáo cho giáo dân. Dữ liệu này vẫn có thể hữu ích, nhưng thường mất một số năng lượng.
Những gì tôi thấy ít giá trị hơn, mặc dù có thể tôi có thể sửa được, đó là tiền xử lý các phép đo liên tục cho các mục đích mô hình hóa. Có rất nhiều phương pháp rất mạnh để phù hợp với các hiệu ứng phi tuyến tính cho các yếu tố dự đoán liên tục, và buckeization loại bỏ khả năng sử dụng của bạn. Tôi có xu hướng xem đây là một thực hành xấu.