Xô hóa là gì?

10

Tôi đã đi khắp nơi để tìm một lời giải thích rõ ràng về "xô" trong học máy mà không gặp may. Những gì tôi hiểu cho đến nay là xô hóa tương tự như lượng tử hóa trong xử lý tín hiệu số trong đó một loạt các giá trị liên tục được thay thế bằng một giá trị riêng biệt. Điều này có đúng không?

Những ưu và nhược điểm (bên cạnh tác động rõ ràng của việc mất thông tin) của việc áp dụng xô là gì? Có bất kỳ quy tắc nào về cách áp dụng xô? Có bất kỳ hướng dẫn / thuật toán nào để áp dụng xô hóa trước khi áp dụng học máy không?

machine-learning dataset data-preprocessing

— MedAli
nguồn

Tôi có thể không có câu trả lời chính xác nhưng phân loại thô và phân loại tốt [WoE và IV] giúp trong quá trình xô. Xin lỗi nếu đây không phải là điều bạn đã mong đợi.

— Srikanth Guhan

4

Đây là một chủ đề rộng, và bạn sẽ gặp một loạt lý do tại sao dữ liệu nên, hoặc đã bị xô lệch. Không phải tất cả chúng đều liên quan đến độ chính xác dự đoán.

Đầu tiên, đây là một ví dụ mà người lập mô hình có thể muốn xô. Giả sử tôi đang xây dựng mô hình chấm điểm tín dụng: Tôi muốn biết xu hướng của mọi người để mặc định cho khoản vay. Trong dữ liệu của tôi, tôi có một cột cho biết trạng thái của báo cáo tín dụng. Đó là, tôi đã đặt hàng báo cáo từ một cơ quan xếp hạng và cơ quan này đã trả lại, nói rằng, điểm số độc quyền của họ, cùng với một biến phân loại cho thấy độ tin cậy của điểm số này. Chỉ số này có thể bị phạt nhiều hơn so với tôi cần cho mục đích của tôi. Ví dụ: "không đủ thông tin cho điểm đáng tin cậy" có thể được chia thành nhiều lớp như "dưới 20 tuổi", "gần đây đã chuyển đến quốc gia", "không có lịch sử tín dụng trước", v.v. có thể dân cư thưa thớt, và do đó khá vô dụng trong hồi quy hoặc mô hình khác. Để giải quyết vấn đề này, tôi có thể muốn gộp các lớp lại với nhau để hợp nhất sức mạnh thống kê thành một lớp "đại diện". Ví dụ, tôi chỉ có thể sử dụng một chỉ báo nhị phân "thông tin tốt được trả về" so với "không có thông tin nào được trả lại". Theo kinh nghiệm của tôi, nhiều ứng dụng của xô hóa rơi vào vị trí nàysụp đổ của các loại thể loại dân cư thưa thớt .

Một số thuật toán sử dụng xô trong nội bộ. Ví dụ, cây phù hợp với các thuật toán tăng cường thường dành phần lớn thời gian của chúng trong bước tóm tắt, trong đó dữ liệu liên tục trong mỗi nút được phân tách và giá trị trung bình của phản hồi trong mỗi nhóm được tính toán. Điều này làm giảm đáng kể độ phức tạp tính toán của việc tìm kiếm một sự phân chia thích hợp, mà không phải hy sinh nhiều về độ chính xác do sự tăng cường.

Bạn cũng có thể chỉ cần nhận dữ liệu được đóng gói sẵn. Dữ liệu rời rạc dễ nén và lưu trữ hơn - một dãy dài các số dấu phẩy động không thể nén được, nhưng khi được phân tách thành "cao", "trung bình" và "thấp", bạn có thể tiết kiệm rất nhiều không gian trong cơ sở dữ liệu của mình. Dữ liệu của bạn cũng có thể từ một nguồn được nhắm mục tiêu vào một ứng dụng không mô hình hóa. Điều này có xu hướng xảy ra rất nhiều khi tôi nhận được dữ liệu từ các tổ chức làm công việc phân tích ít hơn. Dữ liệu của họ thường được sử dụng để báo cáo và được tóm tắt ở mức cao để giúp giải thích các báo cáo cho giáo dân. Dữ liệu này vẫn có thể hữu ích, nhưng thường mất một số năng lượng.

Những gì tôi thấy ít giá trị hơn, mặc dù có thể tôi có thể sửa được, đó là tiền xử lý các phép đo liên tục cho các mục đích mô hình hóa. Có rất nhiều phương pháp rất mạnh để phù hợp với các hiệu ứng phi tuyến tính cho các yếu tố dự đoán liên tục, và buckeization loại bỏ khả năng sử dụng của bạn. Tôi có xu hướng xem đây là một thực hành xấu.

— Matthew Drury
nguồn

4

Theo bài báo "Khoa học dữ liệu cấp thấp so với cấp độ thấp" là

Bước xô hóa (đôi khi được gọi là đóng gói đa biến) bao gồm xác định các số liệu (và kết hợp 2-3 số liệu) với khả năng dự đoán cao, kết hợp và xử lý chúng một cách thích hợp, để giảm phương sai trong nhóm trong khi giữ cho các thùng đủ lớn.

Vì vậy, sự hiểu biết của tôi là bạn tham lam bin dữ liệu theo các tính năng dự đoán nhất, sau đó phân tích các nhóm nhỏ.

— Arthur B.
nguồn