Trộn dữ liệu là gì?


15

Thuật ngữ này xuất hiện thường xuyên trong các chủ đề liên quan đến phương pháp .

pha trộn một phương pháp cụ thể trong khai thác dữ liệu và học thống kê? Tôi không thể nhận được một kết quả có liên quan từ google.

Có vẻ như sự pha trộn đang trộn lẫn kết quả từ nhiều mô hình và dẫn đến một kết quả tốt hơn. Có tài nguyên nào giúp tôi biết thêm về nó không?

Câu trả lời:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.auge/caruana.icml04.icdm06long.pdf Một số giấy tờ để giúp bạn hiểu thêm về pha trộn là gì. Tôi nghĩ rằng bạn cũng có thể google để lựa chọn / học tập, và xếp chồng là tốt.

Hiểu biết chung của bạn về 'trộn lẫn kết quả từ nhiều mô hình và dẫn đến kết quả tốt hơn' là chính xác.


Liên kết đó đã được lấy từ một nơi nào đó trong diễn đàn kaggle. Tôi chỉ lưu liên kết của pdf nhưng không phải là cuộc thảo luận ...
King

12

Tăng cường (như đã đề cập trong cuộc thảo luận được liên kết) là một phương pháp kết hợp một tập hợp các thuật toán để có được kết quả tốt hơn những gì bạn có thể nhận được từ bất kỳ thuật toán đơn lẻ nào. Ví dụ, rừng ngẫu nhiên là một phương pháp để kết hợp các cây phân loại khác nhau cho một thuật toán phân loại. Cách tiếp cận này được chính thức gọi là tính trung bình của quần thể (mặc dù thuật toán thường áp dụng quy tắc đa số). Pha trộn dường như là một từ mà một số người sử dụng để mô tả một cách tiếp cận thúc đẩy để phân loại.


Vì vậy, điều này có thể được gọi là pha trộn, nếu tôi thay thế các cây phân loại trong một mô hình adaboost bình thường bằng các thuật toán khác?
TomHall

Xin chào, Michael. Câu trả lời của bạn thực sự hữu ích nhưng thật xấu hổ cho tôi, tôi mới biết về số liệu thống kê và chưa có đủ danh tiếng để bỏ phiếu cho câu trả lời của bạn.
TomHall

1
Vậy thì hãy nhớ làm điều đó sau khi bạn nhận được một vài điểm đại diện.
Michael R. Chernick

0

Trong công nghiệp, trộn dữ liệu không phải là về các mô hình mà là về tiền xử lý : Đó là khi dữ liệu được hợp nhất đến từ các nguồn khác nhau, như một từ cơ sở dữ liệu và dữ liệu khác từ các tệp CSV.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.