Tại sao một số loại mô hình cho kết quả gần như giống hệt nhau?

10

Tôi đã phân tích một tập dữ liệu gồm ~ 400k bản ghi và 9 biến Biến phụ thuộc là nhị phân. Tôi đã trang bị hồi quy logistic, cây hồi quy, rừng ngẫu nhiên và cây tăng cường độ dốc. Tất cả chúng đều cho độ tốt giống hệt ảo của các số phù hợp khi tôi xác thực chúng trên một tập dữ liệu khác.

Tại sao cái này rất? Tôi đoán rằng đó là vì những quan sát của tôi về tỷ lệ biến rất cao. Nếu điều này là chính xác, tại quan sát tỷ lệ biến nào, các mô hình khác nhau sẽ bắt đầu cho kết quả khác nhau?

data-mining classification binary

— JenSCDC
nguồn

7

Kết quả này có nghĩa là bất kỳ phương pháp nào bạn sử dụng, bạn đều có thể tiến gần đến quy tắc quyết định tối ưu (còn gọi là quy tắc Bayes ). Những lý do cơ bản đã được giải thích trong "Các yếu tố học tập thống kê" của Hastie, Tibshirani và Friedman . Họ đã chứng minh làm thế nào các phương pháp khác nhau thực hiện bằng cách so sánh Figs. 2.1, 2.2, 2.3, 5.11 (trong phiên bản đầu tiên của tôi - trong phần về spline đa chiều), 12.2, 12.3 (máy vectơ hỗ trợ), và có lẽ một số khác. Nếu bạn chưa đọc cuốn sách đó, bạn cần bỏ mọi thứ NGAY BÂY GIỜ và đọc nó lên. (Ý tôi là, không đáng để mất việc, nhưng đáng để thiếu một hoặc hai bài tập về nhà nếu bạn là sinh viên.)

Tôi không nghĩ rằng quan sát tỷ lệ thay đổi là lời giải thích. Theo lý do của tôi đưa ra ở trên, đây là dạng ranh giới tương đối đơn giản ngăn cách các lớp của bạn trong không gian đa chiều mà tất cả các phương pháp bạn đã thử có thể xác định được.

— StasK
nguồn

Tôi sẽ hỏi sếp của tôi nếu tôi có thể khiến công ty trả tiền cho nó.

— JenSCDC

1

ESL là 'miễn phí' dưới dạng pdf từ trang chủ của họ ... cũng đáng tải xuống là ISL (bởi nhiều tác giả) - thực tế hơn www-bcf.usc.edu/~gareth/ISL

— seanv507

4

giá trị của nó cũng nhìn vào các lỗi đào tạo.

về cơ bản tôi không đồng ý với phân tích của bạn. nếu hồi quy logistic, v.v ... đều cho kết quả giống nhau, thì nó sẽ gợi ý rằng 'mô hình tốt nhất' là một mô hình rất đơn giản (tất cả các mô hình có thể phù hợp tốt như nhau - ví dụ về cơ bản tuyến tính).

Vì vậy, câu hỏi có thể là tại sao mô hình tốt nhất là một mô hình đơn giản?: Nó có thể gợi ý rằng các biến của bạn không mang tính dự đoán cao. Tất nhiên là khó để phân tích mà không biết dữ liệu.

— seanv507
nguồn

1

Như @ seanv507 đã đề xuất, hiệu suất tương tự có thể đơn giản là do dữ liệu được phân tách tốt nhất bằng mô hình tuyến tính. Nhưng nói chung, tuyên bố rằng đó là do "quan sát tỷ lệ biến quá cao" là không chính xác. Ngay cả khi tỷ lệ kích thước mẫu của bạn với số lượng biến số là vô cùng, bạn không nên mong đợi các mô hình khác nhau thực hiện gần như giống hệt nhau, trừ khi tất cả chúng đều cung cấp cùng một xu hướng dự đoán.

— bogatron
nguồn

Tôi chỉ chỉnh sửa câu hỏi của tôi để thêm rằng biến phụ thuộc là nhị phân. Do đó, một mô hình tuyến tính không phù hợp.

— JenSCDC

"bạn không nên mong đợi các mô hình khác nhau thực hiện gần như giống hệt nhau, trừ khi tất cả chúng đều cung cấp cùng một xu hướng dự đoán." Tôi đã sử dụng MAE và tỷ lệ thực tế so với kết quả dự đoán là các biện pháp xác nhận và tỷ lệ rất gần nhau.

— JenSCDC

1

Andy, tôi sẽ bao gồm hồi quy logistic (và SVM tuyến tính) dưới dạng mô hình 'tuyến tính'. Tất cả chúng chỉ phân tách dữ liệu bằng một tổng trọng số của các đầu vào.

— seanv507

1

@ seanv507 Chính xác - ranh giới quyết định vẫn là tuyến tính. Thực tế là phân loại nhị phân đang được thực hiện không thay đổi điều đó.

— bogatron

Còn cây thì sao? Họ thực sự không có vẻ tuyến tính với tôi.

— JenSCDC

0

Tôi đoán rằng đó là vì những quan sát của tôi về tỷ lệ biến rất cao.

Tôi nghĩ rằng lời giải thích này có ý nghĩa hoàn hảo.

Nếu điều này là chính xác, tại quan sát tỷ lệ biến nào, các mô hình khác nhau sẽ bắt đầu cho kết quả khác nhau?

Điều này có thể sẽ phụ thuộc rất nhiều vào dữ liệu cụ thể của bạn (ví dụ, ngay cả khi chín biến của bạn là liên tục, các yếu tố, thông thường hoặc nhị phân), cũng như bất kỳ quyết định điều chỉnh nào bạn đưa ra trong khi điều chỉnh mô hình của mình.

Nhưng bạn có thể chơi xung quanh với tỷ lệ quan sát biến - không phải bằng cách tăng số lượng biến, mà bằng cách giảm số lượng quan sát. Vẽ ngẫu nhiên 100 quan sát, mô hình phù hợp và xem liệu các mô hình khác nhau mang lại kết quả khác nhau. (Tôi đoán họ sẽ làm.) Làm điều này nhiều lần với các mẫu khác nhau được rút ra từ tổng số quan sát của bạn. Sau đó nhìn vào các mẫu phụ của 1.000 quan sát ... 10.000 quan sát ... và vv.

— Stephan Kolass
nguồn

1

Hừm tại sao vậy? nhiều quan sát hơn dường như làm tăng khả năng ranh giới quyết định phức tạp hơn - tức là chắc chắn không tuyến tính. Và những mô hình này làm những việc khác nhau trong những trường hợp phức tạp và có xu hướng làm tương tự trong những trường hợp đơn giản.

— Sean Owen

@SeanOwen: Tôi nghĩ tôi không hiểu bình luận của bạn. Phần nào trong câu trả lời của tôi "tại sao lại như vậy" đề cập đến? OP không nói gì về việc sử dụng ranh giới quyết định tuyến tính - sau tất cả, anh ta có thể bằng cách chuyển đổi các yếu tố dự đoán theo một cách nào đó.

— Stephan Kolassa

Tại sao nhiều quan sát hơn làm cho các phân loại khác nhau đưa ra quyết định tương tự nhiều hơn? trực giác của tôi thì ngược lại. Vâng, tôi không nghĩ về ranh giới quyết định tuyến tính. Ranh giới tối ưu càng phức tạp thì càng ít khả năng tất cả chúng sẽ phù hợp với thứ tương tự ranh giới đó. Và ranh giới có xu hướng phức tạp hơn với nhiều quan sát hơn.

— Sean Owen