Bạn có thể tập luyện quá sức bằng cách đào tạo các thuật toán học máy bằng CV / Bootstrap không?


34

Câu hỏi này có thể quá mở để có câu trả lời dứt khoát, nhưng hy vọng là không.

Các thuật toán học máy, chẳng hạn như SVM, GBM, Rừng ngẫu nhiên, v.v., thường có một số tham số miễn phí, ngoài một số quy tắc hướng dẫn ngón tay cái, cần phải được điều chỉnh theo từng bộ dữ liệu. Điều này thường được thực hiện với một số loại kỹ thuật lấy mẫu lại (bootstrap, CV, v.v.) để phù hợp với tập hợp các tham số đưa ra lỗi tổng quát hóa tốt nhất.

Câu hỏi của tôi là, bạn có thể đi quá xa ở đây? Mọi người nói về việc thực hiện tìm kiếm lưới như vậy, nhưng tại sao không đơn giản coi đây là một vấn đề tối ưu hóa và đi sâu vào tập hợp các tham số tốt nhất có thể? Tôi đã hỏi về một số cơ chế của vấn đề này trong câu hỏi này , nhưng nó đã không nhận được nhiều sự chú ý. Có thể câu hỏi đã được hỏi rất tệ, nhưng có lẽ chính câu hỏi đó thể hiện một cách tiếp cận tồi tệ mà mọi người thường không làm?

Điều làm phiền tôi là sự thiếu chính quy. Tôi có thể tìm thấy bằng cách lấy mẫu lại rằng số cây tốt nhất để tăng trong GBM cho tập dữ liệu này là 647 với độ sâu tương tác là 4, nhưng tôi có thể chắc chắn rằng điều này sẽ đúng với dữ liệu mới (giả sử dân số mới có giống với tập huấn luyện không)? Không có giá trị hợp lý để 'thu nhỏ' thành (hoặc nếu bạn muốn, không có thông tin trước thông tin) lấy mẫu lại có vẻ như là cách tốt nhất chúng ta có thể làm. Tôi chỉ không nghe thấy bất kỳ cuộc nói chuyện nào về việc này, vì vậy nó khiến tôi tự hỏi liệu có điều gì tôi đang thiếu.

Rõ ràng có một chi phí tính toán lớn liên quan đến việc thực hiện nhiều lần lặp để vắt kiệt sức mạnh dự đoán cuối cùng của một mô hình, vì vậy rõ ràng đây là điều bạn sẽ làm nếu bạn có thời gian / tối ưu để thực hiện tối ưu hóa và từng chút một cải thiện hiệu suất là có giá trị.


CV có thể được sử dụng cho những thứ khác nhau. Để rõ ràng, khi bạn nói 'tìm kiếm lưới' hoặc 'điều chỉnh siêu tham số', bạn đang nói về lựa chọn mô hình , không phải lựa chọn tính năng hoặc thậm chí chỉ ước tính lỗi phân loại.
smci

Câu trả lời:


30

Có một câu trả lời dứt khoát cho câu hỏi này là "có, chắc chắn có thể phù hợp với tiêu chí lựa chọn mô hình dựa trên xác thực chéo và kết thúc với một mô hình có khái quát kém! ". Theo quan điểm của tôi, điều này dường như không được đánh giá cao, nhưng là một cạm bẫy đáng kể trong việc áp dụng các phương pháp học máy, và là trọng tâm chính của nghiên cứu hiện tại của tôi; Tôi đã viết hai bài báo về chủ đề này cho đến nay

GC Cawley và NLC Talbot, Quá phù hợp trong lựa chọn mô hình và sai lệch lựa chọn tiếp theo trong đánh giá hiệu suất, Tạp chí Nghiên cứu Máy học, 2010. Nghiên cứu, tập. 11, trang 2079-2107, tháng 7 năm 2010 ( www )

điều này chứng tỏ rằng sự phù hợp quá mức trong lựa chọn mô hình là một vấn đề đáng kể trong học máy (và bạn có thể nhận được ước tính hiệu suất sai lệch nghiêm trọng nếu bạn cắt giảm các lựa chọn mô hình trong quá trình đánh giá hiệu suất) và

GC Cawley và NLC Talbot, Ngăn chặn sự phù hợp quá mức trong việc lựa chọn mô hình thông qua việc chuẩn hóa siêu tham số Bayes, Tạp chí Nghiên cứu Máy học, tập 8, trang 841-861, tháng 4 năm 2007 ( www )

trong đó tiêu chí lựa chọn mô hình dựa trên xác thực chéo được thường xuyên hóa để thử một sự phù hợp quá mức trong lựa chọn mô hình (đây là vấn đề chính nếu bạn sử dụng hạt nhân có nhiều tham số siêu).

Hiện tại tôi đang viết một bài báo về lựa chọn mô hình dựa trên tìm kiếm dạng lưới, điều này cho thấy rằng chắc chắn có thể sử dụng lưới quá tốt khi bạn kết thúc với một mô hình kém hơn so với mô hình được chọn bởi nhiều lưới thô hơn (đó là một câu hỏi trên StackExchange đã truyền cảm hứng cho tôi tìm hiểu về lưới tìm kiếm).

Hi vọng điêu nay co ich.

Đánh giá hiệu suất không thiên vị PS và lựa chọn mô hình đáng tin cậy thực sự có thể tốn kém về mặt tính toán, nhưng theo kinh nghiệm của tôi thì nó rất đáng giá. Xác thực chéo lồng nhau, trong đó xác thực chéo bên ngoài được sử dụng để ước tính hiệu suất và xác định chéo bên trong để lựa chọn mô hình là một cách tiếp cận cơ bản tốt.


Hoàn hảo! Có vẻ như những giấy tờ đó là chính xác những gì tôi đã sau. Cảm ơn vì điều đó.
Bogdanovist

Hãy cho tôi biết nếu bạn có bất kỳ câu hỏi nào về các giấy tờ (qua email - Tôi là tác giả đầu tiên và địa chỉ email của tôi nằm trên giấy).
Dikran Marsupial

@DikranMarsupial Làm thế nào để bạn phân biệt quá mức do lựa chọn mô hình và do lấy mẫu không khớp giữa tàu và bộ thử nghiệm?
image_doctor

1
Về nguyên tắc, sử dụng một bộ dữ liệu tổng hợp có sẵn sự thật mặt đất, sau đó nó là đơn giản, vì khi đó không có sự không phù hợp lấy mẫu; tập huấn luyện chỉ là một mẫu ngẫu nhiên từ phân phối cơ bản và bạn có thể ước tính lỗi từ chính phân phối đó, chứ không phải là một mẫu hữu hạn. Tuy nhiên, đối với các bộ dữ liệu từ thực, AFAICS, cách tốt nhất bạn có thể quản lý là sử dụng việc lấy mẫu lại và xác định các tác động của việc phù hợp với tiêu chí lựa chọn mô hình trong nhiều phân tách kiểm tra / huấn luyện ngẫu nhiên.
Dikran Marsupial

2
Đáng buồn là nó đã bị từ chối, nhưng tôi sẽ sửa lại để xem xét các ý kiến ​​của người đánh giá (rất hữu ích) và gửi lại cho một tạp chí khác.
Dikran Marsupial

7

Xác thực chéo và bootstrap đã được hiển thị để đưa ra các ước tính về tỷ lệ lỗi gần như không thiên vị và trong một số trường hợp chính xác hơn bởi bootstrap so với xác thực chéo. Vấn đề với các phương pháp khác như đặt lại là bằng cách ước tính lỗi trên cùng một tập dữ liệu mà bạn phù hợp với trình phân loại, bạn có thể đánh giá thấp tỷ lệ lỗi và có thể dẫn đến các thuật toán bao gồm quá nhiều tham số và sẽ không dự đoán chính xác các giá trị trong tương lai như một thuật toán phù hợp với một tập hợp nhỏ các tham số. Chìa khóa cho việc sử dụng các phương pháp thống kê là dữ liệu bạn có trong bộ phân loại là điển hình của dữ liệu bạn sẽ thấy trong tương lai nơi các lớp bị thiếu và phải được phân loại dự đoán. Nếu bạn nghĩ rằng dữ liệu trong tương lai có thể rất khác thì phương pháp thống kê không thể giúp được và tôi không '


Cảm ơn câu trả lời. Tôi đã chỉnh sửa câu hỏi để làm rõ rằng tôi không hỏi về những thay đổi trong dân số giữa các bộ thử nghiệm và xe lửa. Tôi nhận ra rằng đó là một câu hỏi hoàn toàn khác mà tôi không quan tâm đến câu hỏi này.
Bogdanovist

1
+1 Trong trường hợp này không thiên vị về cơ bản là không liên quan. Phương sai của ước tính xác thực chéo có thể là vấn đề nhiều hơn. Cho một tiêu chí lựa chọn mô hình bạn cần tối thiểu là tiêu chí để được đáng tin cậy gần với tối thiểu các lỗi tổng quát (như là một chức năng của siêu thông số). Sẽ không có ích gì nếu trung bình nó ở đúng nơi, nhưng sự lan truyền của các mẫu dữ liệu hữu hạn khác nhau tối thiểu ở khắp mọi nơi.
Dikran Marsupial

1
Tất nhiên độ chính xác là sự kết hợp giữa sai lệch và phương sai và ước lượng không thiên vị với phương sai lớn không tốt bằng một ước lượng hơi thiên vị với phương sai nhỏ. Ước tính niave về tỷ lệ lỗi là tái lập và nó có độ lệch lớn. Bootstrap 632 và 632+ hoạt động rất tốt bởi vì chúng làm tốt công việc điều chỉnh độ lệch mà không tăng nhiều phương sai. Đó là lý do tại sao đối với các hàm phân biệt tuyến tính và các hàm phân biệt bậc hai, chúng hoạt động tốt hơn nhiều so với phiên bản xác thực chéo một lần.
Michael R. Chernick

Với cây phân loại, các bootstrap đã không được chứng minh là làm tốt hơn.
Michael R. Chernick

1
Có lẽ một trong những khó khăn là sự phù hợp quá mức thường có nghĩa là những điều khác nhau trong học máy và thống kê. Đối với tôi, dường như các nhà thống kê đôi khi sử dụng quá khớp để có nghĩa là một mô hình có nhiều tham số hơn mức cần thiết đang được sử dụng, thay vì nó quá gần với các quan sát (được đo bằng tiêu chí đào tạo). Tôi thường sử dụng "quá tham số hóa" trong tình huống đó và sử dụng "quá phù hợp" để có nghĩa là một mô hình đã được gắn quá chặt chẽ với các quan sát với chi phí hiệu suất tổng quát hóa. Có lẽ đây là nơi chúng ta có thể nói chuyện với mục đích chéo?
Dikran Marsupial

4

Tôi nghi ngờ một câu trả lời ở đây là, trong bối cảnh tối ưu hóa, những gì bạn đang cố gắng tìm là mức tối thiểu toàn cầu đối noisyvới hàm chi phí. Vì vậy, bạn có tất cả các thách thức của sự lạc quan toàn cầu đa chiều cộng với một thành phần ngẫu nhiên được thêm vào hàm chi phí.

Nhiều cách tiếp cận để đối phó với các thách thức của cực tiểu địa phương và bản thân một không gian tìm kiếm đắt tiền có các tham số có thể cần điều chỉnh, chẳng hạn như phương pháp ủ mô phỏng hoặc phương pháp monte carlo.

Trong một vũ trụ lý tưởng, không bị ràng buộc về mặt tính toán, tôi nghi ngờ bạn có thể cố gắng tìm mức tối thiểu toàn cầu của không gian tham số với các giới hạn chặt chẽ phù hợp về độ lệch và phương sai của ước tính hàm lỗi. Có phải kịch bản này thường xuyên hóa sẽ không thành vấn đề vì bạn có thể lấy mẫu lại quảng cáo vô hạn.

Trong thế giới thực, tôi nghi ngờ bạn có thể dễ dàng thấy mình ở mức tối thiểu tại địa phương.

Như bạn đã đề cập, đây là một vấn đề riêng biệt, nhưng điều này vẫn khiến bạn mở quá mức do các vấn đề lấy mẫu liên quan đến dữ liệu có sẵn cho bạn và nó liên quan đến phân phối thực sự của không gian mẫu.


4

Nó hoàn toàn phụ thuộc vào thuật toán, nhưng bạn chắc chắn có thể - mặc dù trong hầu hết các trường hợp, nó sẽ chỉ là một sự lãng phí nỗ lực.

f(x)xxoptf(x)+εεxfXoptxoptf+ε

xoptXoptXoptf

f

Do đó, (dựa trên một thực tiễn có trong các tạp chí tốt) đầy đủ, xác thực bên ngoài của lựa chọn tham số không phải là điều bạn phải làm (không giống như chọn tính năng xác thực), nhưng chỉ khi tối ưu hóa là khó hiểu và trình phân loại không nhạy cảm với những thông số.


4

Có, các tham số có thể được cung cấp quá mức vào chương trình đào tạo và kiểm tra trong quá trình xác định giá trị chéo hoặc bootstrapping. Tuy nhiên, có một số phương pháp để ngăn chặn điều này. Phương pháp đơn giản đầu tiên là, bạn chia dữ liệu của bạn thành 3 phân vùng, một để kiểm tra (~ 20%), một để kiểm tra các tham số được tối ưu hóa (~ 20%) và một để phù hợp với trình phân loại với các tham số đã đặt. Nó chỉ có thể nếu bạn có bộ dữ liệu khá lớn. Trong các trường hợp khác, đề xuất chéo đôi được đề xuất.

Romain François và Florent Langrognet, "Xác thực chéo kép cho phân loại dựa trên mô hình", 2006

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.