Khi nào không sử dụng xác nhận chéo?


10

Khi tôi đọc qua trang web, hầu hết các câu trả lời cho thấy nên xác thực chéo trong các thuật toán học máy. Tuy nhiên khi tôi đọc cuốn sách "Tìm hiểu về học máy", tôi thấy có một bài tập đôi khi không nên sử dụng xác nhận chéo. Tôi thực sự bối rối. Khi thuật toán đào tạo trên toàn bộ dữ liệu tốt hơn xác nhận chéo? Nó có xảy ra trong các tập dữ liệu thực không?

Cho là lớp giả thuyết k. Giả sử bạn được cho m IID đào tạo ví dụ và bạn muốn tìm hiểu các lớp H = k i = 1 H i . Xem xét hai phương pháp thay thế:H1,...,HkmH=i=1kHi

  1. Tìm hiểu trên các ví dụ m bằng quy tắc ERMHm

  2. Chia ví dụ m vào một tập huấn luyện của kích thước và một bộ xác nhận kích thước α m , đối với một số α ( 0 , 1 ) . Sau đó, áp dụng phương pháp lựa chọn mô hình bằng cách sử dụng xác nhận. Đó là, fi RST đào tạo mỗi lớp H i trên ( 1 - α ) m ví dụ huấn luyện bằng cách sử dụng quy tắc ERM đối với H i , và để cho h 1 , ... , h k(1α)mαmα(0,1)Hi(1α)mHih^1,,h^klà những giả thuyết kết quả. Thứ hai, áp dụng các quy tắc ERM liên quan đến lớp fi nite { h 1 , ... , h k } trên α m ví dụ xác nhận.h^1,,h^kαm

Mô tả các kịch bản trong đó phương pháp đầu tiên tốt hơn phương pháp thứ hai và ngược lại.

Hình ảnh của quastion .


1
Đó là một bài tập thú vị, nhưng tôi không đồng ý với nhãn hiệu này. Tôi nghĩ rằng xác nhận chéo đang làm công việc của nó hoàn hảo ở đây. Như một tiếp tuyến, nó thực sự sẽ được ưa thích nếu bạn gõ bài tập và trích dẫn nó, trái ngược với việc đính kèm một hình ảnh. Hình ảnh không thể tiếp cận với người dùng bị suy giảm thị lực.
Matthew Drury

Một nhược điểm có thể có của việc sử dụng xác thực chéo có thể là quá khớp (như trong trường hợp bỏ qua một xác thực chéo). Về cơ bản, bằng cách sử dụng các kỹ thuật xác thực chéo, chúng tôi đang điều chỉnh các tham số của mô hình trên tập dữ liệu xác thực (chứ không phải trên tập dữ liệu thử nghiệm). Nhưng đôi khi, điều chỉnh này có thể hơi quá nhiều dẫn đến có thể quá phù hợp khi trình phân loại được kiểm tra trên bộ kiểm tra.
Upendra Pratap Singh

1
"Chẵn lẻ" nghĩa là gì ở đây?
Shadowtalker

@shadowtalker Tôi nghĩ nó có nghĩa là modulo tổng hợp 2.
SMA.D 23/12/17

Bạn có phân biệt giữa xác thực chéo (lặp lại) và bootstrapping không?
usεr11852

Câu trả lời:


11

Tin nhắn mang về nhà:


Thật không may, văn bản bạn trích dẫn thay đổi hai điều giữa cách tiếp cận 1 và 2:

  • Cách tiếp cận 2 thực hiện xác nhận chéo lựa chọn / điều chỉnh / tối ưu hóa mô hình dựa trên dữ liệu
  • Cách tiếp cận 1 không sử dụng xác nhận chéo, cũng như lựa chọn / điều chỉnh / tối ưu hóa mô hình dựa trên dữ liệu.
  • Cách tiếp cận 3 xác thực chéo mà không cần lựa chọn / điều chỉnh / tối ưu hóa mô hình dựa trên dữ liệu là hoàn toàn khả thi (amd IMHO sẽ dẫn đến cái nhìn sâu sắc hơn) trong bối cảnh được thảo luận ở đây
  • Cách tiếp cận 4, không có xác nhận chéo nhưng lựa chọn / điều chỉnh / tối ưu hóa mô hình dựa trên dữ liệu là có thể, nhưng phức tạp hơn để xây dựng.

IMHO, xác thực chéo và tối ưu hóa dựa trên dữ liệu là hai quyết định hoàn toàn khác nhau (và phần lớn độc lập) trong việc thiết lập chiến lược mô hình hóa của bạn. Kết nối duy nhất là bạn có thể sử dụng các ước tính xác thực chéo làm chức năng đích để tối ưu hóa. Nhưng có tồn tại các chức năng đích khác đã sẵn sàng để sử dụng và có những cách sử dụng khác cho ước tính xác thực chéo (quan trọng là bạn có thể sử dụng chúng để xác minh mô hình của mình, còn gọi là xác thực hoặc thử nghiệm)

Thật không may, thuật ngữ học máy là IMHO hiện đang là một mớ hỗn độn gợi ý các kết nối / nguyên nhân / phụ thuộc sai ở đây.

  • Khi bạn tìm cách tiếp cận 3 (xác thực chéo không phải để tối ưu hóa mà để đo hiệu suất mô hình), bạn sẽ thấy xác thực chéo "quyết định" so với đào tạo trên toàn bộ dữ liệu là phân đôi giả trong ngữ cảnh này: Khi sử dụng xác thực chéo để đo hiệu suất phân loại, số liệu xác thực chéo được sử dụng làm ước tính cho một mô hình được đào tạo trên toàn bộ tập dữ liệu. Tức là cách tiếp cận 3 bao gồm cách tiếp cận 1.

  • pcác tham số / hệ số của mô hình, nhưng những gì tối ưu hóa thực hiện là ước tính các tham số xa hơn, cái gọi là siêu đường kính. Nếu bạn mô tả quá trình điều chỉnh và tối ưu hóa điều chỉnh mô hình là tìm kiếm các tham số mô hình, thì tối ưu hóa siêu tham số này có nghĩa là không gian tìm kiếm lớn hơn rất nhiều được xem xét. Nói cách khác, trong cách tiếp cận 1 (và 3), bạn hạn chế không gian tìm kiếm bằng cách chỉ định các siêu đường kính đó. Tập dữ liệu trong thế giới thực của bạn có thể đủ lớn (chứa đủ thông tin) để cho phép khớp trong không gian tìm kiếm bị hạn chế đó, nhưng không đủ lớn để sửa tất cả các tham số đủ tốt trong không gian tìm kiếm lớn hơn của phương pháp 2 (và 4).

Trong thực tế, trong lĩnh vực của tôi, tôi rất thường xuyên phải đối phó với các tập dữ liệu quá nhỏ để cho phép mọi suy nghĩ về tối ưu hóa dựa trên dữ liệu. Vì vậy, tôi phải làm gì thay vào đó: Tôi sử dụng kiến ​​thức miền của mình về các quy trình tạo dữ liệu và dữ liệu để quyết định mô hình nào phù hợp với bản chất vật lý của dữ liệu và ứng dụng. Và trong phạm vi này, tôi vẫn phải hạn chế độ phức tạp của mô hình.


Câu trả lời tốt đẹp. Tôi bằng cách nào đó hy vọng bạn sẽ đóng góp cho chủ đề này. Rõ ràng +1
usεr11852

Cảm ơn bạn đã trả lời thông tin và hữu ích của bạn. Điều tôi học được từ câu trả lời của bạn là chúng tôi có thể chọn cách tiếp cận 2 khi chúng tôi có các tập dữ liệu nhỏ không phải vì xác thực mà vì chọn mô hình. Tôi có đúng không? Việc sử dụng lựa chọn mô hình cho các tập dữ liệu nhỏ bằng cách nào đó có thể dẫn đến thiếu?
SMA.D

Một câu hỏi khác là trong bài tập kích thước của lớp giả thuyết là giống nhau cho cả cách tiếp cận 1 và 2. Làm thế nào không gian tìm kiếm lớn hơn trong trường hợp đó cho cách tiếp cận 2?
SMA.D

Chà, nếu có lựa chọn trong 2 và không phải 1 thì không gian tìm kiếm trong 2 lớn hơn. Nếu không gian tìm kiếm trong 2 không lớn hơn, thì thực sự không có gì để chọn trong cách tiếp cận 2. Câu trả lời và giải thích của tôi về cách tiếp cận 2 có nghĩa được kích hoạt bởi thuật ngữ "lựa chọn mô hình sử dụng xác nhận". Nếu bối cảnh vẫn là một trong những câu hỏi "khi nào xác thực chéo không thành công" trước câu hỏi được đề cập ở đây, thì cuốn sách có thể có nghĩa là cái mà tôi gọi là cách tiếp cận 3 ở trên, tức là không có lựa chọn mô hình nào liên quan. Nhưng trong trường hợp đó, lựa chọn mô hình từ thực sự không nên có. Tôi không thể đánh giá khả năng này ..
cbeleites không hài lòng với SX

... là vì tôi không biết cuốn sách nói gì về lựa chọn mô hình, cũng như quy tắc ERM của họ là gì (theo từ vựng của tôi, ERM mở rộng sang quản lý rủi ro doanh nghiệp ...). Tuy nhiên, câu trả lời của tôi giữ bất kể thuật toán mô hình.
cbeleites không hài lòng với SX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.