Tôi có một số câu hỏi về các ký hiệu sử dụng trong Mục 9.2 Thiếu sự ưu việt vốn có của bất kỳ Classifier trong Duda, Hart và Cò của Pattern Phân loại . Trước tiên hãy để tôi trích dẫn một số văn bản có liên quan từ cuốn sách:
- Để đơn giản, hãy xem xét một vấn đề hai loại, trong đó tập huấn luyện bao gồm các mẫu và các nhãn danh mục liên quan cho được tạo bởi hàm mục tiêu chưa biết sẽ được học, , trong đó .
- Gọi là tập hợp các giả thuyết (rời rạc) hoặc các tham số có thể học được. Một giả thuyết nói riêng có thể được mô tả bằng trọng lượng tử trong một mạng lưới thần kinh, hoặc các thông số 0 trong một mô hình chức năng, hoặc bộ quyết định trong một cây, và vân vân.
- Hơn nữa, là xác suất trước rằng thuật toán sẽ tạo ra giả thuyết sau khi đào tạo; lưu ý rằng đây không phải là xác suất mà đúng.
- Tiếp theo, biểu thị khả năng rằng các thuật toán sẽ mang lại giả thuyết khi tập huấn về các dữ liệu . Trong các thuật toán học xác định như cây lân cận và cây quyết định gần nhất, sẽ ở mọi nơi bằng không ngoại trừ một giả thuyết duy nhất . Đối với các phương pháp ngẫu nhiên (như mạng lưới thần kinh được đào tạo từ các trọng số ban đầu ngẫu nhiên) hoặc học tập ngẫu nhiên Boltzmann, có thể là một phân phối rộng.
- Đặt là lỗi của hàm zero-one hoặc hàm mất khác.
Lỗi phân loại tập huấn ngoài dự kiến khi hàm thực là và xác suất cho thuật toán học ứng viên thứ là được đưa ra bởi
Định lý 9.1. (Không ăn trưa miễn phí) Đối với bất kỳ hai thuật toán học tập và , những điều sau đây là đúng, không phụ thuộc vào phân phối mẫu và số của các điểm đào tạo:
Tính trung bình thống nhất trên tất cả các hàm mục tiêu ,
Đối với bất kỳ tập huấn cố định , trung bình đồng đều trên ,
Phần 1 là thực sự nói
Phần 2 được thực sự nói
Câu hỏi của tôi là
- Trong công thức của , tức là E k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D ) , tôi có thể thay thế P khôngvới P k ( h | D ) và di chuyển nó ra ngoài tổng ∑ x ∉ D , bởi vì nó thực sự là một phân phối của h trên H cho D chothuật toán học ngẫu nhiên thứ k ?
- Cho rằng các thuật toán học ứng cử viên thứ là một phương pháp ngẫu nhiên, tại sao trong công thức của E k ( E | F , n ) , không có tiền qua h , tức là Σ h ∈ H ?
Làm thế nào là và E i ( E | F , n ) khác nhau từ mỗi khác?
Có phải có nghĩa là tỷ lệ lỗi đào tạo được đưa ra cho tập huấn luyện D không?
Có phải có nghĩa là tỷ lệ lỗi đào tạo, trung bình trên tất cả các tập huấn được đưa ra với quy mô đào tạo n ? Nếu có, tại sao phần 1 trong NFL lý trung bình E i ( E | F , n ) qua bộ đào tạo một lần nữa bằng cách viết Σ D , và tại sao trong công thức cho E k ( E | F , n ) , không có so với trung bình tất cả các tập huấn cho một kích thước đào tạo n ?
- Trong phần 1 của định lý NFL, không bộ trung bình tổng hợp trên tất cả các huấn luyện với một huấn luyện kích thước cố định n ?
- Nếu tổng hợp thêm tất cả các giá trị có thể có trong của kích thước đào tạo n trong phần 1, kết quả vẫn là 0, phải không?
- Trong công thức của , nếu tôi thay đổi Σ x ∉ D để Σ x , tức là x không nhất thiết phải hạn chế được bên ngoài tập huấn luyện, sẽ cả hai phần trong NFL lý vẫn là sự thật?
- Nếu mối quan hệ thực sự giữa và y không được coi là hàm xác định F là y = F ( x ) , mà thay vào đó là các phân phối có điều kiện P ( y | x ) hoặc phân phối chung P ( x , y ) tương đương với biết P ( y | x ) và P ( x ) (cũng thấy câu hỏi khác của tôi ), sau đó tôi có thể thay đổi
E k ( là E k ( E | P ( x , y ) , n ) = E x , y [ 1 - δ ( y , h ( x ) ) ] P k ( h ( x ) | D ) (với lạ P k ( h ( x ) | Dđã chỉ ra trong phần 1 và 2). Hai phần trong định lý NFL có còn đúng không?
Cảm ơn và trân trọng!