Hiểu không có định lý bữa trưa miễn phí trong Phân loại mẫu của Duda et al


12

Tôi có một số câu hỏi về các ký hiệu sử dụng trong Mục 9.2 Thiếu sự ưu việt vốn có của bất kỳ Classifier trong Duda, Hart và Cò của Pattern Phân loại . Trước tiên hãy để tôi trích dẫn một số văn bản có liên quan từ cuốn sách:

  • Để đơn giản, hãy xem xét một vấn đề hai loại, trong đó tập huấn luyện D bao gồm các mẫu xi và các nhãn danh mục liên quan yi=±1 cho i=1,...,n được tạo bởi hàm mục tiêu chưa biết sẽ được học, F(x) , trong đó yi=F(xi) .
  • Gọi H là tập hợp các giả thuyết (rời rạc) hoặc các tham số có thể học được. Một giả thuyết nói riêng h(x)H có thể được mô tả bằng trọng lượng tử trong một mạng lưới thần kinh, hoặc các thông số 0 trong một mô hình chức năng, hoặc bộ quyết định trong một cây, và vân vân.
  • Hơn nữa, P(h) là xác suất trước rằng thuật toán sẽ tạo ra giả thuyết h sau khi đào tạo; lưu ý rằng đây không phải là xác suất mà h đúng.
  • Tiếp theo, P(h|D) biểu thị khả năng rằng các thuật toán sẽ mang lại giả thuyết h khi tập huấn về các dữ liệu D . Trong các thuật toán học xác định như cây lân cận và cây quyết định gần nhất, P(h|D) sẽ ở mọi nơi bằng không ngoại trừ một giả thuyết duy nhất h . Đối với các phương pháp ngẫu nhiên (như mạng lưới thần kinh được đào tạo từ các trọng số ban đầu ngẫu nhiên) hoặc học tập ngẫu nhiên Boltzmann, P(h|D) có thể là một phân phối rộng.
  • Đặt E là lỗi của hàm zero-one hoặc hàm mất khác.

Lỗi phân loại tập huấn ngoài dự kiến ​​khi hàm thực là F(x) và xác suất cho thuật toán học ứng viên thứ kPk(h(x)|D) được đưa ra bởi

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Định lý 9.1. (Không ăn trưa miễn phí) Đối với bất kỳ hai thuật toán học tập P1(h|D)P2(h|D) , những điều sau đây là đúng, không phụ thuộc vào phân phối mẫu P(x) và số n của các điểm đào tạo:

  1. Tính trung bình thống nhất trên tất cả các hàm mục tiêu F , E1(E|F,n)E2(E|F,n)=0

  2. Đối với bất kỳ tập huấn cố định D , trung bình đồng đều trên F , E1(E|F,D)E2(E|F,D)=0

Phần 1 là thực sự nói

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

Phần 2 được thực sự nói

F[E1(E|F,D)E2(E|F,D)]=0

Câu hỏi của tôi là

  1. Trong công thức của , tức là E k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D ) , tôi có thể thay thế P khôngEk(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    với P k ( h | D ) và di chuyển nó ra ngoài tổngx D , bởi vì nó thực sự là một phân phối của h trên H cho D chothuật toán học ngẫu nhiên thứ k ?Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Cho rằng các thuật toán học ứng cử viên thứ là một phương pháp ngẫu nhiên, tại sao trong công thức của E k ( E | F , n ) , không có tiền qua h , tức là Σ h H ?kEk(E|F,n)hhH
  3. Làm thế nào là E i ( E | F , n ) khác nhau từ mỗi khác?Ei(E|F,D)Ei(E|F,n)

    Có phải có nghĩa là tỷ lệ lỗi đào tạo được đưa ra cho tập huấn luyện D không?Ei(E|F,D)D

    Có phải có nghĩa là tỷ lệ lỗi đào tạo, trung bình trên tất cả các tập huấn được đưa ra với quy mô đào tạo n ? Nếu có, tại sao phần 1 trong NFL lý trung bình E i ( E | F , n ) qua bộ đào tạo một lần nữa bằng cách viết Σ D , và tại sao trong công thức cho E k ( E | F , n ) , không có so với trung bình tất cả các tập huấn cho một kích thước đào tạo n ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. Trong phần 1 của định lý NFL, không bộ trung bình tổng hợp trên tất cả các huấn luyện với một huấn luyện kích thước cố định n ?Dn
  5. Nếu tổng hợp thêm tất cả các giá trị có thể có trong của kích thước đào tạo n trong phần 1, kết quả vẫn là 0, phải không?Nn
  6. Trong công thức của , nếu tôi thay đổi Σ x D để Σ x , tức là x không nhất thiết phải hạn chế được bên ngoài tập huấn luyện, sẽ cả hai phần trong NFL lý vẫn là sự thật?Ek(E|F,n)xDxx
  7. Nếu mối quan hệ thực sự giữa y không được coi là hàm xác định Fy = F ( x ) , mà thay vào đó là các phân phối có điều kiện P ( y | x ) hoặc phân phối chung P ( x , y ) tương đương với biết P ( y | x )P ( x ) (cũng thấy câu hỏi khác của tôi ), sau đó tôi có thể thay đổi E k (xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x) E k ( E | P ( x , y ) , n ) = E x , y [ 1 - δ ( y , h ( x ) ) ] P k ( h ( x ) | D ) (với lạ P k ( h ( x ) | DEk(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    đã chỉ ra trong phần 1 và 2). Hai phần trong định lý NFL có còn đúng không?Pk(h(x)|D)

Cảm ơn và trân trọng!


Dirac / Kronecker-delta? Trong E k ( E | F , n ) = Σ x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )δ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Đây có phải là định lý Bữa trưa miễn phí giống như bài toán Dừng không? Họ có kết nối không?

Câu trả lời:


6

Tôi sẽ trả lời các câu hỏi mà tôi nghĩ rằng tôi biết câu trả lời.

  1. xDhx
  2. hxHx
  3. Ei(E|F,D)FDEi(E|F,n)nxcác giá trị. Nhưng điều này là khó hiểu đưa ra các tuyên bố tiếp theo.
  4. Dlà tập các vectơ đào tạo. Cón đào tạo vectơ trong D. Vì vậy, bạn đang tổng hợp cố địnhn đào tạo vectơ trong D. Chỉ có một bộD.
  5. Tôi nghĩ rằng câu trả lời cho 5 là không. Các ký hiệu có vẻ hơi khó hiểu.

Không thể nhận xét về 6 và 7.


2
+1. Chào mừng đến với trang web, tôi là một fan hâm mộ lớn của các đánh giá của bạn trên Amazon. Xin lỗi vì sự giả định của tôi trong việc chỉnh sửa, ký hiệu toán học chủ yếu được thực hiện bằng cách đặt $ của cả hai mặt của một cái gì đó. Nếu bạn nhấp vào vòng tròn màu vàng-? ở phía trên bên phải khi viết, bạn sẽ thấy một liên kết cho "trợ giúp nâng cao" sẽ cung cấp thêm thông tin; đồng thời, bạn có thể nhấp chuột phải vào một số mathjax hiện có (chẳng hạn như bất kỳ điều nào ở trên) và chọn "Hiển thị toán học dưới dạng -> các lệnh TeX" để xem cách nó được thực hiện.
gung - Phục hồi Monica

2
Nói cách khác, @gung đang nói: Trang web này hỗ trợ LMộtTEX(gần như) chính xác theo cách bạn mong đợi, bao gồm cả toán học hiển thị. Chào mừng đến với trang web.
Đức hồng y

@Michael Xin cho phép tôi thêm lời chào mừng đến những người khác: Tôi rất vui khi gặp bạn ở đây. (Michael đã có những đóng góp đặc biệt am hiểu trong danh sách thảo luận của Hiệp hội Thống kê Hoa Kỳ.)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.