Điều gì có nghĩa là phương sai của * hàm * trong * Giới thiệu về Học thống kê *?


11

Trên pg. 34 Giới thiệu về Học thống kê :

Mặc dù bằng chứng toán học nằm ngoài phạm vi của cuốn sách này, có thể chỉ ra rằng MSE thử nghiệm dự kiến, với giá trị x0 , luôn có thể được phân tách thành tổng của ba đại lượng cơ bản: phương sai của f^(x0) , độ lệch bình phương của f^(x0) và phương sai của các điều khoản lỗi ε . Đó là,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Phương sai cho biết số tiền mà f^ sẽ thay đổi nếu chúng tôi ước tính nó bằng cách sử dụng một tập dữ liệu huấn luyện khác.

Câu hỏi:Var(f^(x0)) dường như biểu thị phương sai của các hàm , điều này có nghĩa chính thức là gì?

Đó là, tôi quen thuộc với khái niệm phương sai của một biến ngẫu nhiên X , nhưng còn phương sai của một tập hợp các hàm thì sao? Điều này có thể được coi là phương sai của một biến ngẫu nhiên khác có giá trị có dạng hàm không?


6
Vì mỗi khi xuất hiện trong một công thức, nó đã được áp dụng cho "giá trị đã cho" , phương sai áp dụng cho số , không áp dụng cho chính . Vì con số đó có lẽ đã được phát triển từ dữ liệu được mô hình hóa với các biến ngẫu nhiên, nó cũng là một biến ngẫu nhiên (có giá trị thực). Khái niệm phương sai thông thường được áp dụng. f^x0 f^(x0)f^
whuber

2
Tôi hiểu rồi. Vì vậy, đang thay đổi (thay đổi theo các tập dữ liệu huấn luyện khác nhau), nhưng chúng tôi vẫn xem xét phương sai của chính . f^f^(x0)
George

Ai là tác giả của cuốn sách giáo khoa này? Tôi đã muốn tự học môn học và sẽ đánh giá rất cao đề xuất tham khảo của bạn.
Chill2Macht

3
@WilliamKrinsman Đây là cuốn sách: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Câu trả lời:


13

Sự tương ứng của bạn với @whuber là chính xác.

Một thuật toán học tập có thể được xem như là một hàm cấp cao hơn, ánh xạ các tập huấn luyện thành các hàm.A

A:T{ff:XR}

trong đó là không gian của các bộ huấn luyện có thể. Đây có thể là một chút lông về mặt khái niệm, nhưng về cơ bản, mỗi kết quả tập huấn riêng lẻ, sau khi sử dụng thuật toán đào tạo mô hình, trong một hàm speicific có thể được sử dụng để đưa ra dự đoán cho điểm dữ liệu .Tfx

Nếu chúng ta xem không gian của các tập huấn luyện là không gian xác suất, do đó có một số phân phối các tập dữ liệu huấn luyện có thể, thì thuật toán đào tạo mô hình trở thành một hàm có giá trị biến ngẫu nhiên và chúng ta có thể nghĩ về các khái niệm thống kê. Cụ thể, nếu chúng tôi sửa một điểm dữ liệu cụ thể , thì chúng tôi sẽ nhận được biến ngẫu nhiên có giá trị sốx0

Ax0(T)=A(T)(x0)

Tức là, đầu tiên đào tạo thuật toán trên , sau đó đánh giá mô hình kết quả tại . Đây chỉ là một biến ngẫu nhiên cũ, nhưng được xây dựng khéo léo, ngẫu nhiên trên một không gian xác suất, vì vậy chúng ta có thể nói về phương sai của nó. Đây là phương sai trong công thức của bạn từ ISL.Tx0


5

Một giải thích trực quan bằng cách sử dụng lặp đi lặp lại

Để đưa ra một diễn giải trực quan / trực quan cho câu trả lời của @Matthew Drury, hãy xem xét ví dụ về đồ chơi sau đây.

  • Dữ liệu được tạo từ đường cong hình sin nhiễu: "True noise"f(x) +
  • Dữ liệu được phân chia giữa các mẫu đào tạo và thử nghiệm (75% - 25%)
  • Một mô hình tuyến tính (đa thức) được trang bị cho dữ liệu đào tạo:f^(x)
  • Quá trình này được lặp đi lặp lại nhiều lần bằng cách sử dụng cùng một dữ liệu (nghĩa là chia tách đào tạo - kiểm tra ngẫu nhiên bằng cách sử dụng lặp lại Sklearm)
  • Điều này tạo ra nhiều mô hình khác nhau, từ đó chúng tôi tính giá trị trung bình và phương sai tại mỗi điểm cũng như trên tất cả các điểm.x=xi

Xem bên dưới để biết các đồ thị kết quả cho mô hình đa thức bậc 2 và độ 6. Ngay từ cái nhìn đầu tiên, dường như đa thức cao hơn (màu đỏ) có phương sai lớn hơn.

nhập mô tả hình ảnh ở đây

Lập luận rằng biểu đồ màu đỏ có phương sai lớn hơn - về mặt thực nghiệm

Đặt và tương ứng với các biểu đồ màu xanh lá cây và màu đỏ và là một ví dụ của biểu đồ, có màu xanh nhạt và đỏ nhạt. Gọi là số điểm dọc theo trục và là số đồ thị (tức là số lượng mô phỏng). Ở đây ta có vàf^gf^rf^(i)nxmn=400m=200

Tôi thấy ba kịch bản chính

  1. Phương sai của các giá trị dự đoán tại một điểm cụ thể lớn hơn tức làx=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. Phương sai trong lớn hơn cho tất cả các điểm trong phạm vi (1) {x1,...,x400}(0,1)
  3. Phương sai trung bình lớn hơn (nghĩa là có thể nhỏ hơn đối với một số điểm)

Trong trường hợp ví dụ về đồ chơi này, cả ba kịch bản đều đúng trong phạm vi , điều này biện minh cho lập luận rằng sự phù hợp đa thức bậc cao (màu đỏ) có phương sai cao hơn so với đa thức bậc thấp (màu xanh lá cây).(0,1)

Một kết luận mở

Điều gì nên được tranh luận khi ba kịch bản trên không phải tất cả giữ. Ví dụ, điều gì xảy ra nếu phương sai của các dự đoán màu đỏ trung bình lớn hơn, nhưng không phải cho tất cả các điểm.

Chi tiết về nhãn

Xét điểmx0=0.5

  • Thanh lỗi là phạm vi giữa tối thiểu và tối đa củaf^(x0)
  • Phương sai được tính tạix0
  • Đúng là đường màu xanh chấmf(x)

Tôi thích ý tưởng minh họa một khái niệm bằng hình ảnh. Tuy nhiên, tôi tự hỏi về hai khía cạnh của bài viết của bạn và hy vọng bạn có thể giải quyết chúng. Đầu tiên, bạn có thể giải thích rõ ràng hơn về cách các ô này hiển thị "phương sai của hàm" không? Thứ hai, không rõ ràng rằng cốt truyện màu đỏ thể hiện "phương sai lớn hơn" hoặc thậm chí hai mảnh đất có thể chấp nhận được để so sánh đơn giản như vậy. Chẳng hạn, hãy xem xét sự lan truyền dọc của các giá trị màu đỏ trên và so sánh với sự lan truyền của các giá trị màu xanh lá cây tại cùng một điểm: các giá trị màu đỏ trông có vẻ lan truyền ít hơn một chút so với giá trị màu xanh lá cây. x=0.95,
whuber

Quan điểm của tôi không phải là liệu có thể đọc các lô của bạn với độ chính xác cao hay không: đó là ý nghĩa của việc so sánh hai lô như vậy nếu chúng có thể được coi là phương sai "cao hơn" hoặc "thấp hơn" so với cái kia là đáng nghi ngờ, vì khả năng là một số phạm vi của phương sai của các dự đoán sẽ cao hơn trong một ô và đối với các phạm vi khác của thì phương sai sẽ thấp hơn. xx
whuber

Có, tôi đồng ý - Tôi đã chỉnh sửa bài đăng để phản ánh ý kiến ​​của bạn
Xavier Bourret Sicotte
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.