Phân phối trên các chức năng là gì?


15

Tôi đang đọc một cuốn sách giáo khoa Quy trình Gaussian cho Machine Learning của CE Rasmussen và CKI Williams và tôi gặp một số khó khăn trong việc hiểu phân phối trên các chức năng có nghĩa là gì. Trong sách giáo khoa, một ví dụ được đưa ra, người ta nên tưởng tượng một hàm là một vectơ rất dài (trên thực tế, nó sẽ dài vô hạn?). Vì vậy, tôi tưởng tượng một phân phối trên các hàm là phân phối xác suất được vẽ "ở trên" các giá trị vectơ như vậy. Sau đó, nó sẽ là một xác suất mà một hàm sẽ lấy giá trị cụ thể này? Hoặc có khả năng là một hàm sẽ lấy một giá trị nằm trong một phạm vi nhất định không? Hoặc là phân phối trên các chức năng một xác suất được gán cho toàn bộ chức năng?

Trích dẫn từ sách giáo khoa:

Chương 1: Giới thiệu, trang 2

Một quá trình Gaussian là một khái quát của phân phối xác suất Gaussian. Trong khi phân phối xác suất mô tả các biến ngẫu nhiên là vô hướng hoặc vectơ (đối với phân phối đa biến), một quy trình ngẫu nhiên chi phối các thuộc tính của hàm. Bỏ sự tinh vi toán học sang một bên, người ta có thể lỏng lẻo nghĩ về một hàm như một vectơ rất dài, mỗi mục trong vectơ chỉ định giá trị hàm f (x) tại một đầu vào cụ thể x. Hóa ra, mặc dù ý tưởng này hơi ngây thơ, nhưng thật đáng ngạc nhiên là đóng những gì chúng ta cần. Thật vậy, câu hỏi về cách chúng ta xử lý tính toán với các đối tượng chiều vô hạn này có độ phân giải dễ chịu nhất có thể tưởng tượng: nếu bạn chỉ hỏi các thuộc tính của hàm tại một số điểm hữu hạn,

Chương 2: Hồi quy, trang 7

Có một số cách để giải thích các mô hình hồi quy quy trình Gaussian (GP). Người ta có thể nghĩ về một quá trình Gaussian khi xác định phân phối trên các hàm và suy luận diễn ra trực tiếp trong không gian của các hàm, khung nhìn không gian hàm.


Từ câu hỏi ban đầu:

Tôi đã thực hiện bức tranh khái niệm này để cố gắng hình dung điều này cho chính mình. Tôi không chắc chắn nếu lời giải thích như vậy mà tôi đưa ra cho chính mình là chính xác.

enter image description here


Sau khi cập nhật:

Sau câu trả lời của Gijs, tôi đã cập nhật bức tranh để có khái niệm giống như thế này:

enter image description here


3
kiểm tra điều này để được giải thích trực quan jgoertler.com/visual-explor-gaussian- Processes
bicepjai 26/2/19

Câu trả lời:


11

Khái niệm này là một chút trừu tượng hơn so với một phân phối thông thường. Vấn đề là chúng ta đã quen với khái niệm phân phối trên R , thường được hiển thị dưới dạng một dòng, sau đó mở rộng nó sang bề mặt R2 , và tiếp tục phân phối trên Rn . Nhưng không gian của các hàm không thể được biểu diễn dưới dạng hình vuông hoặc đường thẳng hoặc vectơ. Không phải là tội khi nghĩ theo cách đó, giống như bạn, nhưng lý thuyết hoạt động ở Rn , phải làm với khoảng cách, vùng lân cận và như vậy (điều này được gọi là cấu trúc liên kết của không gian), không giống nhau trong không gian của các chức năng. Vì vậy, vẽ nó như một hình vuông có thể cung cấp cho bạn trực giác sai về không gian đó.

Bạn có thể chỉ đơn giản nghĩ về không gian của các chức năng như một bộ sưu tập lớn các chức năng, có lẽ là một túi các thứ nếu bạn muốn. Phân phối ở đây sau đó cung cấp cho bạn xác suất vẽ một tập hợp con của những điều đó. Phân phối sẽ cho biết: xác suất mà lần rút tiếp theo của bạn (của một hàm) nằm trong tập hợp con này, ví dụ, là 10%. Trong trường hợp quy trình Gaussian trên các hàm theo hai chiều, bạn có thể yêu cầu, đưa ra một xphối hợp và một khoảngy-giá trị, đây là một đoạn thẳng đứng nhỏ, xác suất mà một hàm (ngẫu nhiên) sẽ đi qua dòng nhỏ này là bao nhiêu? Đó sẽ là một xác suất tích cực. Vì vậy, quy trình Gaussian chỉ định phân phối (xác suất) trên một không gian các hàm. Trong ví dụ này, tập hợp con của không gian các hàm là tập hợp con đi qua đoạn đường.

Một quy ước đặt tên khó hiểu khác ở đây là phân phối thường được chỉ định bởi hàm mật độ , chẳng hạn như hình chuông với phân phối bình thường. Ở đó, khu vực dưới hàm phân phối cho bạn biết khoảng thời gian có thể xảy ra. Tuy nhiên, điều này không hoạt động đối với tất cả các bản phân phối và đặc biệt, trong trường hợp các hàm (không phải R như với các bản phân phối bình thường), điều này hoàn toàn không hoạt động. Điều đó có nghĩa là bạn sẽ không thể viết phân phối này (như được quy định bởi quy trình Gaussian) dưới dạng hàm mật độ.


1
Cảm ơn, để làm rõ, đây không phải là phân phối trên các giá trị của một hàm, mà thay vào đó là phân phối trên một tập hợp các hàm, phải không? Một câu hỏi nữa tôi có: bạn đã nói rằng đây sẽ là một xác suất mà một hàm ngẫu nhiên sẽ đi qua một khoảng nhất định, vì vậy, ví dụ về GPR, nó sẽ là một hàm ngẫu nhiên nhưng từ một "họ" hàm cụ thể được cung cấp bởi hạt nhân hiệp phương sai?
camillejr

2
Vâng, nó là một phân phối trên một bộ sưu tập các chức năng. Ví dụ về việc chuyển qua một khoảng được áp dụng nếu bạn có quy trình Gaussian. Hạt nhân hiệp phương sai thực sự sẽ chỉ định một quy trình Gaussian. Vì vậy, nếu bạn biết một hạt nhân hiệp phương sai, bạn có thể tính xác suất của một hàm ngẫu nhiên đi qua một khoảng cụ thể.
Gijs

14

Câu hỏi của bạn đã được hỏi và được trả lời rất hay, trên trang Toán học SE:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-fifts

Có vẻ như bạn không quen thuộc với các khái niệm về các biện pháp Gaussian trên các không gian vô hạn , các hàm tuyến tính, các biện pháp đẩy, v.v. do đó tôi sẽ cố gắng giữ nó đơn giản nhất có thể.

L2([0,1])I=[0,1]RRn , chúng tôi đã được giúp đỡ bởi thực tế là số đo Lebesgue được xác định trên cả hai không gian. Tuy nhiên,L2 (hoặc bất kỳ không gian Banach vô hạn nào, cho vấn đề đó). Có nhiều giải pháp khác nhau cho câu hỏi hóc búa này, hầu hết trong số đó cần có sự quen thuộc tốt với Phân tích Chức năng.

Tuy nhiên, cũng có một "mẹo" đơn giản dựa trên định lý mở rộng Kolmogorov , về cơ bản là cách các quy trình ngẫu nhiên được đưa ra trong hầu hết các khóa học xác suất không mang nặng tính lý thuyết. Bây giờ tôi sẽ rất gợn sóng và không khắt khe, và giới hạn bản thân trong trường hợp các quy trình Gaussian. Nếu bạn muốn có một định nghĩa chung hơn, bạn có thể đọc câu trả lời ở trên hoặc tra cứu liên kết Wikipedia. Định lý mở rộng Kolmogorov, được áp dụng cho trường hợp sử dụng cụ thể của bạn, nêu rõ ít nhiều những điều sau:

  • Sn={t1,,tn}Ixn=(x(t1),,x(tn))
  • Sn,Sm,SnSmfSn(x1,,xn)fSm(x1,,xn,xn+1,,xm)fSmSmSnfSn

Rnm+1fSm(x1,,xn,xn+1,,xm)dxn+1dxm=fSn(x1,,xn)

  • XL2Snn

Định lý thực tế rộng rãi hơn, nhưng tôi đoán đây là những gì bạn đang tìm kiếm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.