Chính xác thì một không gian giả thuyết trong học máy là gì?

10

Trong khi tôi hiểu thuật ngữ này về mặt khái niệm, tôi đang đấu tranh để hiểu nó một cách hoạt động. Bất cứ ai có thể giúp tôi ra bằng cách cung cấp một ví dụ?

machine-learning terminology definition

— Năm
nguồn

Một không gian nơi chúng ta có thể dự đoán đầu ra bằng một tập hợp một số giả thuyết pháp lý (hoặc chức năng) và chức năng được thể hiện dưới dạng các tính năng.

— Abhishek Kumar

-4

Hãy nói rằng bạn có một hàm mục tiêu không xác định mà bạn đang cố gắng nắm bắt bằng cách học . Để nắm bắt được chức năng mục tiêu mà bạn phải đưa ra một số giả thuyết nơi . Ở đây, là không gian giả thuyết hoặc tập hợp của bạn. $f:X \rightarrow Y$ $h_1,...,h_n$ $h \in H$ $H$

Để biết thêm thông tin, hãy duyệt các trang trình bày của Abu-Mostafa: https://work.caltech.edu/textbook.html

— JimBoy
nguồn

7

Câu trả lời này hoàn toàn không có thông tin! Mối quan hệ dự định giữa , và gì? "Giả thuyết tập hợp" nghĩa là gì?

f

$f$

h

$h$

H

$H$

— whuber

4

Vui lòng dành vài phút với trung tâm trợ giúp của chúng tôi để tìm hiểu về trang web này và các tiêu chuẩn của nó, JimBoy.

— whuber

Câu trả lời nói rất rõ ràng, hhọc cách nắm bắt chức năng mục tiêu f. Hlà không gian trong đó h1, h2, .. hn đã được xác định.

— Logan

19

Giả sử một ví dụ với bốn tính năng nhị phân và một biến đầu ra nhị phân. Dưới đây là một bộ các quan sát:

x1 x2 x3 x4 | y
---------------
 0  0  0  1 | 0
 0  1  0  1 | 0
 1  1  0  0 | 1
 0  0  1  0 | 1

Tập hợp các quan sát này có thể được sử dụng bởi thuật toán học máy (ML) để tìm hiểu một chức năng fcó thể dự đoán một giá trị ycho bất kỳ đầu vào nào từ không gian đầu vào .

Chúng tôi đang tìm kiếm sự thật nền tảng f(x) = ygiải thích mối quan hệ giữa xvà ycho tất cả các đầu vào có thể theo cách chính xác.

Hàm fphải được chọn từ không gian giả thuyết .

Để có được ý tưởng tốt hơn: Không gian đầu vào nằm trong ví dụ , đó là số lượng đầu vào có thể. Không gian giả thuyết là vì với mỗi bộ tính năng của không gian đầu vào, hai kết quả ( và ) là có thể. $2^4$ $2^{2^4}=65536$ 01

Thuật toán ML giúp chúng ta tìm thấy một hàm , đôi khi còn được gọi là giả thuyết, từ không gian giả thuyết tương đối lớn.

Người giới thiệu

Một vài điều hữu ích cần biết về ML

— S
nguồn

1

Chỉ cần một lưu ý nhỏ cho câu trả lời của bạn: kích thước của không gian giả thuyết thực sự là 65.536, nhưng biểu thức dễ giải thích hơn cho nó sẽ là , vì, có mẫu duy nhất có thể, và do đó có thể gán nhãn cho toàn bộ không gian đầu vào.

2^{(2^{4})}

$2^{(2^4)}$

2^{4}

$2^4$

2^{(2^{4})}

$2^{(2^4)}$

— engelen

1

@engelen Cảm ơn lời khuyên của bạn, tôi đã chỉnh sửa câu trả lời.

— Vì vậy,

@SoS Một chức năng đó được gọi là phân loại ??

1

@Arjun Hedge: Không phải là một, nhưng một chức năng mà bạn đã học là trình phân loại. Trình phân loại có thể (và đó là mục tiêu của bạn) một chức năng.

— Vì vậy,

4

Không gian giả thuyết rất phù hợp với chủ đề của cái gọi là Bias-Variance Tradeoff trong khả năng tối đa. Đó là nếu số lượng tham số trong mô hình (chức năng giả thuyết) quá nhỏ để mô hình phù hợp với dữ liệu (biểu thị mức độ thiếu và không gian giả thuyết quá hạn chế), độ lệch cao; trong khi nếu mô hình bạn chọn chứa quá nhiều tham số cần thiết để phù hợp với dữ liệu thì phương sai rất cao (biểu thị quá mức và không gian giả thuyết quá biểu cảm).

Như đã nêu trong câu trả lời của So S ', nếu các tham số rời rạc, chúng ta có thể dễ dàng và tính toán cụ thể có bao nhiêu khả năng trong không gian giả thuyết (hoặc nó lớn đến mức nào), nhưng thông thường trong các trường hợp thực sự là các tham số liên tục. Do đó, nói chung không gian giả thuyết là không thể đếm được.

Dưới đây là một ví dụ tôi đã mượn và sửa đổi từ phần liên quan trong sách giáo khoa máy học cổ điển: Nhận dạng mẫu và Học máy để phù hợp với câu hỏi này:

Chúng tôi đang chọn một chức năng giả thuyết cho một chức năng chưa biết ẩn trong dữ liệu đào tạo được cung cấp bởi một người thứ ba tên là CoolGuy sống trong một hành tinh ngoài vũ trụ. Giả sử CoolGuy biết chức năng là gì, vì các trường hợp dữ liệu được cung cấp bởi anh ta và anh ta chỉ tạo dữ liệu bằng cách sử dụng chức năng. Hãy gọi nó (chúng tôi chỉ có dữ liệu hạn chế và CoolGuy có cả dữ liệu không giới hạn và chức năng tạo ra chúng) chức năng sự thật mặt đất và biểu thị nó bằng . $y(x, w)$

Đường cong màu xanh lá cây là và các vòng tròn nhỏ màu xanh là trường hợp chúng ta có (thực tế chúng không phải là trường hợp dữ liệu thực sự được truyền bởi CoolGuy vì nó sẽ bị ô nhiễm bởi một số nhiễu truyền, ví dụ như bởi macula hoặc những thứ khác). $y(x,w)$

Chúng tôi nghĩ rằng hàm ẩn đó sẽ rất đơn giản, sau đó chúng tôi thử mô hình tuyến tính (đưa ra giả thuyết với không gian rất hạn chế): chỉ với hai tham số: và , và chúng tôi đào tạo mô hình sử dụng dữ liệu của chúng tôi và chúng tôi có được điều này: $g_1(x, w)=w_0 + w_1 x$ $w_0$ $w_1$

Chúng ta có thể thấy rằng cho dù chúng ta sử dụng bao nhiêu dữ liệu để phù hợp với giả thuyết thì nó cũng không hoạt động vì nó không đủ biểu cảm.

Vì vậy, chúng tôi thử một giả thuyết biểu cảm hơn nhiều: với mười thông số thích nghi và chúng tôi cũng đào tạo mô hình và sau đó chúng tôi nhận được: $g_9=\sum_j^9 w_j x^j$ $w_0, w_1\cdots , w_9$

Chúng ta có thể thấy rằng nó quá biểu cảm và phù hợp với tất cả các trường hợp dữ liệu. Chúng tôi thấy rằng một không gian giả thuyết lớn hơn nhiều ( vì có thể được biểu thị bằng bằng cách đặt vì tất cả 0 $g_2$ $g_9$ $w_2, w_3, \cdots, w_9$ ) mạnh hơn giả thuyết đơn giản. Nhưng khái quát cũng tệ. Đó là, nếu chúng tôi nhận được nhiều dữ liệu hơn từ CoolGuy và để tham khảo, mô hình được đào tạo rất có thể thất bại trong những trường hợp không nhìn thấy đó.

Vậy thì không gian giả thuyết lớn đến mức nào đủ cho tập dữ liệu huấn luyện? Chúng ta có thể tìm thấy một cái gạt từ sách giáo khoa đã nói ở trên:

Một heuristic thô sơ đôi khi được ủng hộ là số lượng điểm dữ liệu phải không ít hơn một số bội số (giả sử 5 hoặc 10) số lượng tham số thích nghi trong mô hình.

Và bạn sẽ thấy trong sách giáo khoa rằng nếu chúng ta cố gắng sử dụng 4 tham số, , hàm được đào tạo đủ biểu cảm cho hàm bên dưới . Đây là một nghệ thuật đen để tìm số 3 (không gian giả thuyết thích hợp) trong trường hợp này. $g_3=w_0+w_1 x + w_2 x^2 + w_3 x^3$ $y=\sin(2\pi x)$

Sau đó, chúng ta có thể nói đại khái rằng không gian giả thuyết là thước đo mức độ biểu cảm của bạn để phù hợp với dữ liệu đào tạo. Giả thuyết đủ biểu cảm cho dữ liệu đào tạo là giả thuyết tốt với không gian giả thuyết biểu cảm. Để kiểm tra xem giả thuyết này tốt hay xấu, chúng tôi thực hiện xác nhận chéo để xem liệu nó có hoạt động tốt trong tập dữ liệu xác thực hay không. Nếu nó không bị thiếu (quá giới hạn) cũng không quá phù hợp (quá biểu cảm) thì không gian là đủ (theo Occam Razor, một cách đơn giản hơn là thích hợp hơn, nhưng tôi lạc đề).

— Zhang
nguồn

Cách tiếp cận này có vẻ phù hợp, nhưng lời giải thích của bạn không đồng ý với điều đó trên p. 5 tài liệu tham khảo đầu tiên của bạn: "Hàm được gọi là giả thuyết [an]. Một tập hợp các giả thuyết trong đó hàm gần đúng được tìm kiếm được gọi là [không gian giả thuyết]. (Tôi đồng ý rằng slide gây nhầm lẫn, bởi vì lời giải thích của nó hoàn toàn yêu cầu , trong khi đó được gắn nhãn chung là "các lớp" trong sơ đồ. Nhưng chúng ta đừng bỏ qua sự nhầm lẫn đó: hãy khắc phục nó.)

h : X \to {0, 1}

$h:X\to\{0,1\}$

H

$H$

y

$y$

C = {0, 1}

$C=\{0,1\}$

— whuber

1

@whuber Tôi đã cập nhật câu trả lời của mình chỉ hơn hai năm sau khi tôi đã học được nhiều kiến thức hơn về chủ đề này. Vui lòng giúp kiểm tra xem tôi có thể khắc phục nó theo cách tốt hơn không. Cảm ơn.

— Lerner Zhang