Tôi đang đọc cuốn sách Deep Learning và tình cờ thấy đoạn sau (trang 109, đoạn thứ hai):
Dữ liệu huấn luyện và kiểm tra được tạo bởi phân phối xác suất trên các bộ dữ liệu được gọi là quá trình tạo dữ liệu. Chúng tôi thường tạo ra một tập hợp các giả định được gọi chung là các giả định iid. Các giả định này là các ví dụ trong mỗi tập dữ liệu độc lập với nhau và tập huấn luyện và tập kiểm tra được phân phối giống hệt nhau, được rút ra từ cùng một phân phối xác suất như nhau. Giả định này cho phép chúng tôi mô tả quá trình tạo dữ liệu với phân phối xác suất qua một ví dụ duy nhất. Phân phối tương tự sau đó được sử dụng để tạo mọi ví dụ về tàu và mọi ví dụ kiểm tra. Chúng tôi gọi phân phối cơ bản được chia sẻ đó là phân phối tạo dữ liệu, ký hiệu là. Khung xác suất này và các giả định iid cho phép chúng tôi nghiên cứu một cách toán học mối quan hệ giữa lỗi đào tạo và lỗi kiểm tra.
Ai đó có thể vui lòng giải thích cho tôi ý nghĩa của đoạn này?
Ở trang 122 đoạn cuối, nó cũng đưa ra một ví dụ
một tập hợp các mẫu được phân phối độc lập và giống hệt nhau theo phân phối Bernoulli với trung bình .
Điều đó có nghĩa là gì?
Dưới đây là một vài câu hỏi cụ thể hơn.
Phân phối xác suất trên các tập dữ liệu: Các tập dữ liệu là gì? Làm thế nào là phân phối xác suất được tạo ra?
Các ví dụ là độc lập với nhau. Bạn có thể cho tôi một ví dụ về nơi các ví dụ phụ thuộc?
Rút ra từ phân phối xác suất giống nhau. Giả sử phân phối xác suất là Gaussian. Có phải thuật ngữ "Phân phối xác suất giống nhau" có nghĩa là tất cả các ví dụ được rút ra từ phân phối Gaussian có cùng giá trị trung bình và phương sai không?
"Giả định này cho phép chúng tôi". Điều đó có nghĩa là gì?
Cuối cùng, đối với đoạn cuối của trang 122, người ta cho rằng các mẫu tuân theo phân phối Bernoulli. Điều này có nghĩa là trực giác?