Tôi không hiểu câu hỏi đầy đủ. Nói chung một mẫu lớn hơn sẽ mang lại (ví dụ) một phân loại tốt hơn. Trừ khi lớn hơn có nghĩa là quan sát chất lượng xấu. Một mẫu nhỏ sẽ làm cho rất nhiều mô hình trở nên vô dụng. Ví dụ, vì các mô hình dựa trên cây là một kiểu tiếp cận "thần thánh và chinh phục", hiệu quả của chúng phụ thuộc rất nhiều vào kích thước của mẫu đào tạo.
Mặt khác, nếu bạn quan tâm đến việc học thống kê ở các chiều cao, tôi nghĩ rằng mối quan tâm của bạn có liên quan nhiều hơn đến lời nguyền của chiều. Nếu kích thước mẫu của bạn là "nhỏ" và không gian tính năng của bạn là kích thước "cao", dữ liệu của bạn sẽ hoạt động như thể nó thưa thớt và hầu hết các thuật toán sẽ có một thời gian khủng khiếp khi cố gắng hiểu ý nghĩa của nó. Trích dẫn John A. Richards trong phân tích hình ảnh kỹ thuật số viễn thám:
Giảm tính năng và tách biệt
Chi phí phân loại tăng theo số lượng các tính năng được sử dụng để mô tả các vectơ pixel trong không gian đa bán cầu - tức là với số lượng các dải quang phổ liên kết với một pixel. Đối với các phân loại như các thủ tục khoảng cách song song và tối thiểu, đây là mức tăng tuyến tính với các tính năng; tuy nhiên để phân loại khả năng tối đa, quy trình thường được ưu tiên nhất, chi phí tăng với các tính năng là bậc hai. Do đó, điều hợp lý về mặt kinh tế là đảm bảo rằng không có nhiều tính năng hơn mức cần thiết được sử dụng khi thực hiện phân loại. Mục 8.2.6 thu hút sự chú ý đến số lượng pixel đào tạo cần thiết để đảm bảo có thể thu được các ước tính đáng tin cậy về các tín hiệu của lớp. Cụ thể, số lượng pixel đào tạo cần thiết tăng theo số lượng băng tần hoặc kênh trong dữ liệu. Đối với dữ liệu chiều cao, chẳng hạn như từ máy quang phổ hình ảnh, yêu cầu đó đặt ra một thách thức khá lớn trong thực tế, do đó, việc giữ số lượng các tính năng được sử dụng trong phân loại càng ít càng tốt là rất quan trọng nếu kết quả đáng tin cậy được dự kiến từ số lượng pixel đào tạo phải chăng. Các tính năng không hỗ trợ phân biệt đối xử, bằng cách đóng góp ít vào sự phân tách của các lớp phổ, nên bị loại bỏ. Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. do đó, việc giữ số lượng các tính năng được sử dụng trong phân loại càng ít càng tốt là điều quan trọng nếu kết quả đáng tin cậy được dự kiến từ số lượng pixel đào tạo phải chăng. Các tính năng không hỗ trợ phân biệt đối xử, bằng cách đóng góp ít vào sự phân tách của các lớp phổ, nên bị loại bỏ. Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. do đó, việc giữ số lượng các tính năng được sử dụng trong phân loại càng ít càng tốt là điều quan trọng nếu kết quả đáng tin cậy được dự kiến từ số lượng pixel đào tạo phải chăng. Các tính năng không hỗ trợ phân biệt đối xử, bằng cách đóng góp ít vào sự phân tách của các lớp phổ, nên bị loại bỏ. Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. nên bỏ đi Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. nên bỏ đi Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này.
Điều đó có nghĩa là vấn đề là hai lần, tìm các tính năng có liên quan và kích thước samp bạn đề cập. Đến bây giờ bạn có thể tải xuống sách miễn phí nếu bạn tìm kiếm nó trên google.
Một cách khác để đọc câu hỏi của bạn mà tôi đặc biệt quan tâm là: trong việc học có giám sát, bạn chỉ có thể thực sự xác nhận các mô hình của mình trên dữ liệu kiểm tra bằng cách xác thực chéo và những gì không. Nếu mẫu được dán nhãn mà bạn lấy được mẫu thử nghiệm / tàu thử không thể hiện tốt vũ trụ của bạn, kết quả xác nhận có thể không áp dụng cho vũ trụ của bạn. Làm thế nào bạn có thể đo lường tính đại diện của mẫu được dán nhãn của bạn?