Cỡ mẫu liên quan đến dự đoán trong phân loại và hồi quy


8

Đối với thử nghiệm giả thuyết, việc ước tính kích thước mẫu được thực hiện thông qua sức mạnh và điều trực quan là việc tăng cùng kích thước sẽ làm tăng độ chính xác của hiệu ứng ước tính. Nhưng những gì về dự đoán cho cả phân loại và hồi quy? Những khía cạnh nào của vấn đề dự đoán bị ảnh hưởng bởi kích thước mẫu ngoài việc ước tính lỗi tổng quát hóa hoặc RMSE cho hồi quy.

Tóm lại, các thuộc tính đóng góp cho sức mạnh trong cài đặt kiểm tra giả thuyết khác với các thuộc tính cho phép dự đoán thành công thông qua mô hình hồi quy / khai thác dữ liệu / mô hình thuật toán bị phạt. Làm thế nào để kích thước mẫu ảnh hưởng đến sự thành công của các kỹ thuật này?

Một bài báo mô tả ý tưởng này là bài này .

Bất cứ ai có thể cung cấp tài liệu tham khảo cho ý kiến ​​của họ? Cảm ơn.


2
Không thực sự rõ ràng những gì bạn tìm kiếm ở đây, không phải là bài tập về nhà này? Một điều không có trong các công thức là các bộ dữ liệu thực sự lớn có thể mang đến những vấn đề lớn hơn về tính không đồng nhất, chất lượng dữ liệu và các giá trị bị thiếu. Các lập luận có thể nhìn thấy trong các cuộc thảo luận về giá trị tương đối của các cuộc tổng điều tra quốc gia so với các khảo sát mẫu được kiểm soát chặt chẽ hơn.
Nick Cox

1
Tôi đã thêm một số chi tiết. Đã ra khỏi trường trong nhiều năm, vì vậy không có bài tập về nhà!
julieth

"Các vấn đề lớn hơn về tính không đồng nhất, chất lượng dữ liệu và các giá trị bị thiếu": nếu tập dữ liệu nhỏ đồng nhất hơn, thì việc khái quát hóa (ngoại suy các tình huống trong tập dữ liệu lớn) có thể nghi ngờ / kém. Nói cách khác: bạn có thể quá phù hợp với tập dữ liệu nhỏ. (Trừ khi lớn ngụ ý một sự đánh đổi. [Tín hiệu] chất lượng)
cbeleites không hài lòng với SX

Có một vài biện pháp để xem xét bao gồm lỗi, khái quát hóa, phân tích cú pháp, tính toán các thao tác cần thiết và kích thước bộ nhớ cần thiết. Khi tôi nhìn vào điều này tôi thấy hai giá trị quen thuộc: hiệu suất và chi phí. Tổng quát hóa, hình thức và lỗi là về hiệu suất sau phù hợp. Họ là người trả giá. Tính thời gian, độ phức tạp của mã, kích thước bộ nhớ là về mức độ khó của mã, gỡ lỗi và chạy dữ liệu thông qua mô hình. Họ là về chi phí. Khi suy nghĩ về "ảnh hưởng", tất cả ảnh hưởng đều dẫn đến hai biện pháp đó, hoặc nó không tồn tại.
EngrStudent

Câu trả lời:


1

Về cơ bản, tôi nghĩ bạn hỏi trực giác kích thước mẫu ảnh hưởng đến kỹ thuật học máy như thế nào. Vì vậy, yếu tố thực sự ảnh hưởng đến kích thước mẫu được yêu cầu là kích thước của không gian mà dữ liệu sống và độ thưa thớt của nó. Tôi sẽ cho bạn hai ví dụ, vì tôi thấy thật khó để tóm tắt mọi thứ trong một ...

  • Giả sử bạn có một số dữ liệu dày đặc và bạn cố gắng điều chỉnh mô hình bằng một số hồi quy. Nếu dữ liệu tuân theo đa thức bậc thì bạn cần thêm dữ liệu đó để thuật toán của bạn có thể tìm đúng đường cong. Nếu không, nó sẽ làm cho một mô hình quá đơn giản, khác với thực tế. Tất nhiên trong thực tế sẽ có tiếng ồn, vì vậy bạn cần nhiều dữ liệu hơn để tạo ra một mô hình tốt hơn.nn

  • Giả sử bạn có một số dữ liệu thưa thớt, tức là hầu hết các kích thước là số không. Một ví dụ như vậy là văn bản, như tweet hoặc SMS (quên sách bây giờ), trong đó tần suất của mỗi từ là một thứ nguyên và tất nhiên tài liệu không có phần lớn các từ trong từ điển (không gian thưa thớt). Bạn cố gắng phân loại các tweet dựa trên chủ đề của họ. Các thuật toán, như kNN, SVM, v.v., hoạt động dựa trên sự tương đồng giữa các mẫu, ví dụ 1-NN sẽ tìm thấy tweet trong tập huấn luyện gần nhất với tập mà bạn cố gắng phân loại và nó sẽ gán nhãn tương ứng. Tuy nhiên, vì sự thưa thớt ... hãy đoán xem ... hầu hết các điểm tương đồng đều bằng không! Đơn giản vì tài liệu không chia sẻ đủ từ. Để có thể đưa ra dự đoán, bạn cần có đủ dữ liệu để một cái gì đó trong tập huấn luyện của bạn giống với các tài liệu chưa biết mà bạn cố gắng phân loại.


0

Tôi không hiểu câu hỏi đầy đủ. Nói chung một mẫu lớn hơn sẽ mang lại (ví dụ) một phân loại tốt hơn. Trừ khi lớn hơn có nghĩa là quan sát chất lượng xấu. Một mẫu nhỏ sẽ làm cho rất nhiều mô hình trở nên vô dụng. Ví dụ, vì các mô hình dựa trên cây là một kiểu tiếp cận "thần thánh và chinh phục", hiệu quả của chúng phụ thuộc rất nhiều vào kích thước của mẫu đào tạo.

Mặt khác, nếu bạn quan tâm đến việc học thống kê ở các chiều cao, tôi nghĩ rằng mối quan tâm của bạn có liên quan nhiều hơn đến lời nguyền của chiều. Nếu kích thước mẫu của bạn là "nhỏ" và không gian tính năng của bạn là kích thước "cao", dữ liệu của bạn sẽ hoạt động như thể nó thưa thớt và hầu hết các thuật toán sẽ có một thời gian khủng khiếp khi cố gắng hiểu ý nghĩa của nó. Trích dẫn John A. Richards trong phân tích hình ảnh kỹ thuật số viễn thám:

Giảm tính năng và tách biệt

Chi phí phân loại tăng theo số lượng các tính năng được sử dụng để mô tả các vectơ pixel trong không gian đa bán cầu - tức là với số lượng các dải quang phổ liên kết với một pixel. Đối với các phân loại như các thủ tục khoảng cách song song và tối thiểu, đây là mức tăng tuyến tính với các tính năng; tuy nhiên để phân loại khả năng tối đa, quy trình thường được ưu tiên nhất, chi phí tăng với các tính năng là bậc hai. Do đó, điều hợp lý về mặt kinh tế là đảm bảo rằng không có nhiều tính năng hơn mức cần thiết được sử dụng khi thực hiện phân loại. Mục 8.2.6 thu hút sự chú ý đến số lượng pixel đào tạo cần thiết để đảm bảo có thể thu được các ước tính đáng tin cậy về các tín hiệu của lớp. Cụ thể, số lượng pixel đào tạo cần thiết tăng theo số lượng băng tần hoặc kênh trong dữ liệu. Đối với dữ liệu chiều cao, chẳng hạn như từ máy quang phổ hình ảnh, yêu cầu đó đặt ra một thách thức khá lớn trong thực tế, do đó, việc giữ số lượng các tính năng được sử dụng trong phân loại càng ít càng tốt là rất quan trọng nếu kết quả đáng tin cậy được dự kiến ​​từ số lượng pixel đào tạo phải chăng. Các tính năng không hỗ trợ phân biệt đối xử, bằng cách đóng góp ít vào sự phân tách của các lớp phổ, nên bị loại bỏ. Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. do đó, việc giữ số lượng các tính năng được sử dụng trong phân loại càng ít càng tốt là điều quan trọng nếu kết quả đáng tin cậy được dự kiến ​​từ số lượng pixel đào tạo phải chăng. Các tính năng không hỗ trợ phân biệt đối xử, bằng cách đóng góp ít vào sự phân tách của các lớp phổ, nên bị loại bỏ. Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. do đó, việc giữ số lượng các tính năng được sử dụng trong phân loại càng ít càng tốt là điều quan trọng nếu kết quả đáng tin cậy được dự kiến ​​từ số lượng pixel đào tạo phải chăng. Các tính năng không hỗ trợ phân biệt đối xử, bằng cách đóng góp ít vào sự phân tách của các lớp phổ, nên bị loại bỏ. Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. nên bỏ đi Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này. nên bỏ đi Loại bỏ các tính năng kém hiệu quả nhất được gọi là lựa chọn tính năng, đây là một hình thức giảm tính năng. Cách khác là biến đổi vectơ pixel thành một tập hợp tọa độ mới, trong đó các tính năng có thể được loại bỏ được thể hiện rõ hơn. Cả hai thủ tục được xem xét trong một số chi tiết trong chương này.

Điều đó có nghĩa là vấn đề là hai lần, tìm các tính năng có liên quan và kích thước samp bạn đề cập. Đến bây giờ bạn có thể tải xuống sách miễn phí nếu bạn tìm kiếm nó trên google.

Một cách khác để đọc câu hỏi của bạn mà tôi đặc biệt quan tâm là: trong việc học có giám sát, bạn chỉ có thể thực sự xác nhận các mô hình của mình trên dữ liệu kiểm tra bằng cách xác thực chéo và những gì không. Nếu mẫu được dán nhãn mà bạn lấy được mẫu thử nghiệm / tàu thử không thể hiện tốt vũ trụ của bạn, kết quả xác nhận có thể không áp dụng cho vũ trụ của bạn. Làm thế nào bạn có thể đo lường tính đại diện của mẫu được dán nhãn của bạn?


địa tầng là một cách tốt để đo lường tính đại diện. Bao gồm những điều này trong một mô hình hỗn hợp với phương sai được ước tính bởi REML là một cách tốt để kết hợp sự không chắc chắn về tầng lớp vắng mặt trong dự đoán của bạn.
xác suất

Hoàn toàn lạc đề, bạn có thể giới thiệu một số thư mục về Edwin Jaynes và "xác suất như logic mở rộng" không? Lời chào hỏi!
JEquihua

trang web này là một nơi tốt để bắt đầu
xác suất
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.