Các ví dụ thực tế của các mô hình thống kê phi tham số là gì?


11

Tôi đang đọc bài viết trên Wikipedia về các mô hình thống kê ở đây và tôi hơi bối rối về ý nghĩa của "các mô hình thống kê không tham số", cụ thể:

Một mô hình thống kê là không tham số nếu bộ tham số là chiều vô hạn. Một mô hình thống kê là bán tổng thể nếu nó có cả tham số hữu hạn chiều và vô hạn. Chính thức, nếu là kích thước của và là số lượng mẫu, cả hai mô hình bán tổng thể và không tham số đều có là . Nếu là , thì mô hình là semiparametric; mặt khác, mô hình là không đối xứng.d Θ n d n d / n 0 n ΘdΘndnd/n0n

Tôi hiểu rằng nếu kích thước , (tôi hiểu điều đó theo nghĩa đen, số lượng tham số) của một mô hình là hữu hạn, thì đây là một mô hình tham số.

Điều không có ý nghĩa với tôi, là làm thế nào chúng ta có thể có một mô hình thống kê có số lượng tham số vô hạn , sao cho chúng ta gọi nó là "không tham số". Hơn nữa, ngay cả khi đó là trường hợp, tại sao "không", nếu trên thực tế có vô số kích thước? Cuối cùng, vì tôi đến từ nền tảng học máy, có sự khác biệt nào giữa "mô hình thống kê không tham số" này và nói, "mô hình học máy không tham số" không? Cuối cùng, một số ví dụ cụ thể có thể là "mô hình chiều vô hạn không tham số" như vậy là gì?


3
Sử dụng một trang Wiki khác ( en.wikipedia.org/wiki/ ( ): 'Các mô hình không tham số khác với các mô hình tham số ở chỗ cấu trúc mô hình không được chỉ định trước nhưng được xác định từ dữ liệu. Thuật ngữ không tham số không có nghĩa là các mô hình như vậy hoàn toàn thiếu tham số mà là số lượng và bản chất của các tham số là linh hoạt và không cố định trước. ' vì vậy không tham số không có số lượng tham số vô hạn mà là số lượng tham số không xác định.
Riff

Tôi có một nghi ngờ. Trong các mô hình không tham số, chúng tôi xác định cấu trúc của mô hình là một ưu tiên. Ví dụ: trong Cây quyết định (là mô hình Không tham số), chúng tôi xác định max_depth. Sau đó, làm thế nào bạn có thể nói rằng tham số này thực sự được học / xác định từ chính dữ liệu và không được xác định trước bởi chúng tôi?
Amarpreet Singh

Câu trả lời:


4

Như Johnnyboycurtis có câu trả lời, các phương pháp không tham số là những phương pháp nếu nó không đưa ra giả định về phân bố dân số hoặc cỡ mẫu để tạo ra một mô hình.

Mô hình k-NN là một ví dụ về mô hình không tham số vì nó không xem xét bất kỳ giả định nào để phát triển mô hình. Một Naive Bayes hoặc K-mean là một ví dụ về tham số vì nó giả định một phân phối để tạo ra một mô hình.

Ví dụ, K-nghĩa là giả định sau đây để phát triển một mô hình Tất cả các cụm là hình cầu (iid Gaussian). Tất cả các trục có cùng phân phối và do đó phương sai. Tất cả các cụm có kích thước đồng đều.

Đối với k-NN, nó sử dụng bộ huấn luyện hoàn chỉnh để dự đoán. Nó tính toán các hàng xóm gần nhất từ ​​điểm kiểm tra để dự đoán. Nó giả định không có phân phối để tạo ra một mô hình.

Để biết thêm thông tin:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. /stats//a/133841/86202
  3. /stats//a/133694/86202

Bạn có thể mở rộng về điều này xin vui lòng? Tại sao KNN là một ví dụ về không tham số và tại sao K-nghĩa là gì? Đó là những chi tiết tôi theo sau, ví dụ về các phương pháp không tham số và tại sao / làm thế nào chúng không có giả định về phân bố dân số. Cảm ơn!
Creatron

@Creatron Tôi đã sửa đổi câu trả lời để giải thích thêm.
prashanth

3

Vì vậy, tôi nghĩ rằng bạn đang thiếu một vài điểm. Đầu tiên và quan trọng nhất là

Một phương pháp thống kê được gọi là không tham số nếu nó không đưa ra giả định về phân bố dân số hoặc cỡ mẫu.

Dưới đây là một hướng dẫn đơn giản (được áp dụng) trên một số mô hình không thuộc tính: http://www.r-tutor.com/elementary-statistic/non-parametric-methods

Một nhà nghiên cứu có thể quyết định sử dụng mô hình không đối xứng so với mô hình tham số, giả sử, hồi quy không đối xứng so với hồi quy tuyến tính, là do dữ liệu vi phạm các giả định của mô hình tham số. Vì bạn đến từ nền ML, tôi sẽ cho rằng bạn chưa bao giờ học các giả định mô hình hồi quy tuyến tính điển hình. Dưới đây là một tài liệu tham khảo: https://statistic.laerd.com/spss-tutorials/linear-regression-USE-spss-statistic.php

Các giả định vi phạm có thể làm sai lệch các ước tính tham số của bạn và cuối cùng làm tăng nguy cơ kết luận không hợp lệ. Một mô hình phi tham số mạnh mẽ hơn đối với các ngoại lệ, các mối quan hệ phi tuyến tính và không phụ thuộc vào nhiều giả định phân phối dân số, do đó, có thể cung cấp kết quả đáng tin cậy hơn khi cố gắng đưa ra các kết luận hoặc dự đoán.

Để có hướng dẫn nhanh về hồi quy không theo tỷ lệ, tôi khuyên bạn nên sử dụng các slide này: http://socserv.socsci.mcmaster.ca/jfox/Cifts/Oxford-2005/slides-handout.pdf


Cảm ơn các liên kết, tôi sẽ đi qua chúng. Mặc dù vậy, có một điều là chúng ta phải kết hôn như thế nào với "số lượng tham số vô hạn" tạo nên mô hình "không tham số"? Cảm ơn
Creatron

Không có trích dẫn cho "số lượng tham số vô hạn" đó nên tôi không thể bình luận. Tôi chưa bao giờ thấy một tài liệu tham khảo như vậy về chủ đề của mô hình thống kê phi tham số, vì vậy tôi sẽ cần phải xem một tài liệu tham khảo trước khi tôi có thể đưa ra câu trả lời / giải thích. Hiện tại, tôi sẽ lo lắng về các giả định đối với các mô hình cụ thể so với toàn bộ lĩnh vực.
Jon

Bài viết trên wikipedia được trích dẫn trong câu hỏi của tôi đề cập đến chiều kích vô hạn. Nghĩa đen: "Một mô hình thống kê là không tham số nếu bộ tham số là chiều vô hạn." Điều đó có nghĩa là gì? Đây là những gì tôi đang đề cập đến.
Creatron

Tôi biết. Nhưng Wikipedia không cung cấp một trích dẫn cho tuyên bố đó. Không thể tin tưởng một cái gì đó mà không cần một tài liệu tham khảo.
Jon

3

Tôi hiện đang tham gia một khóa học về Machine learning, nơi chúng tôi sử dụng định nghĩa sau đây về các mô hình không tham số: "Các mô hình không tham số phát triển phức tạp với kích thước của dữ liệu".

Mô hình tham số

Để xem ý nghĩa của nó, chúng ta hãy xem hồi quy tuyến tính, một mô hình tham số: Ở đó chúng tôi cố gắng dự đoán một hàm được tham số hóa trong : Tính độc lập của w không phụ thuộc vào số các quan sát, hoặc kích thước của dữ liệu của bạn. f ( x ) = w T xwd

f(x)=wTx

Mô hình không tham số

Thay vào đó, hồi quy kernel cố gắng dự đoán hàm sau: trong đó chúng ta có điểm dữ liệu, là các trọng số và là hàm kernel. Ở đây, số lượng các tham số là phụ thuộc vào số lượng các điểm dữ liệu .n α i k ( x i , x ) α i n

f(x)=i=1nαik(xi,x)
nαik(xi,x)αin

Điều tương tự cũng đúng với perceptron được nhân hóa:

f(x)=sign(i=1nαiyik(xi,x)))

Hãy quay lại định nghĩa của bạn và nói d là số . Nếu chúng ta để thì . Đó chính xác là những gì định nghĩa wikipedia yêu cầu. n d αind

Tôi đã lấy hàm hồi quy kernel từ các slide bài giảng của mình và hàm perceptron được nhân hóa từ wikipedia: https://en.wikipedia.org/wiki/Kernel_method

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.