Có bất kỳ kiểm tra thống kê nào là tham số và không tham số?


20

Có bất kỳ kiểm tra thống kê nào là tham số và không tham số? Câu hỏi này đã được hỏi bởi một hội đồng phỏng vấn. Là câu hỏi hợp lệ?


1
Nghiên cứu mục nhập wikipedia để thống kê không theo số liệu có thể đủ để chuẩn bị cho bạn một người phỏng vấn. Bạn có thể trả lời câu hỏi bằng một câu hỏi, như trong "ý bạn là gì bởi không tham số? Các mô hình không phân phối hoặc thống kê thứ tự xếp hạng?"
jrhorn424

3
Như một điểm khởi hành, nó có thể giúp bạn, cũng như những người được hỏi của bạn, tham khảo ý kiến ​​của một cơ quan ( không phải Internet!) Liên quan đến các định nghĩa. "Các trường hợp tham số ... là tất cả các trường hợp trong đó lớp của tất cả [trạng thái tự nhiên] có thể được biểu diễn dưới dạng vectơ bao gồm một số lượng hữu hạn các thành phần thực theo cách tự nhiên. (... phân phối và chức năng mất phụ thuộc vào một cách hợp lý trơn tru.) Tất cả các vấn đề khác được gọi là không theo tỷ lệ . --JC Kiefer, Giới thiệu về suy luận thống kê, trang 23.θθθ
whuber

Một trong những Giáo sư nói với tôi rằng 'Bài kiểm tra Chi-Square' có cả hai hành vi (nghĩa là tham số và không tham số). Tôi hoàn toàn không hiểu, tại sao 'chi bình phương' lại có cả hai hành vi.
Biuler

3
Đây không phải là bài kiểm tra tham số, đó là mô hình . Phân phối chi bình phương phát sinh trong cả hai tình huống (theo cách tự nhiên trong mô hình tuyến tính tổng quát với các giả định phân phối chuẩn và như là một xấp xỉ cho sự khác biệt của khả năng đăng nhập - cả hai ứng dụng tham số - và cũng là một xấp xỉ cho đa phương thức phân phối phát sinh trong nhiều ứng dụng phi tham số), do đó, có nhiều thử nghiệm khác nhau chia sẻ tên "chi bình phương". Đây có lẽ là những gì đề nghị nhận xét của giáo sư của bạn.
whuber

@whuber: Nhận xét cuối cùng của bạn có nghĩa là kiểm tra chi bình phương cho mức độ phù hợp là không đối xứng?
Tim

Câu trả lời:


6

Về cơ bản rất khó để nói chính xác ý nghĩa của "kiểm tra tham số" và "kiểm tra không tham số", mặc dù có nhiều ví dụ cụ thể trong đó hầu hết sẽ đồng ý về việc kiểm tra là tham số hay không tham số (nhưng không bao giờ cả hai) . Một tìm kiếm nhanh đã đưa ra bảng này , mà tôi tưởng tượng đại diện cho một sự phân biệt thực tế phổ biến trong một số lĩnh vực giữa các xét nghiệm tham số và không tham số.

Ngay phía trên bảng đề cập đến có một nhận xét:

"... dữ liệu tham số có phân phối bình thường cơ bản .... Bất cứ điều gì khác là không tham số."

Nó có thể là một tiêu chí được chấp nhận trong một số lĩnh vực mà chúng tôi sử dụng tính quy tắc và sử dụng ANOVA, và đây là tham số, hoặc chúng tôi không giả định tính quy tắc và sử dụng các phương án không tham số.

Có lẽ đó không phải là một định nghĩa hay và theo tôi thì nó không thực sự đúng, nhưng nó có thể là một quy tắc thực tế. Chủ yếu là vì mục tiêu cuối cùng trong khoa học xã hội, là, để phân tích dữ liệu, và nó có thể tạo ra một mô hình tham số dựa trên phân phối không bình thường và sau đó không thể phân tích dữ liệu?

Một định nghĩa khác, là định nghĩa "các thử nghiệm không tham số" là các thử nghiệm không dựa trên các giả định phân phối và thử nghiệm tham số như bất kỳ thứ gì khác.

Định nghĩa trước cũng như định nghĩa sau được trình bày định nghĩa một lớp kiểm tra và sau đó định nghĩa lớp khác là phần bù (bất cứ thứ gì khác). Theo định nghĩa, quy tắc này chỉ ra rằng một bài kiểm tra có thể là tham số cũng như không tham số.

Sự thật là định nghĩa sau cũng có vấn đề. Điều gì xảy ra nếu có một số giả định "không tham số" tự nhiên, như đối xứng, có thể được áp đặt? Điều đó sẽ biến một thống kê kiểm tra mà không dựa vào bất kỳ giả định phân phối nào thành một thử nghiệm tham số? Hầu hết sẽ nói không!

Do đó, có các bài kiểm tra trong lớp các bài kiểm tra không tham số được phép đưa ra một số giả định phân phối miễn là chúng không "quá tham số". Đường biên giữa các xét nghiệm "tham số" và "không tham số" đã bị mờ, nhưng tôi tin rằng hầu hết sẽ ủng hộ rằng xét nghiệm là tham số hoặc không phải là tham số, có lẽ không thể nhưng nói rằng đó là cả hai làm cho ít ý nghĩa-

Theo quan điểm khác nhau, nhiều xét nghiệm tham số là (tương đương) các thử nghiệm tỷ lệ khả năng. Điều này làm cho một lý thuyết chung có thể, và chúng tôi có một sự hiểu biết thống nhất về các tính chất phân phối của các thử nghiệm tỷ lệ khả năng trong các điều kiện đều đặn phù hợp. Ngược lại, các xét nghiệm không tham số không tương đương với các xét nghiệm tỷ lệ khả năng mỗi lần không có khả năng - và không có phương pháp thống nhất dựa trên khả năng chúng tôi phải lấy kết quả phân phối theo từng trường hợp cụ thể. Lý thuyết về khả năng thực nghiệm--được phát triển chủ yếu bởi Art Owen tại Stanford, tuy nhiên, là một sự thỏa hiệp rất thú vị. Nó đưa ra một cách tiếp cận dựa trên khả năng thống kê (một điểm quan trọng đối với tôi, vì tôi coi khả năng đó là một đối tượng quan trọng hơn so với giá trị , nói) mà không cần các giả định phân phối tham số điển hình. Ý tưởng cơ bản là sử dụng thông minh phân phối đa thức trên dữ liệu thực nghiệm, các phương pháp rất "tham số" nhưng hợp lệ mà không hạn chế các giả định tham số.p

Các xét nghiệm dựa trên khả năng dựa trên kinh nghiệm, IMHO, ưu điểm của các xét nghiệm tham số và tính tổng quát của các xét nghiệm không tham số, do đó trong số các xét nghiệm tôi có thể nghĩ ra, chúng đến gần nhất để đủ điều kiện tham gia cũng như không tham số, mặc dù tôi sẽ không sử dụng thuật ngữ này.


+1 Nhận xét rất thú vị. Theo như đường biên giới trở nên "mờ", tôi coi đó là một tuyên bố chính xác về nhận thức, nhưng bản thân các định nghĩa không có sự mờ nhạt: sự khác biệt giữa tham số và không tham số là rõ ràng và sắc nét như giữa, nói, hữu hạn và vô hạn.
whuber

@whuber, liên quan đến những gì "mờ", tôi đặc biệt đề cập đến thực tế là có thể có các giả định phân phối cho các thử nghiệm không tham số, do đó định nghĩa thứ hai của tôi cũng không hoạt động. Nếu tôi nên thử một định nghĩa sắc nét, một thử nghiệm tham số dựa trên một mô hình có thể được tham số hóa bởi một tập hợp con của không gian Euclide hữu hạn. Điều tôi nghĩ là "mờ nhạt" nhất là nó không rõ ràng, đối với tôi, "không có giả định phân phối" bao xa trước khi các giả định không tham số trở thành vấn đề như các giả định tham số.
NRH

@whuber, bây giờ tôi đã đọc bình luận của bạn cho câu hỏi có liên quan đến Kiefer, và vâng, đó chắc chắn là một ý tưởng tốt để tham khảo một cơ quan có thẩm quyền cho một định nghĩa chính thức! Tôi đã thực sự hơn liên quan với những gì mọi người thường có nghĩa là khi họ nói "phi tham số", và tôi đoán rằng ít có một Kiefer nét trong tâm trí của họ.
NRH

Xem trích dẫn của tôi từ Kiefer trong một bình luận cho câu hỏi ban đầu. Cụ thể, "không tham số" không có nghĩa là "không có giả định phân phối". Ngược lại, các xét nghiệm phi tham số nổi tiếng nhất đều đưa ra các giả định phân phối. Tôi nghĩ rằng tôi hiểu ý nghĩa của bạn về "mờ": Tôi đã chọn sự tương tự hữu hạn / vô hạn đối với điều đó, bởi vì trong thực tế, một số lượng lớn các thông số (nhưng hữu hạn) cũng có thể được coi là vô hạn.
whuber

2

Tham số được sử dụng trong (ít nhất) hai ý nghĩa: A - Để tuyên bố bạn đang giả sử họ phân phối tiếng ồn theo tham số của nó. B - Để tuyên bố bạn đang giả định mối quan hệ chức năng cụ thể giữa các biến giải thích và kết quả.

Vài ví dụ:

  • Hồi quy lượng tử với một liên kết tuyến tính sẽ đủ điều kiện là B-parametric và A-non-parametric.
  • Làm mịn spline của một chuỗi thời gian với nhiễu Gaussian có thể có chất lượng là A-không tham số và B-parametric.

Thuật ngữ "bán tham số" thường dùng để chỉ trường hợp B và có nghĩa là bạn không giả định toàn bộ mối quan hệ chức năng, nhưng bạn có các giả định nhẹ hơn như "phụ gia trong một số biến đổi trơn tru của các yếu tố dự đoán".

Bạn cũng có thể có các giả định nhẹ hơn về phân phối tiếng ồn - chẳng hạn như "tất cả các khoảnh khắc là hữu hạn", mà không chỉ định cụ thể hình dạng của phân phối. Theo hiểu biết tốt nhất của tôi, không có thuật ngữ cho loại giả định này.

Lưu ý rằng câu trả lời liên quan đến các giả định cơ bản đằng sau quá trình tạo dữ liệu. Khi nói "kiểm tra tham số", người ta thường nói đến phi tham số theo nghĩa A. Trong đây là ý của bạn, sau đó tôi sẽ trả lời "không". Không thể là tham số và không tham số theo cùng một nghĩa cùng một lúc.


Hai ý nghĩa trong đoạn đầu tiên thường có một sự đối xử thống nhất trong tài liệu: đó là, dường như không có sự phân biệt cơ bản hoặc quan trọng giữa chúng. BTW, trường hợp "tất cả các khoảnh khắc là hữu hạn" chắc chắn là một vấn đề không tham số.
whuber

@whuber: định nghĩa trong Keifer dường như bao trùm cả hai trường hợp (Tôi thừa nhận- Tôi chưa bao giờ đọc nó và tôi vẫn đang tìm kiếm ngoại lệ). Mặt khác, các thuật ngữ làm thay đổi ý nghĩa của chúng. "Empirical-Bayes" không còn có nghĩa là những gì Robbins đã sử dụng nó vào năm 1955. Bạn không thể bỏ qua thực tế có nhiều hơn một cách giải thích lưu hành.
JohnRos

OK, nhưng chúng ta nên có một chút kén chọn: rõ ràng nhiều cách hiểu và cố gắng định nghĩa "tham số" và "không tham số" là những biểu hiện của sự thiếu hiểu biết, không hiểu biết. Bạn có thể trích dẫn một định nghĩa thay thế ngay lập tức rõ ràng, nghiêm ngặt và có thẩm quyền (nói chính xác, có thẩm quyền theo nghĩa là nó sẽ được chấp nhận mà không có câu hỏi của một tạp chí đánh giá ngang hàng đáng tin cậy)?
whuber

1
@whuber: Mình chấp nhận thử thách! :-) Mặc dù lưu ý, vì tất cả các nhà nghiên cứu bắt đầu tra cứu trên Wikipedia, vấn đề là thời gian cho đến khi các tạp chí đánh giá ngang hàng đáng tin cậy phù hợp với định nghĩa Wiki. ("nếu bạn không thể đánh bại họ ...")
JohnRos

1
Các bài viết trên Wikipedia trích Wolfowitz từ năm 1940, người không chỉ là người đầu tiên sử dụng "phi tham số", nhưng cũng là một trong những tổ tiên trí tuệ trực tiếp Kiefer của. Tôi không nghĩ rằng chúng tôi sẽ tìm thấy bất kỳ sự khác biệt thực sự ở đó. (Kiefer chỉ bổ sung một yêu cầu kỹ thuật về chức năng mất.) Tuy nhiên, tôi nghi ngờ rằng rất ít (nếu có) các nhà nghiên cứu chân chính lấy Wikipedia làm điểm xuất phát, đặc biệt không phải trong các lĩnh vực có nền tảng toán học!
whuber

1

Tôi cho rằng điều đó phụ thuộc vào ý nghĩa của "tham số và không tham số"? Đồng thời chính xác cả hai, hoặc một sự pha trộn của hai?

Nhiều người coi mô hình mối nguy theo tỷ lệ Cox là bán tham số, vì nó không ước tính được tham số cơ bản về rủi ro cơ bản.

Hoặc bạn có thể chọn xem nhiều số liệu thống kê phi tham số là thực sự ồ ạt tham số.


7
Đây dường như là một né tránh. Câu hỏi đang thăm dò xem liệu người ta có đánh giá cao sự khác biệt giữa "tham số" và "không tham số" hay không, liệu nó có rõ ràng hay không. Một câu trả lời tốt sẽ làm sáng tỏ sự khác biệt đó, không nhầm lẫn nó.
whuber

1
@whuber "câu hỏi" nào? Bảng điều khiển, hay OP? Bởi vì trong suy nghĩ của tôi, OP không thăm dò sự khác biệt của bất cứ điều gì. Điều đó có nghĩa là nó phụ thuộc vào nơi mọi người vẽ đường. Tôi không nghĩ việc cung cấp cả một ví dụ phổ biến và triết học cho "Chà, nó phụ thuộc" là một sự né tránh. Tôi nghĩ đó là một câu trả lời. Giống như việc người ta có muốn coi "tham số" là hoàn toàn tham số hay chỉ đơn thuần là có tham số.
Fomite

Quan điểm về "câu hỏi nào" là tốt. Tôi nghĩ rằng nơi tôi bắt đầu gặp một số rắc rối với câu trả lời của bạn là nó làm cho sự khác biệt mà theo tài nguyên của tôi trở nên vô nghĩa (một "sự pha trộn" là vô nghĩa, cũng như ý tưởng rằng một "thống kê" có thể là tham số), điều đó cho thấy bạn đang sử dụng một định nghĩa khác về "tham số" và "không tham số" so với tôi. Mặc dù bạn đưa ra quan điểm tuyệt vời rằng một câu trả lời phải phụ thuộc vào ý nghĩa của các thuật ngữ này, nhưng bạn không thực sự đưa ra một định nghĩa để làm cho các bình luận tiếp theo của bạn rõ ràng hoặc dễ hiểu.
whuber

@whuber Đủ công bằng. Tôi thấy câu hỏi ban đầu hơi vô lý, vì vậy tôi đang làm những gì có thể. Câu hỏi bây giờ có câu trả lời tốt hơn đưa ra một số giả định về ý nghĩa của OP.
Fomite

0

Bradley, trong các thử nghiệm thống kê phân phối miễn phí phân phối cổ điển của mình (năm 1968, trang 15 Hóa16 - xem câu hỏi này để được trích dẫn) làm rõ sự khác biệt giữa các thử nghiệm không phân phốikhông phân tích , mà ông nói thường bị lẫn lộn với nhau, và đưa ra một ví dụ về thử nghiệm không phân phối tham số như thử nghiệm Dấu hiệu cho trung vị. Thử nghiệm này không đưa ra giả định về phân phối cơ bản của dân số được lấy mẫu của các giá trị phương sai, vì vậy nó không có phân phối . Tuy nhiên, nếu trung vị được chọn là chính xác, các giá trị trên và dưới nó phải được chọn với xác suất bằng nhau, kiểm tra các mẫu ngẫu nhiên từp= =0,5

Cập nhật

(Một¬Một)


1
Tôi thích sự bắt đầu của câu trả lời này bởi vì nó tạo ra sự khác biệt thú vị và hỗ trợ nó với một tài liệu tham khảo tốt. Tuy nhiên, dường như phần còn lại của câu trả lời nhầm lẫn các giả định về dữ liệu với các thuộc tính của thống kê kiểm tra. Các giả định của kiểm tra dấu hiệu thực sự là "phân phối miễn phí." Tuy nhiên, thực tế rằng phân phối lấy mẫu của thống kê kiểm tra là nhị thức là một vấn đề hoàn toàn riêng biệt và không làm cho quy trình tham số!
whuber

Chà, Bradley tự gọi bản phân phối Kiểm tra ký hiệu - miễn phí nhưng không tham số ở trang 15. Hộp bình luận quá nhỏ để có thể mang toàn bộ hai câu chính. Xin vui lòng đọc câu trả lời khác, cụ thể là các câu bắt đầu "Nói một cách thô lỗ" và "Để hoàn toàn rõ ràng". Cảm ơn bạn.
Avraham

Nếu đó là trường hợp của Bradley, thì ý nghĩa của các thuật ngữ này đã thay đổi kể từ đó hoặc (tôi ghét phải nói điều đó) bạn hiểu sai những gì anh ấy viết. . Xem trích dẫn Wolfowitz trong bài viết Wikipedia .
whuber

2
Cảm ơn bạn đã cung cấp, nhưng đây không phải là một vấn đề lớn vì vậy bạn không cần bận tâm. Nguồn yêu thích của tôi về thông tin rõ ràng về các khái niệm cơ bản là Kiefer, Giới thiệu về suy luận thống kê (Springer 1987). "Các trường hợp tham số của các vấn đề thống kê là tất cả những trong đó lớp của tất cả các của df trong Ω thể được biểu diễn dưới dạng một vectorFΩθ

2
Để biết giá trị của nó, tôi đã xem xét hai văn bản thống kê khác là Xác suất và Thống kê của DeGroot (tái bản lần 2, trang 520-521) và Giới thiệu về Lý thuyết Xác suất và Suy luận Thống kê của Larson (ấn bản thứ 3, tr.508-509) và cả hai đều sử dụng kỳ hạn tham số có nghĩa là những gì Bradly gọi là phân phối miễn phí , giống như Kiefer, tôi nghĩ. Vì vậy, để trả lời OP, nó phụ thuộc vào cách bạn định nghĩa "tham số".
Avraham
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.