Là hồi quy logistic là một thử nghiệm không tham số?


15

Gần đây tôi đã nhận được câu hỏi sau qua email. Tôi sẽ đăng câu trả lời dưới đây, nhưng tôi rất thích nghe người khác nghĩ gì.

Bạn có thể gọi hồi quy logistic là kiểm tra không tham số không? Hiểu biết của tôi là chỉ đơn giản là ghi nhãn một thử nghiệm không tham số vì dữ liệu của nó không được phân phối bình thường, là không đủ. Nó nhiều hơn để làm với thiếu các giả định. hồi quy logistic không có giả định.


7
(+1) Đối với hồ sơ - và như là một đối trọng với các xác nhận trong câu hỏi - Tôi biết không có tài liệu tham khảo đáng tin cậy nào xác định (hoặc thậm chí đặc trưng) các phương pháp không tham số là "thiếu các giả định". Tất cả các thủ tục thống kê đưa ra các giả định. Hầu hết các quy trình phi tham số thực sự đưa ra các giả định định lượng hạn chế về phân phối xác suất cơ bản, nhưng các giả định đó không thu hẹp các trạng thái có thể xảy ra đối với một tập hợp có cấu trúc của một đa chiều thực hữu hạn.
whuber

Nếu chúng ta đang nói về hồi quy logistic tuyến tính (dường như là ẩn, dựa trên câu trả lời bạn đã viết) thì tất nhiên đây là mô hình tham số nhưng đáng chú ý là nếu bạn phù hợp với hiệu ứng đồng biến bằng cách sử dụng hàm trơn không tham số, ví dụ: thì không có ràng buộc tham số nào về xác suất ước tính là hàm củax. Điều này không chỉ đúng về liên kết logistic; logic tương tự áp dụng cho bất kỳ chức năng liên kết khả nghịch.
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
Macro

Tôi hỏi một câu hỏi liên quan ở đây . Tôi bắt đầu hiểu rằng một số trường hợp của GLM (ví dụ mô hình logistic) cung cấp một bài kiểm tra không tham số. Tôi sẽ xem xét cuốn sách của Wasserman, mặc dù (trừ khi tôi đánh giá sai) có một số bất đồng về một số nguyên tắc và phát hiện trong công việc của ông.
AdamO

Câu trả lời:


19

Larry Wasserman định nghĩa một mô hình tham số là một tập hợp các phân phối "có thể được tham số hóa bằng một số lượng tham số hữu hạn." (tr.87) Ngược lại, một mô hình không tham số là một tập hợp các phân phối không thể được tham số hóa bởi một số lượng tham số hữu hạn.

Do đó, theo định nghĩa hồi quy logistic tiêu chuẩn là một mô hình tham số.Mô hình hồi quy logistic là tham số vì nó có một tập các tham số hữu hạn. Cụ thể, các tham số là các hệ số hồi quy. Chúng thường tương ứng với một cho mỗi dự đoán cộng với một hằng số. Hồi quy logistic là một dạng đặc biệt của mô hình tuyến tính tổng quát. Cụ thể, nó liên quan đến việc sử dụng chức năng liên kết logit để mô hình hóa dữ liệu phân phối nhị thức.

Thật thú vị, có thể thực hiện một hồi quy logistic không theo tỷ lệ (ví dụ, Hastie, 1983). Điều này có thể liên quan đến việc sử dụng spline hoặc một số hình thức làm mịn không tham số để mô hình hóa hiệu ứng của các yếu tố dự đoán.

Người giới thiệu

  • Wasserman, L. (2004). Tất cả các số liệu thống kê: một khóa học ngắn gọn trong suy luận thống kê. Mùa xuân Verlag.
  • Hân Đồng, T. (1983). Hồi quy logistic không tham số. SLAC PUB-3160, tháng 6. PDF

Một mô hình là một tập hợp các bản phân phối? Một cái gì đó thiết yếu bị thiếu ở đó.
rolando2

Có phải là bình thường để đặt một câu hỏi và tự trả lời nó?

1
@fcop nó được khuyến khích. blog.stackoverflow.com/2011/07/ trên
Jeromy Anglim

Ok xin lỗi, tôi không biết

Đừng lo lắng. Đối với tôi, điểm chính của trang web là tạo ra các tài nguyên mà người khác khám phá khi tìm kiếm câu trả lời trong tương lai. Đóng góp câu trả lời của riêng bạn giúp với tất cả điều đó.
Jeromy Anglim

16

Tôi muốn nói hồi quy logistic hoàn toàn không phải là một bài kiểm tra; tuy nhiên, hồi quy logistic sau đó có thể dẫn đến không có xét nghiệm hoặc một số thử nghiệm.

Bạn hoàn toàn chính xác rằng việc dán nhãn một cái gì đó không theo quy chuẩn bởi vì nó không bình thường là không đủ. Tôi gọi gia đình hàm mũ là tham số rõ ràng, vì vậy tôi thường coi hồi quy logistic (và hồi quy Poisson và hồi quy Gamma và ...) là tham số, mặc dù có thể có trường hợp tôi có thể chấp nhận một đối số mà hồi quy logistic cụ thể có thể được coi là không đối xứng (hoặc ít nhất là trong một ý nghĩa lượn sóng tay mơ hồ, chỉ gần như "tham số").

Coi chừng bất kỳ sự nhầm lẫn nào trên hai giác quan trong đó một hồi quy có thể được gọi là không đối xứng.

Nếu tôi phù hợp với hồi quy tuyến tính Theil thì nó không theo tỷ lệ theo nghĩa là tôi đã để lại phân phối lỗi không xác định (nó tương ứng với việc điều chỉnh độ dốc hồi quy cho đến khi tương quan Kendall giữa phần dư vàx là 0) ... nhưng nó là tham số theo nghĩa là tôi có mối quan hệ được chỉ định đầy đủ giữa yx tham số hóa bởi độ dốc và hệ số chặn.

Mặt khác, nếu tôi phù hợp với hồi quy đa thức nhân (giả sử là hồi quy tuyến tính cục bộ), nhưng với các lỗi thông thường, đó cũng được gọi là không tham số , nhưng trong trường hợp này, đó là tham số hóa của mối quan hệ giữayx đó là không tham số (ít nhất là có khả năng vô hạn chiều), không phải là phân phối lỗi.

Cả hai giác quan đều được sử dụng, nhưng khi nói đến hồi quy, loại thứ hai thực sự được sử dụng thường xuyên hơn.

cũng có thể trở thành phi tham trong cả hai giác quan, nhưng khó khăn hơn (với đầy đủ dữ liệu, tôi có thể, ví dụ, phù hợp với một Theil hồi quy tuyến tính cục bộ-weighted).

Trong trường hợp GLM, hình thức hồi quy bội không theo tỷ lệ thứ hai bao gồm GAM; hình thức thứ hai đó là ý nghĩa trong đó nói chung, Hastie đang hoạt động (và theo đó anh ấy hoạt động trong trích dẫn đó).


3

Một điểm khác biệt hữu ích có thể thêm một chút vào các câu trả lời ở trên: Andrew Ng đưa ra một heuristic cho ý nghĩa của một mô hình phi tham số trong Bài giảng 1 từ các tài liệu khóa học CS-229 của Stanford về học máy.

Có Ng nói (trang 14-15):

Hồi quy tuyến tính trọng số cục bộ là ví dụ đầu tiên chúng ta thấy về một thuật toán không tham số. Thuật toán hồi quy tuyến tính (không trọng số) mà chúng ta đã thấy trước đây được gọi là thuật toán học tham số, bởi vì nó có số lượng tham số cố định, hữu hạn ( θTôi's), phù hợp với dữ liệu. Khi chúng tôi phù hợp vớiθTôiVà lưu trữ chúng đi, chúng ta không còn cần phải giữ dữ liệu đào tạo xung quanh để đưa ra dự đoán trong tương lai. Ngược lại, để đưa ra dự đoán sử dụng hồi quy tuyến tính trọng số cục bộ, chúng ta cần giữ toàn bộ tập huấn xung quanh. Thuật ngữ không phải là tham số mà thôi (đại khái) đề cập đến thực tế là số lượng công cụ chúng ta cần giữ lại để thể hiện giả thuyếth phát triển tuyến tính với kích thước của tập huấn luyện.

Tôi nghĩ rằng đây là một cách tương phản hữu ích để suy nghĩ về nó bởi vì nó truyền trực tiếp khái niệm phức tạp. Các mô hình phi tham số vốn không quá phức tạp, bởi vì chúng có thể yêu cầu giữ nhiều dữ liệu đào tạo hơn. Điều đó chỉ có nghĩa là bạn không giảm việc sử dụng dữ liệu đào tạo bằng cách nén nó xuống thành một phép tính tham số chính xác. Để có hiệu quả hoặc không thiên vị hoặc một loạt các thuộc tính khác, bạn có thể muốn tham số hóa. Nhưng có thể có hiệu suất tăng nếu bạn có đủ khả năng từ bỏ tham số hóa và giữ nhiều dữ liệu xung quanh.


0

Tôi nghĩ hồi quy logistic là một kỹ thuật tham số.

Điều này có thể hữu ích, từ Wolfowitz (1942) [Hàm phân vùng phụ gia và một lớp các giả thuyết thống kê Biên niên sử về thống kê toán học, 1942, 13, 247-279]:

Các hàm phân phối [lưu ý: số nhiều !!!] của các biến ngẫu nhiên khác nhau có liên quan đến các vấn đề của chúng được coi là dạng chức năng đã biết, và các lý thuyết về ước tính và các giả thuyết kiểm tra là các lý thuyết về ước tính và kiểm định các giả thuyết về , một hoặc nhiều tham số, hữu hạn về số lượng, kiến ​​thức về nó sẽ hoàn toàn xác định các hàm phân phối khác nhau có liên quan. Chúng ta sẽ coi tình huống này là ngắn gọn như trường hợp tham số và biểu thị tình huống ngược lại, trong đó các dạng chức năng của phân phối không xác định ', như trường hợp không tham số.

Ngoài ra, khi nghe điều này thảo luận khá nhiều, tôi thấy Noether (1984) rất thú vị

Thuật ngữ không đối xứng có thể có một số ý nghĩa và ý nghĩa lịch sử đối với các nhà thống kê lý thuyết, nhưng nó chỉ có tác dụng gây nhầm lẫn cho các nhà thống kê ứng dụng.


0

Hastie và Tibshirani định nghĩa rằng hồi quy tuyến tính là một cách tiếp cận tham số vì nó giả sử một dạng hàm tuyến tính của f (X). Các phương pháp không tham số không giả định rõ ràng biểu mẫu cho f (X). Điều này có nghĩa là một phương pháp không tham số sẽ phù hợp với mô hình dựa trên ước tính f, được tính toán từ mô hình. Hồi quy logistic thiết lập rằng p (x) = Pr (Y = 1 | X = x) trong đó xác suất được tính bởi hàm logistic nhưng ranh giới logistic phân tách các lớp như vậy không được giả định, điều này xác nhận rằng LR cũng không tham số

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.