Ý nghĩa của giá trị p trong hồi quy


27

Khi tôi thực hiện hồi quy tuyến tính trong một số gói phần mềm (ví dụ Mathicala), tôi nhận được các giá trị p được liên kết với các tham số riêng lẻ trong mô hình. Ví dụ, kết quả của hồi quy tuyến tính tạo ra kết quả sẽ có giá trị p được liên kết với và một với .a bmộtx+bmộtb

  1. Những giá trị p này có ý nghĩa gì về các tham số đó?

  2. Có một cách chung để tính toán các tham số cho bất kỳ mô hình hồi quy nào không?

  3. Giá trị p được liên kết với từng tham số có thể được kết hợp thành giá trị p cho toàn bộ mô hình không?

Để giữ cho câu hỏi này có tính chất toán học, tôi chỉ tìm cách giải thích các giá trị p theo xác suất.


Câu trả lời của Gavin trong câu hỏi @cardinal được liên kết để nói điều đó tốt.
JM không phải là một nhà thống kê

6
@zyx, không có gì nâng cao về câu hỏi của OP. Đây là những câu hỏi rất phổ biến, theo ý kiến ​​của tôi, số liệu thống kê.SE phù hợp hơn --- và theo đó, những người tham gia cũng có nhiều ý kiến ​​hơn. Math.SE và MO đều là tài nguyên tuyệt vời cho các câu hỏi xác suất, nhưng ít hơn nhiều cho các câu hỏi thống kê. Các câu hỏi của OP nghiêng nhiều về phía sau.
Đức hồng y

@cardinal: Tôi đã theo dõi số liệu thống kê. Kể từ khi bắt đầu phiên bản beta công khai. Out of 4800+ câu hỏi cho đến nay tôi đã không thể xác định vị trí một mà hỏi hoặc trả lời mục 3 từ OP, mà là lẻ nếu đây là một "rất phổ biến" truy vấn. Tôi cũng chưa thấy câu trả lời chính xác về mặt khái niệm cho mục 1 trong vài lần nó được đưa ra. Tôi nghĩ rằng những điều này nên được đăng lên math.SE và MO định kỳ để thu hút sự chú ý của một đối tượng lớn hơn, không được di chuyển trong vòng vài phút để thống kê.SE. Nó không làm tổn thương để cũng hỏi trên stat.SE nhưng biến sau vào nơi duy nhất mà số liệu thống kê có thể được thảo luận là không hữu ích.
zyx

Hiện tại có một chủ đề về math.SE đến stats.SE di chuyển trong meta.math.SE.
zyx

(Một số ý kiến ​​được tham chiếu ở trên đã bị mất khi di chuyển. Chúng được hiển thị tại bài đăng gốc của toán học. E, được liên kết bên dưới bên cạnh các từ "được di chuyển từ ...")
zyx

Câu trả lời:


13
  1. Giá trị p cho là giá trị p trong một bài kiểm tra giả thuyết " α = 0 " (thường là t - test 2 mặt ). Các giá trị p cho b là giá trị p trong một thử nghiệm của giả thuyết " β = 0 " (cũng thường là một 2 mặt t -test) và tương tự như vậy đối với bất kỳ hệ số khác trong hồi quy. Các mô hình xác suất cho các thử nghiệm này được xác định bởi một mô hình giả định trong mô hình hồi quy tuyến tính. Đối với bình phương nhỏ nhất tuyến tính hồi quy, các cặp ( một , b ) sau một phân phối chuẩn hai biến tập trung vào các giá trị tham số đúng ( α , βmộtα= =0tbβ= =0tmột,bα,β), Và thử nghiệm giả thuyết cho mỗi hệ số tương đương với -thử nghiệm dù α = 0 (resp. Β = 0 ) dựa trên các mẫu từ phân phối chuẩn phù hợp [của một biến, tức là, sự phân bố của một hoặc b mình]. Các chi tiết trong đó phân phối chuẩn xuất hiện được phần nào phức tạp và liên quan đến "bậc tự do" và "ma trận mũ" (dựa trên các ký hiệu A cho một số các ma trận liên tục xuất hiện trong các lý thuyết về hồi quy OLS).tα= =0β= =0mộtbMột^

  2. Vâng. Thông thường nó được thực hiện (và được xác định) bởi Ước tính khả năng tối đa . Đối với hồi quy tuyến tính OLS và một số ít các mô hình khác, có các công thức chính xác để ước tính các tham số từ dữ liệu. Đối với hồi quy tổng quát hơn, các giải pháp có tính lặp và số trong tự nhiên.

  3. Không trực tiếp. Giá trị p được tính riêng cho một thử nghiệm của toàn bộ mô hình, nghĩa là thử nghiệm giả thuyết rằng tất cả các hệ số (của các biến được cho là thực sự khác nhau, do đó không bao gồm hệ số của "số hạng không đổi" nếu có một). Nhưng giá trị p này thường không thể được tính từ kiến ​​thức về giá trị p của các hệ số.


2
Theo quan điểm của bạn (1.) dường như có một chút nhầm lẫn giữa một tham số và một công cụ ước tính . Giá trị được liên kết với công cụ ước tính chứ không phải tham số và công cụ ước tính là hai biến số bình thường, không phải là tham số (ít nhất, trong thống kê cổ điển được coi là cố định). Ngoài ra, nhận xét của bạn ở điểm (3.) có thể dẫn đến nhầm lẫn vì điều này hoàn toàn có thể (và khá phổ biến) đối với một số giá trị p riêng lẻ của ước tính hồi quy lớn hơn và nhỏ hơn giá trị p chung từ tương ứng F -test. pppF
Đức hồng y

@NRH: Xin lỗi, bạn có thể làm rõ nhận xét trước đó của bạn. Tôi không hoàn toàn làm theo nó (chưa). :)
Đức hồng y

@cardinal: có vẻ chính xác hơn khi nói rằng giá trị p có liên quan đến kiểm tra giả thuyết. Các tham số xuất hiện trong giả thuyết null của thử nghiệm và cặp (giá trị quan sát của công cụ ước tính, giả thuyết thay thế) sau đó xác định giá trị p. Các giả thuyết null nên được mô tả bằng các tham số, chẳng hạn như α = 0 thay vì ước lượng a = 0 như [bất cẩn] được thực hiện trong câu trả lời ban đầu, hiện đã được chỉnh sửa (cảm ơn vì đã chỉ ra lỗi). Tuy nhiên, sự phân biệt được cho là nhầm lẫn hoặc thiếu "các công cụ ước tính là chia nhỏ bình thường, không phải là các tham số" đã được nêu rõ trong câu trả lời.
zyx

1
Xin lỗi, tôi không thể cưỡng lại. @zyx đã bình luận về bài viết gốc trên math.SE rằng các câu trả lời trên stat.SE thường không chính xác. Tôi thấy rằng nhiều câu trả lời khá chính xác mặc dù đôi khi toán học không chính xác. Đó là trong bản chất của sự vật. Các câu hỏi và câu trả lời thống kê không phải lúc nào cũng có thể được giảm xuống thành các câu toán học chính xác. Trong đặc biệt không phải là những người khó khăn. Tuy nhiên, câu trả lời được cung cấp ở đây không phải là đặc biệt chính xác hay chính xác theo ý kiến ​​của tôi.
NRH

3
Tôi nghĩ rằng nó sẽ tốt đẹp nếu bất cứ ai hạ cấp cung cấp một nhận xét giải thích.
Đức hồng y

1

viết câu hỏi đầu tiên của bạn: điều này phụ thuộc vào phần mềm bạn chọn. Thực sự có hai loại giá trị p được sử dụng thường xuyên trong các tình huống này, cả hai thường dựa trên các thử nghiệm tỷ lệ khả năng (có những loại khác nhưng chúng thường tương đương hoặc ít nhất là ít khác nhau trong kết quả của chúng).

Điều quan trọng là phải nhận ra rằng tất cả các giá trị p này là có điều kiện trên (một phần) phần còn lại của các tham số. Điều đó có nghĩa là: Giả sử (một số) các ước tính tham số khác là chính xác, bạn kiểm tra xem hệ số của một tham số có bằng không hay không. Thông thường, giả thuyết khống cho các thử nghiệm này là hệ số bằng 0, vì vậy nếu bạn có giá trị p nhỏ, điều đó có nghĩa (điều kiện dựa trên giá trị của các hệ số khác) rằng chính hệ số đó không có khả năng bằng không.

Loại I kiểm tra kiểm tra độ không chính xác của từng hệ số một cách có điều kiện dựa trên giá trị của các hệ số xuất hiện trước nó trong mô hình (trái sang phải). Các thử nghiệm loại III (thử nghiệm cận biên), thử nghiệm cho số không của từng hệ số có điều kiện dựa trên giá trị của tất cả các hệ số khác.

Các công cụ khác nhau trình bày các giá trị p khác nhau làm mặc định, mặc dù thông thường bạn có các cách để có được cả hai. Nếu bạn không có lý do ngoài số liệu thống kê để đưa các tham số vào một số thứ tự, bạn thường sẽ quan tâm đến kết quả kiểm tra loại III.

Cuối cùng (liên quan nhiều hơn đến câu hỏi cuối cùng của bạn), với bài kiểm tra tỷ lệ khả năng, bạn luôn có thể tạo một bài kiểm tra cho bất kỳ tập hợp các hệ số có điều kiện nào trên phần còn lại. Đây là cách để đi nếu bạn muốn kiểm tra nhiều hệ số bằng 0 cùng một lúc (nếu không bạn gặp phải một số vấn đề thử nghiệm khó chịu).


pψ= =c'βt= =ψ^-ψ0σ^c'(X'X)-1c

ψ^= =c'β^β^cXσ^||e||2/(n-(p+1))ejcjψ0= =0t

Bản chất của vấn đề được nắm bắt ví dụ ở đây . Hãy nhớ rằng anova chỉ là một trường hợp đặc biệt của hồi quy. Về cơ bản, điều này dẫn đến điều này: nếu bạn thực hiện kiểm tra độ không của (hệ số) biến A trong một mô hình có hoặc không có biến B, bạn có thể nhận được các kết quả khác nhau. Do đó, kết quả là có điều kiện trên mô hình của bạn, dữ liệu (ngay cả đối với các giá trị của biến B) và do đó trên các hệ số không có trong thử nghiệm của bạn mà trong mô hình của bạn. Tìm ý tưởng đó trong toán học có thể khó hơn một chút :-)
Nick Sabbe

p-1pc'ββjF= =(SSer-SSebạn)/(dfer-dfebạn)SSebạn/dfebạnSSerdfer||er||2bạn

Trường hợp liên tục phải hoàn toàn tương đương với biến được mã hóa 0-1 nhị phân.
Nick Sabbe
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.