Giải thích tỷ lệ tổng hợp thành một biến độc lập trong hồi quy tuyến tính


12

Tôi quen thuộc với khái niệm các biến phân loại và mã hóa biến giả tương ứng cho phép chúng ta khớp một cấp làm đường cơ sở để tránh cộng tuyến. Tôi cũng quen với cách diễn giải các ước tính tham số từ các mô hình như vậy: Sự thay đổi được dự đoán về kết quả cho một mức độ phù hợp nhất định của bộ dự báo phân loại, liên quan đến loại cơ sở.

Điều tôi không chắc chắn là làm thế nào để diễn giải một tập hợp các biến độc lập có tỷ lệ thành một . Chúng ta lại có cộng tác nếu chúng ta phù hợp với tất cả các tỷ lệ trong mô hình, vì vậy có lẽ chúng ta sẽ phải bỏ một danh mục làm đường cơ sở. Tôi cũng giả sử rằng tôi sẽ xem xét loại III SS để kiểm tra tổng thể về tầm quan trọng của biến này. Tuy nhiên, làm thế nào để chúng tôi diễn giải các ước tính tham số cho các mức đó phù hợp với mô hình so với mức được coi là cơ sở?

Một ví dụ : Ở cấp độ mã zip, biến độc lập là tỷ lệ của đá biến chất, đá lửa và trầm tích. Như bạn có thể biết, đây là ba loại đá chính và tất cả các loại đá được phân loại là một trong số đó. Như vậy, tỷ lệ trên cả ba tổng thành 1. Kết quả là mức radon trung bình trong một mã zip tương ứng.

Nếu tôi là để phù hợp với, nói, biến chấtlửa tỷ lệ như dự đoán trong mô hình, để lại trầm tích như ban đầu, một loại tổng thể III SS F -test của hai cấp độ trang bị sẽ biểu thị cho dù loại đá, nói chung, là một quan trọng dự đoán kết quả (mức radon trung bình). Sau đó, tôi có thể xem xét các giá trị p riêng lẻ (dựa trên phân bố t ) để xác định xem một hoặc cả hai loại đá có khác biệt đáng kể so với đường cơ sở hay không.

Tuy nhiên, khi nói đến ước tính tham số, não tôi cứ muốn diễn giải chúng hoàn toàn là sự thay đổi được dự đoán về kết quả giữa các nhóm (loại đá) và tôi không hiểu làm thế nào để kết hợp thực tế rằng chúng phù hợp theo tỷ lệ .

Nếu ước tính cho biến chất là 0,43, thì việc giải thích không chỉ đơn giản là mức radon trung bình dự đoán tăng 0,43 đơn vị khi đá biến chất so với trầm tích. Tuy nhiên, việc giải thích cũng không chỉ đơn giản đối với một số loại tăng đơn vị (giả sử 0,1) trong tỷ lệ của loại đá biến chất, bởi vì điều này không phản ánh thực tế rằng nó cũng liên quan đến đường cơ sở ( trầm tích ), và, ngoài ra, sự thay đổi đó tỷ lệ biến chất vốn đã thay đổi tỷ lệ của mức độ đá phù hợp khác trong mô hình, igneous .β

Có ai có một nguồn cung cấp giải thích cho một mô hình như vậy, hoặc bạn có thể cung cấp một ví dụ ngắn gọn ở đây nếu không?


2
+1 Tỷ lệ thường không có mối quan hệ tuyến tính với phản hồi. Nếu các tham số lại như để cải thiện mô hình, chúng cũng sẽ cho phép diễn giải tự nhiên, đơn giản. Bạn đã kiểm tra tính tuyến tính trong dữ liệu của bạn? (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber

1
Không, nhưng tôi đoán nó sẽ có vấn đề, đặc biệt là vì nhiều "tỷ lệ" thực sự xuất hiện là 0 và 1, hoặc các giá trị rất gần với 0 và 1, và do đó về cơ bản hoạt động như nhị phân. Như vậy, có khả năng chúng ta sẽ tạo ra các nhóm thực sự trong số họ (và loại bỏ tỷ lệ), nhưng điều này vẫn làm tôi quan tâm đến việc giải thích chính xác sẽ là gì, theo giả thuyết.
Meg

Đủ công bằng - đó là một câu hỏi hay.
whuber

2
Các nhiều cách toán học tương đương với đại diện . Để diễn giải chúng, hãy xem xét rằngPhía bên trái sẽ được gọi là "tỷ lệ cược log" khi là xác suất; nó có một ý nghĩa tương đương cho bất kỳ tỷ lệ nào. Do đó, có thể được hiểu giống như tỷ lệ cược log. Đối với một tập hợp các biến hồi quy tổng hợp, bạn có thể sử dụng của như một cách để thể hiện lại các biến hồi quy đó trong mô hình của bạn. (Cần có sự chăm sóc bất cứ khi nào hoặc )λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
whuber

2
λi=log(πi) sẽ hoạt động tốt, vì sau đó và như dự định.
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi
whuber

Câu trả lời:


8

Theo dõi và những gì tôi nghĩ là câu trả lời chính xác (có vẻ hợp lý với tôi): Tôi đã đăng câu hỏi này lên danh sách ASA Connect, và nhận được phản hồi sau từ Thomas Sexton tại Stony Brook:

"Mô hình hồi quy tuyến tính ước tính của bạn trông giống như:

ln (Radon) = (một biểu thức tuyến tính trong các biến khác) + 0,43M + 0,92I

trong đó M và I đại diện cho tỷ lệ phần trăm của đá biến chất và đá lửa, tương ứng, trong mã ZIP. Bạn bị hạn chế bởi:

M + I + S = 100

Trong đó S đại diện cho tỷ lệ phần trăm của đá trầm tích trong mã ZIP.

Giải thích của 0,43 là mức tăng một điểm phần trăm trong M có liên quan đến mức tăng 0,43 trong ln (Radon) giữ tất cả các biến khác trong mô hình . Do đó, giá trị của I không thể thay đổi và cách duy nhất để tăng một điểm phần trăm trong M trong khi thỏa mãn ràng buộc là giảm một điểm phần trăm trong S, loại bỏ qua.

Tất nhiên, thay đổi này không thể xảy ra trong các mã ZIP trong đó S = 0, nhưng việc giảm M và tăng S tương ứng sẽ có thể xảy ra đối với các mã ZIP đó. "

Đây là liên kết đến chủ đề ASA: http://community.amstat.org/cransities/community-home/digestviewer/viewthread?groupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8bb1

Tôi đang đăng bài này dưới dạng câu trả lời đúng được chấp nhận, nhưng vẫn sẵn sàng thảo luận thêm nếu có ai muốn thêm.


Một lời khuyên sẽ là đi đến chủ đề ASA, vì có khá nhiều cuộc thảo luận về câu hỏi được trả lời ở đây.
Maxim.K

@ Maxim.K: Bạn đang đề cập đến chủ đề ASA của riêng tôi mà tôi đã liên kết ở trên? Nếu vậy, vâng, có rất nhiều lời cảnh báo chưa được trả lời, và tôi vẫn không hoàn toàn chắc chắn về câu trả lời "đúng" (nếu thậm chí còn tồn tại). Đây là lý do tại sao tôi đã thêm vòng loại, "Tôi đang đăng bài này dưới dạng câu trả lời đúng được chấp nhận, nhưng vẫn sẵn sàng thảo luận thêm nếu có ai đó để thêm."
Meg
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.