Làm rõ về việc đọc một chữ tượng hình


10

Sau đây là một biểu đồ được tạo từ tập dữ liệu mtcars với gói rms cho công thức:

mpg ~ wt + am + qsec

nhập mô tả hình ảnh ở đây

Bản thân mô hình có vẻ tốt với R2 là 0,85 và P <0,00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Tôi không rõ những 'Điểm', 'Tổng số điểm' và 'Dự đoán tuyến tính' này là gì. Cái nào trong số này đại diện cho mpg, biến kết quả? Tôi sẽ đánh giá cao bất kỳ lời giải thích.

Chỉnh sửa: xem xét các đề xuất xuất sắc của @Glen_b để dễ đọc các điểm, v.v., sau đây có thể là một biểu tượng thay thế:

nhập mô tả hình ảnh ở đây

Vì kết quả hoặc biến phản hồi có sẵn, nên nó có thể được sử dụng thay cho thuật ngữ 'Dự đoán tuyến tính'. Nó cũng trở nên tự giải thích như thế nào về chữ tượng hình cần được đọc.


sơ đồ đẹp trong chỉnh sửa ở đó
Glen_b -Reinstate Monica

Câu trả lời:


11

Chà, vì mô hình của bạn là tuyến tính, với mpg dự kiến ​​bằng với dự đoán tuyến tính, bạn có thể đọc mpg ngay từ thang đo dự đoán tuyến tính.

Đối với mỗi biến, bạn tìm thấy giá trị của nó trên thang đo liên quan. Ví dụ, hãy tưởng tượng chúng tôi muốn tìm một mpg dự đoán cho một chiếc xe với wt=4, am=1, qsec=18:

nhập mô tả hình ảnh ở đây

cung cấp một mpg dự đoán là khoảng 18,94. Thay vào phương trình cho 18,95, vì vậy khá gần. (Trong thực tế, bạn có thể chỉ làm việc đến toàn bộ điểm gần nhất - và do đó, có được độ chính xác khoảng 2 con số - "19 mpg" - ngoài, thay vì 3-4 con số như ở đây.)

Một trong những lợi ích chính của sơ đồ như vậy đối với tôi là bạn thấy ngay tác động tương đối của những thay đổi trong các biến dự đoán (IV) khác nhau đối với phản ứng (DV). Ngay cả khi bạn không cần sơ đồ cho bất kỳ phép tính nào, nó có thể có giá trị lớn về mặt chỉ đơn giản là hiển thị các hiệu ứng tương đối của các biến.


Câu hỏi tiếp theo từ ý kiến:

Liệu nó hoạt động theo cùng một cách cho hồi quy phi tuyến tính hay đa thức?

E(Y)y^=b0+bx1+f(x2)

một trong hai

f

f

x1

x2f

nhập mô tả hình ảnh ở đây

x2

nhập mô tả hình ảnh ở đây

f(x)x=2.23

Các chức năng như vậy có thể có một số bước ngoặt, trong đó các thang đo sẽ bị vỡ và lật nhiều lần - nhưng đường trục chỉ có hai mặt.

Với các biểu đồ kiểu điểm, điều này không gặp khó khăn gì, vì người ta có thể di chuyển các phần tỷ lệ bổ sung lên hoặc xuống (hoặc nói chung hơn, trực giao theo hướng của trục) một chút cho đến khi không xảy ra sự chồng chéo.

(Nhiều hơn một bước ngoặt có thể là một vấn đề đối với các biểu đồ kiểu căn chỉnh; một giải pháp được hiển thị trong sách củaellell là bù tất cả các tỷ lệ một chút từ một đường tham chiếu, trên đó vị trí của giá trị thực sự được thực hiện.)


Y

Ví dụ về tất cả các tình huống này có thể được tìm thấy trong Chiến lược mô hình hóa hồi quy của Mitchell .



Chỉ cần một vài ghi chú bên

  1. Tôi rất muốn thấy hai thang điểm, ở trên cùng và dưới cùng của phần có liên quan; mặt khác, thật khó để "xếp hàng" chính xác bởi vì bạn phải đoán "dọc" là gì. Một cái gì đó như thế này:

    nhập mô tả hình ảnh ở đây

    Tuy nhiên, như tôi lưu ý trong các nhận xét, đối với phần cuối cùng của sơ đồ (tổng điểm và dự đoán tuyến tính) có lẽ một sự thay thế tốt hơn cho thang điểm thứ hai sẽ chỉ đơn giản là có một cặp thang đo ngược (tổng số điểm trên một bên, dự đoán tuyến tính ở bên kia), như thế này:

    nhập mô tả hình ảnh ở đây

    Do đó, chúng tôi tránh sự cần thiết phải biết "dọc" là gì.

  2. Chỉ với hai yếu tố dự đoán liên tục và một yếu tố nhị phân duy nhất, chúng ta hoàn toàn có thể dễ dàng xây dựng một biểu đồ căn chỉnh truyền thống hơn :

    nhập mô tả hình ảnh ở đây

    Trong trường hợp này, bạn chỉ cần tìm wtqseccác giá trị trên thang đo của chúng và nối chúng với một dòng; trong đó chúng vượt qua mpgtrục, chúng ta đọc giá trị (trong khi ambiến xác định phía nào của mpgtrục bạn đọc). Trong một trường hợp đơn giản như thế này, các loại chữ tượng hình này nhanh hơn và đơn giản hơn để sử dụng, nhưng có thể dễ dàng khái quát hơn cho nhiều người dự đoán, nơi chúng có thể trở nên khó sử dụng. Danh pháp kiểu điểm trong câu hỏi của bạn (như được thực hiện trong Chiến lược mô hình hồi quy và trong rmsgói trong R) có thể thêm nhiều biến liên tục. Điều này có thể là một lợi thế khi xử lý các tương tác.


Cảm ơn cho một lời giải thích rõ ràng, minh họa. Liệu nó hoạt động theo cùng một cách cho hồi quy phi tuyến tính hay đa thức?
ngày

1
Tôi đã chỉnh sửa câu trả lời của mình để trả lời câu hỏi bổ sung này.
Glen_b -Reinstate Monica

2
Đây là một bài viết tuyệt vời Glen. Tôi nghĩ rằng tôi sẽ sửa đổi phương thức nomogramcủa hàm plotđể thêm Pointstỷ lệ bổ sung theo mặc định. Đề nghị tuyệt vời !!
Frank Harrell

1
@FrankHarrell Không, bởi vì bạn không đọc bất kỳ mối quan hệ nào giữa các điểm và tổng số điểm - chúng thậm chí không cần phải ở trên cùng một trang. Vấn đề là tìm "dọc" để bạn có thể đọc chính xác từ tổng số điểm đến bộ dự báo tuyến tính. Nếu hai cái cân đó rất gần hoặc chạm vào nhau, thay vì nói cách nhau hai inch, thì đó không phải là vấn đề. Khi chúng cách nhau vài inch, một vài mức độ lỗi trong việc tìm dọc có thể có nghĩa là một chút lỗi trong kết quả. Mặc dù vậy, bạn vẫn cần hai thang điểm trong phần đầu tiên, bởi vì bạn có thể có nhiều dự đoán và tất cả chúng không thể liền kề với thang điểm.
Glen_b -Reinstate Monica

1
@FrankHarrell Cá nhân tôi nghĩ rằng một lưới làm mờ màn hình và có xu hướng che khuất giá trị của nó; Tôi tránh lưới khi tôi có thể. Chúng cũng không cho phép độ chính xác như nhau trong việc lấy dọc trừ khi lưới cũng tốt như tỷ lệ (mà tôi nghĩ sẽ rất tệ về mặt trực quan), Nếu không có tùy chọn cho một, tôi sẽ kết thúc chỉnh sửa theo thang điểm thứ hai (giống như tôi đã làm ở đây) để biến nó thành trạng thái có thể sử dụng cho hai mục đích mà tôi thấy nó có (tôi ước tính chính xác hợp lý các giá trị dự đoán mà không che khuất ii. sự rõ ràng của các đóng góp tương đối để trả lời) ..
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.