Có thực tế cho tất cả các biến có ý nghĩa cao trong mô hình hồi quy bội không?


8

Tôi muốn hồi quy nền kinh tế nhiên liệu về chuyển động cơ, loại nhiên liệu, dẫn động 2 bánh 4, mã lực, hộp số tay so với tự động và số tốc độ. Tập dữ liệu của tôi ( liên kết ) chứa các phương tiện từ 2012-2014.

  • fuelEconomy trong dặm cho mỗi gallon
  • engineDisplacement: kích thước động cơ tính bằng lít
  • fuelStd: 1 cho gas 0 cho diesel
  • wheelDriveStd: 1 cho ổ 2 bánh, 0 cho ổ 4 bánh
  • hp: mã lực
  • transStd: 1 cho Tự động, 0 cho thủ công
  • transSpeed: Số tốc độ

Mã R:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. Là kết quả thực tế hay tôi đang làm gì đó sai ở đây vì hầu hết các biến có ý nghĩa thống kê cao?
  2. Là các mô hình khác tốt hơn để sử dụng cho mục đích này?
  3. Là một kết quả như vậy có thể sử dụng để giải thích?

Câu trả lời:


5

@AntoniParelleada đã làm rất tốt khi trình bày một số kỹ thuật chẩn đoán mô hình chuẩn mà bạn có thể sử dụng để đánh giá mô hình của mình. Tôi tập hợp mối quan tâm chính của bạn là "hầu hết các biến có ý nghĩa thống kê cao".

Tôi không thấy rằng bạn cần phải quan tâm về điều đó. Từ đầu ra của bạn, tôi thấy rằng mô hình có một F-statistic: 1566 on 6 and 2648 DF. Điều đó có nghĩa là bạn đang điều chỉnh tham số cho biến và có dữ liệu. Điều này cung cấp cho bạn một lượng lớn sức mạnh thống kê . Theo giả định rằng có bất kỳ mối quan hệ nào giữa các biến của bạn và phản hồi, điều đó không hoàn toàn tầm thường, bạn sẽ nhận được một kết quả quan trọng. Tôi ngạc nhiên hơn khi bất cứ điều gì (cụ thể ) là không đáng kể. 6 2655662655transSpeed

Có lẽ câu hỏi của bạn được thúc đẩy bởi niềm tin rằng, từ quan điểm lý thuyết, một số biến nên không liên quan đến fuelEconomyvà do đó bạn rất ngạc nhiên rằng nó có ý nghĩa. (Tuy nhiên, nếu điều đó là đúng, thì việc đưa nó vào mô hình là điều bất thường.) Nhưng một kết quả quan trọng không nhất thiết có nghĩa là một hiệp phương sai có ảnh hưởng đến phản hồi, vì vậy đây không phải là loại I lỗi . Bởi vì dữ liệu của bạn gần như chắc chắn là quan sát, bạn chỉ đang phát hiện các hiệp hội cận biên. Đó là, ví dụ, những chiếc xe có hệ dẫn động bánh trước cũng có thể khác với những chiếc xe dẫn động bánh sau theo những cách khác ngoài những bánh xe truyền công suất và khác với các biến khác có trong mô hình. Do đó, hệ số wheelDriveStdsẽ đo lường sự liên kết giữa nóvà tất cả các biến không loại trừ tương quan với nófuelEconomy. Vì vậy, nó có thể hợp lý cho nó có ý nghĩa ngay cả khi chúng ta biết từ vật lý / kỹ thuật mà bánh xe truyền năng lượng không liên quan đến hiệu quả nhiên liệu.


Tôi có nhiều kiến ​​thức học máy hơn thống kê. Chúng ta có thể nói, nếu chúng ta có dữ liệu lớn nói hàng triệu hàng và hàng nghìn cột, không ai quan tâm đến tính năng "quan trọng" nữa?
Haitao Du

3
Tôi không nhất thiết phải mô tả nó theo cách đó, @ hxd1011. Nếu thực sự không có liên kết, tỷ lệ lỗi loại I sẽ vẫn là 0,05, vì vậy ai đó vẫn có thể quan tâm, nhưng bạn sẽ có đủ sức mạnh để phát hiện các hiệu ứng thậm chí rất nhỏ. Tương tự như vậy, nó có thể giúp đọc thử nghiệm thông thường 'về cơ bản là vô dụng'?
gung - Phục hồi Monica

Thực sự nhiều thông tin. Tôi tự hỏi nếu có bất kỳ một lớp lót nào mà bạn có thể thêm vào để đưa ra một số tham khảo / quan điểm để chúng tôi nắm bắt trực quan khẳng định của bạn về lượng sức mạnh thống kê khổng lồ dựa trên thống kê F.
Antoni Parellada

2
Chỉ là là rất nhiều dữ liệu, @AntoniParellada. N= =2,655
gung - Phục hồi Monica

Cảm ơn bạn! Với số liệu thống kê, tôi luôn cho rằng phải có nhiều "ẩn" hơn ... :-)
Antoni Parellada

4

Tôi biết rất ít về cơ học và vật lý liên quan, nhưng điều đầu tiên tôi sẽ xem xét là chẩn đoán hồi quy, đặc biệt là các lô của phần dư so với các giá trị được trang bị, mà chúng tôi muốn không có mô hình tổng thể.

Bạn đã trang bị một mô hình tuyến tính sao cho mỗi hiệp phương sai có liên kết tuyến tính với fuelEconomy. Điều này có được hỗ trợ bởi lý thuyết cơ học và vật lý cơ bản không? Có thể có bất kỳ hiệp hội phi tuyến tính? Nếu vậy thì bạn có thể xem xét các mô hình với các thuật ngữ phi tuyến, biến đổi một số biến nhất định hoặc bạn có thể xem xét sử dụng mô hình phụ gia. Ngay cả khi các liên kết là tuyến tính hợp lý trong tập dữ liệu thực tế của bạn, hãy hết sức cảnh giác để ngoại suy các kết quả vượt quá giới hạn dữ liệu của bạn.


4

Một ma trận phân tán với các đường cong hoàng thổ và các giá trị tương quan (giá trị tuyệt đối) có thể là điểm khởi đầu tốt:

nhập mô tả hình ảnh ở đây

Chúng ta có thể nhận thấy ở đây mối quan hệ bậc hai có thể của fuelEconomyâm mưu chống lại cả hai lineDisplacementhp, điều này cũng được phản ánh trong sự xuất hiện của Nike swoosh trong cốt truyện còn lại . Sẽ rất thú vị khi điều tra sự hiện diện của sự tương tác giữa các thuật ngữ này.

nhập mô tả hình ảnh ở đây

Sự thiếu tuyến tính này cũng rõ ràng nếu chúng ta chạy hồi quy tuyến tính fuelEconomychống lại linearDisplacement(có thể thu được kết quả tương tự hp). Lưu ý đường màu đỏ ...

nhập mô tả hình ảnh ở đây

Hiệu ứng này có thể được khắc phục một phần làm cho mô hình phức tạp hơn và đưa ra mô hình bậc hai:

nhập mô tả hình ảnh ở đây

0.82050,7798


Bản chất phân đôi của fuelStdwheeldriveStdchỉ đơn giản là di chuyển giá trị trung bình của các giá trị dự đoán xuống và thực tế là các biến hoặc yếu tố được mã hóa giả. Điều này cũng rõ ràng trên biểu đồ phân tán ban đầu, nhưng có thể được hình dung rõ hơn với các ô hình hộp:

nhập mô tả hình ảnh ở đây


Một điểm cuối cùng trong chẩn đoán là sự hiện diện của các điểm đòn bẩy cao , đáng để xem xét:

nhập mô tả hình ảnh ở đây

Kết luận gì? Không có gì phân loại. Có lẽ chỉ để nhấn mạnh tầm quan trọng của âm mưu trong việc hiểu tập dữ liệu và bất kỳ mô hình nào áp đặt lên nó.


1

Câu trả lời cho câu hỏi đầu tiên của bạn phụ thuộc vào khung lý thuyết của bạn, cách bạn nêu các giả thuyết về mối quan hệ giữa các biến phụ thuộc và biến độc lập và cách bạn diễn giải kết quả. Về bản thân, việc có được mối quan hệ có ý nghĩa thống kê đối với hầu hết các biến có thể không nói lên điều gì về kết quả của bạn thực tế như thế nào.

Vì vậy, nếu những kết quả này có vẻ đáng ngờ đối với bạn (dựa trên kiến ​​thức trước đó của bạn), bạn có thể chạy một số xét nghiệm chẩn đoán để hồi quy. Có thể có sự vi phạm các giả định mô hình và các vấn đề khác (ví dụ: ngoại lệ). Trên thực tế, việc chạy các thử nghiệm này để đánh giá mô hình hồi quy của bạn luôn hữu ích. Vì bạn đang sử dụng R, bạn có thể kiểm tra cargói cung cấp một số chức năng cho các xét nghiệm chẩn đoán. Tại đây, bạn có thể tìm thấy các khóa học về chẩn đoán hồi quy của một trong những tác giả (và người tạo ra) cargói, John Fox. Bạn có thể kiểm tra cuốn sách của ông về chủ đề (1991) là tốt. Kabacoff (2011) cũng thảo luận về chẩn đoán hồi quy và cách sử dụng các Rhàm (bao gồm cả các hàm từcargói) và giải thích kết quả (tr.188-200). Tôi nghĩ rằng sau những thử nghiệm chẩn đoán này, tốt hơn là đánh giá kết quả và mức độ sử dụng của chúng.


Cáo, J. (1991). Chẩn đoán hồi quy . Công viên Newbury, London, New Delhi: Ấn phẩm hiền triết.

Kabacoff, RI (2011). R trong hành động: Phân tích dữ liệu và đồ họa với R . Đảo Shelter: Manning.

Cũng thế:

Cáo, J., & Weisberg, S. (2011). Chẩn đoán các vấn đề trong mô hình tuyến tính tuyến tính và tổng quát. Trong An R đồng hành với hồi quy ứng dụng (tái bản lần 2, trang 285. Los Angeles: Ấn phẩm hiền triết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.