Hồi quy tuyến tính và nhân rộng dữ liệu


10

Biểu đồ sau đây cho thấy các hệ số thu được với hồi quy tuyến tính (với biến mpglà mục tiêu và tất cả các hệ số khác là các yếu tố dự báo).

Đối với tập dữ liệu mtcars ( tại đâytại đây ) cả có và không thu nhỏ dữ liệu:

nhập mô tả hình ảnh ở đây

Làm thế nào để tôi giải thích những kết quả này? Các biến hpdispchỉ có ý nghĩa nếu dữ liệu được thu nhỏ. Là amqsecquan trọng như nhau hoặc amquan trọng hơn qsec? Biến nào nên nói là yếu tố quyết định quan trọng của mpg?

Cảm ơn sự sáng suốt của bạn.


Nếu bạn không phiền, bạn có thể chạy một vài mô hình khác nhau và kiểm tra chéo về các tính năng nào thực sự quan trọng không? Chia tỷ lệ dữ liệu được thực hiện khi chúng tôi có các thang đo rất khác nhau cho các cột khác nhau và chúng khác nhau rất nhiều, từ âm mưu của bạn (các ô đẹp), khá rõ ràng rằng việc chia tỷ lệ đã giúp mô hình tìm thấy dữ liệu thực mà tôi nhìn thấy về dữ liệu như không chia tỷ lệ, mô hình không có bất kỳ tùy chọn nào ngoài việc tăng thêm trọng số cho biến có tỷ lệ lớn với điều kiện những gì bạn dự đoán cũng là một con số hơi cao ..
Aditya

Cảm ơn bình luận của bạn về cốt truyện. Tôi không chắc ý của bạn là gì khi "chạy vài mô hình khác nhau". Bạn có thể tìm ra các tính năng nào thực sự quan trọng bằng cách sử dụng một số kỹ thuật khác như mạng thần kinh để người ta có thể so sánh với các kết quả của hồi quy tuyến tính.
rnso

Xin lỗi vì không rõ ràng, ý tôi là thử các thuật toán ml khác nhau như dựa trên cây, v.v. và so sánh tất cả các tính năng quan trọng của chúng ..
Aditya

Câu trả lời:


4

Thực tế là các hệ số của hp và phân tán thấp khi dữ liệu không được tính tỷ lệ và cao khi dữ liệu được chia tỷ lệ có nghĩa là các biến này giúp giải thích biến phụ thuộc nhưng độ lớn của chúng là lớn, vì vậy các hệ số trong trường hợp không được tính toán phải thấp.

Về mặt "tầm quan trọng", tôi sẽ nói rằng giá trị tuyệt đối của các hệ số trong trường hợp tỷ lệ là một thước đo tốt về tầm quan trọng, hơn cả trong trường hợp không được tính toán, vì ở đó độ lớn của biến cũng có liên quan, và nó nên không phải.

Tất nhiên biến quan trọng hơn là wt.


4

Bạn thực sự không thể nói về tầm quan trọng trong trường hợp này mà không có lỗi tiêu chuẩn; chúng quy mô với các biến và hệ số. Hơn nữa, mỗi hệ số là có điều kiện trên các biến khác trong mô hình và cộng tuyến thực sự dường như đang thổi phồng tầm quan trọng của hp và phân tán.

Thay đổi kích thước các biến không nên thay đổi tầm quan trọng của kết quả. Thật vậy, khi tôi chạy lại hồi quy (với các biến như đã được chuẩn hóa bằng cách trừ đi giá trị trung bình và chia cho các lỗi tiêu chuẩn), mỗi ước lượng hệ số (trừ hằng số) có chính xác cùng một t-stat như trước khi chia tỷ lệ và F-test có ý nghĩa tổng thể vẫn giống hệt nhau.

Đó là, ngay cả khi tất cả các biến đã được chia tỷ lệ có giá trị trung bình bằng 0 và phương sai bằng 1, không có một kích thước sai số chuẩn cho mỗi hệ số hồi quy, vì vậy chỉ cần nhìn vào độ lớn của từng hệ số trong hồi quy chuẩn hóa vẫn còn sai lệch về ý nghĩa.

Như David Masip đã giải thích, kích thước rõ ràng của các hệ số có mối quan hệ nghịch đảo với độ lớn của các điểm dữ liệu. Nhưng ngay cả khi các hệ số về độ phân tán và hp là rất lớn, chúng vẫn không khác biệt đáng kể so với số không.

Trong thực tế, hp và phân tán có mối tương quan cao với nhau, r = 0,79, do đó, các lỗi tiêu chuẩn trên các hệ số này đặc biệt cao so với cường độ hệ số vì chúng quá thẳng. Trong hồi quy này, họ đang thực hiện một đối trọng kỳ lạ, đó là lý do tại sao một người có hệ số dương và người ta có hệ số âm; nó có vẻ như là một trường hợp quá mức và dường như không có ý nghĩa.

Một cách tốt để xem biến nào giải thích sự thay đổi nhiều nhất trong mpg là R bình phương (đã điều chỉnh). Nghĩa đen là tỷ lệ phần trăm của biến thể trong y được giải thích bằng biến thể trong các biến x. (Bình phương R được điều chỉnh bao gồm một hình phạt nhẹ cho mỗi biến x bổ sung trong phương trình, để cân bằng quá mức.)

Một cách tốt để xem điều gì quan trọng - trong bối cảnh của các biến khác - là xem xét sự thay đổi trong bình phương R đã điều chỉnh khi bạn rời khỏi biến đó khỏi hồi quy. Sự thay đổi đó là tỷ lệ phần trăm của phương sai trong biến phụ thuộc mà yếu tố đó giải thích, sau khi giữ hằng số các biến khác. (Chính thức, bạn có thể kiểm tra xem các biến số bên trái có quan trọng với kiểm tra F hay không ; đây là cách hồi quy từng bước cho công việc lựa chọn biến.)

Để minh họa điều này, tôi đã chạy hồi quy tuyến tính đơn cho từng biến riêng biệt, dự đoán mpg. Chỉ riêng biến wt giải thích 75,3% biến thể trong mpg và không có biến đơn nào giải thích thêm. Tuy nhiên, nhiều biến số khác có tương quan với wt và giải thích một số biến thể tương tự. (Tôi đã sử dụng các lỗi tiêu chuẩn mạnh mẽ, điều này có thể dẫn đến sự khác biệt nhỏ trong các lỗi tính toán tiêu chuẩn và ý nghĩa quan trọng nhưng sẽ không ảnh hưởng đến hệ số hoặc bình phương R.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Khi tất cả các biến nằm trong đó cùng nhau, bình phương R là 0,869 và bình phương R điều chỉnh là 0,807. Vì vậy, việc ném thêm 9 biến để tham gia wt chỉ giải thích thêm 11% biến thể (hoặc chỉ thêm 5% nữa, nếu chúng ta sửa lỗi cho quá mức). (Nhiều biến số đã giải thích một số biến thể tương tự trong mpg mà wt thực hiện.) Và trong mô hình đầy đủ đó, hệ số duy nhất có giá trị p dưới 20% là wt, với p = 0,089.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.