Là hồi quy tuyến tính đã lỗi thời? [đóng cửa]


12

Tôi hiện đang ở trong một lớp hồi quy tuyến tính, nhưng tôi không thể lay chuyển được cảm giác rằng những gì tôi đang học không còn phù hợp trong cả thống kê hiện đại hay học máy. Tại sao có quá nhiều thời gian dành cho việc suy luận về hồi quy tuyến tính đơn giản hoặc đa tuyến khi rất nhiều bộ dữ liệu thú vị ngày nay thường vi phạm nhiều giả định phi thực tế của hồi quy tuyến tính? Tại sao không thay vì dạy suy luận về các công cụ hiện đại, linh hoạt hơn như hồi quy bằng máy vectơ hỗ trợ hoặc quy trình Gaussian? Mặc dù phức tạp hơn việc tìm một siêu phẳng trong một không gian, nhưng điều này sẽ không cung cấp cho sinh viên một nền tảng tốt hơn nhiều để giải quyết các vấn đề thời hiện đại?


10
Do tua vít làm cho búa trở nên lỗi thời? Hay mỗi người thực hiện một nhiệm vụ khác nhau?
Sycorax nói Phục hồi lại

6
Tôi có một bộ đa chức năng hoạt động như một con dao, cưa, một vài tua vít khác nhau, một cặp kìm và có thể là một vài thứ khác, nhưng khi tôi cần bất kỳ công cụ nào thì đó là điều cuối cùng tôi đạt được. Nó chỉ hữu ích trong một nhúm, nó không bao giờ là "công cụ tốt nhất cho công việc".
Darren

7
Nhiều, nhiều tình huống phải đối mặt với người thực liên quan đến các tập dữ liệu rất nhỏ với độ nhiễu cao; trong nhiều trường hợp, các mô hình phức tạp hơn là không khả thi trong khi ít nhất một phần nhỏ thời gian của một mô hình tuyến tính đơn giản là ít nhất có thể sử dụng được. Mặc dù các tập dữ liệu lớn (và các vấn đề liên quan của chúng) sẽ tiếp tục tăng theo tỷ lệ của tổng phân tích dữ liệu đang diễn ra, các tập dữ liệu rất nhỏ và các phân tích tương đối đơn giản mà chúng dựa vào sẽ không bao giờ biến mất. Thêm vào đó, các công cụ tinh vi hơn được xây dựng trực tiếp trên các công cụ đơn giản hơn, không chỉ về mặt lịch sử mà còn về mặt khái niệm.
Glen_b -Reinstate Monica

6
Ngoài nhiều tình huống trong đó hồi quy tuyến tính được tiếp tục sử dụng thực tế, cũng đáng để chỉ ra rằng đó là nền tảng trong việc tìm hiểu về một lớp rộng các mô hình phụ gia phức tạp hơn. Về mặt đó, câu hỏi này giống như hỏi liệu tính toán có làm cho số học bị lỗi thời hay không.
Jacob Socolar

1
@Aksakal Xin hãy giải thích. Điều gì về việc sử dụng trong tối ưu hóa Bayes?
Mark L. Stone

Câu trả lời:


24

Đúng là các giả định của hồi quy tuyến tính không thực tế. Tuy nhiên, điều này đúng với tất cả các mô hình thống kê. "Tất cả các mô hình đều sai, nhưng một số là hữu ích."

Tôi đoán bạn đang có ấn tượng rằng không có lý do gì để sử dụng hồi quy tuyến tính khi bạn có thể sử dụng một mô hình phức tạp hơn. Điều này không đúng, bởi vì nói chung, các mô hình phức tạp hơn dễ bị quá mức và chúng sử dụng nhiều tài nguyên tính toán hơn, điều này rất quan trọng nếu, ví dụ, bạn đang cố gắng thống kê trên bộ xử lý nhúng hoặc máy chủ web. Các mô hình đơn giản hơn cũng dễ hiểu và dễ hiểu hơn; ngược lại, các mô hình học máy phức tạp như mạng lưới thần kinh có xu hướng kết thúc dưới dạng hộp đen, ít nhiều.

Ngay cả khi hồi quy tuyến tính một ngày nào đó không còn thực sự hữu ích (điều dường như cực kỳ khó xảy ra trong tương lai gần), nó vẫn sẽ quan trọng về mặt lý thuyết, bởi vì các mô hình phức tạp hơn có xu hướng xây dựng trên hồi quy tuyến tính làm nền tảng. Ví dụ, để hiểu hồi quy logistic hiệu ứng hỗn hợp thường xuyên, trước tiên bạn cần hiểu hồi quy tuyến tính đơn giản cũ.

Điều này không có nghĩa là các mô hình phức tạp hơn, mới hơn và sáng hơn không hữu ích hoặc quan trọng. Nhiều người trong số họ là. Nhưng các mô hình đơn giản hơn được áp dụng rộng rãi hơn và do đó quan trọng hơn, và rõ ràng có ý nghĩa để trình bày trước nếu bạn sẽ trình bày một loạt các mô hình. Có rất nhiều phân tích dữ liệu xấu được thực hiện trong những ngày này bởi những người tự gọi mình là "nhà khoa học dữ liệu" hoặc một cái gì đó nhưng thậm chí không biết những thứ nền tảng, giống như khoảng tin cậy thực sự là gì. Đừng là một thống kê!


Bạn có thể làm rõ những gì bạn có nghĩa là một "mô hình phức tạp"? OP có nghĩa là điều tương tự?
Hatshepsut

1
@Hatshepsut Thực tế bất cứ điều gì không chỉ là hồi quy tuyến tính hoặc trường hợp đặc biệt. OP đã đưa ra các mô hình quy trình SVM và Gaussian làm ví dụ. Tôi đã đề cập đến các mô hình hỗn hợp, hồi quy logistic và hồi quy bị phạt. Một số ví dụ khác là cây quyết định, mạng lưới thần kinh, MARS, mô hình phân cấp Bayes và mô hình phương trình cấu trúc. Nếu bạn đang hỏi làm thế nào chúng ta quyết định xem một mô hình có phức tạp hơn mô hình khác hay chính xác được tính là một mô hình hay không, thì đó là những câu hỏi được Xác thực chéo cho chính họ.
Kodiologist

"Quá mức"; giống như sử dụng một đa thức bậc chín để phù hợp với thứ gì đó hóa ra là tổng của số mũ. Nó phù hợp đến mức cốt truyện tái tạo các lỗi nhạc cụ ngay trên mức độ tiếng ồn. Tôi vẫn tự hỏi nếu thực sự sử dụng đa thức đó sẽ làm việc tốt hơn.
Joshua

7

Hồi quy tuyến tính nói chung là không lỗi thời . Vẫn có những người đang nghiên cứu về các phương pháp liên quan đến LASSO và cách họ liên quan đến nhiều thử nghiệm chẳng hạn - bạn có thể google Emmanuel Candes và Malgorzata Bogdan.

Nếu bạn đang hỏi về thuật toán OLS nói riêng, câu trả lời tại sao họ dạy điều này là phương pháp đó đơn giản đến mức nó có giải pháp dạng đóng. Ngoài ra, nó chỉ đơn giản hơn hồi quy sườn hoặc phiên bản với lasso / thunnet. Bạn có thể xây dựng trực giác / bằng chứng của mình trên giải pháp cho hồi quy tuyến tính đơn giản và sau đó làm phong phú mô hình với các ràng buộc bổ sung.


3

Tôi không nghĩ hồi quy là cũ, nó có thể được coi là tầm thường đối với một số vấn đề hiện đang phải đối mặt với các nhà khoa học dữ liệu, nhưng vẫn là ABC của phân tích thống kê. Làm thế nào bạn có thể hiểu nếu SVM hoạt động chính xác nếu bạn không biết mô hình đơn giản nhất đang hoạt động như thế nào? Sử dụng một công cụ đơn giản như vậy dạy cho BẠN cách nhìn vào dữ liệu trước khi nhảy vào các mô hình phức tạp điên rồ và hiểu sâu sắc những công cụ nào có thể được sử dụng trong phân tích sâu hơn và những công cụ nào không thể. Khi nói chuyện với một giáo sư và đồng nghiệp của tôi, cô ấy nói với tôi rằng các sinh viên của cô ấy rất giỏi trong việc áp dụng các mô hình phức tạp nhưng họ không thể hiểu đòn bẩy là gì hoặc đọc một âm mưu qq đơn giản để hiểu dữ liệu sai. Thông thường trong các mô hình đơn giản và dễ đọc nhất đứng vẻ đẹp.


3

Câu trả lời ngắn gọn là không . Ví dụ: nếu bạn thử mô hình tuyến tính với dữ liệu MNIST, bạn vẫn sẽ nhận được ~ 90% độ chính xác!

Một câu trả lời dài sẽ là "tùy thuộc vào miền", nhưng mô hình tuyến tính được sử dụng rộng rãi.

  • Trong một số lĩnh vực nhất định, nghiên cứu y học, rất tốn kém để có được một điểm dữ liệu. Và công việc phân tích vẫn tương tự như nhiều năm trước: hồi quy tuyến tính vẫn đóng một vai trò rất quan trọng.

  • Trong học máy hiện đại, phân loại văn bản, mô hình tuyến tính vẫn rất quan trọng, mặc dù có những mô hình fancier khác. Điều này là do mô hình tuyến tính rất "ổn định", nó sẽ có ít sự phù hợp với dữ liệu hơn.

Cuối cùng, mô hình tuyến tính thực sự là các khối xây dựng cho hầu hết các mô hình khác. Học tốt sẽ có lợi cho bạn trong tương lai.


2

Trong điều kiện thực tế, hồi quy tuyến tính là hữu ích ngay cả khi bạn cũng đang sử dụng một mô hình phức tạp hơn cho công việc của mình. Điều quan trọng là hồi quy tuyến tính là dễ hiểu và do đó dễ sử dụng để hiểu một cách khái niệm những gì đang xảy ra trong các mô hình phức tạp hơn.

Tôi có thể cung cấp cho bạn một ví dụ ứng dụng thực tế từ công việc thực tế của tôi với tư cách là một nhà phân tích thống kê. Nếu bạn thấy mình hoang dã, không bị giám sát, với một bộ dữ liệu lớn và ông chủ của bạn yêu cầu bạn thực hiện một số phân tích về nó, bạn sẽ bắt đầu từ đâu? Chà, nếu bạn không quen với tập dữ liệu và không biết làm thế nào các tính năng khác nhau được dự kiến ​​sẽ liên quan đến nhau, thì một mô hình phức tạp như những gì bạn đề xuất là một nơi tồi tệ để bắt đầu điều tra.

Thay vào đó, nơi tốt nhất để bắt đầu là hồi quy tuyến tính cũ đơn giản. Thực hiện phân tích hồi quy, xem xét các hệ số và vẽ đồ thị các phần dư. Khi bạn bắt đầu thấy những gì đang xảy ra với dữ liệu, thì bạn có thể đưa ra một số quyết định về phương pháp nâng cao nào bạn sẽ thử áp dụng.

Tôi khẳng định rằng nếu bạn chỉ cắm dữ liệu của mình vào một số hộp đen mô hình nâng cao như sklearn.svm (nếu bạn vào Python), thì bạn sẽ có độ tin cậy rất thấp rằng kết quả của bạn sẽ có ý nghĩa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.