Tại sao nên học hồi quy tuyến tính?


13

Cho hai biến ngẫu nhiên và chúng ta có thể tính "hệ số tương quan" và tạo thành dòng phù hợp nhất giữa hai biến ngẫu nhiên này. Câu hỏi của tôi là tại sao?ξηc

1) Có các biến ngẫu nhiên, và phụ thuộc theo cách tồi tệ nhất có thể, tức là và mặc dù điều này . Nếu người ta chỉ nghĩ theo hồi quy tuyến tính, thì người ta sẽ hoàn toàn mù quáng về điều này.ξηξ=f(η)c=0

2) Tại sao tuyến tính cụ thể? Có các loại mối quan hệ khác có thể tồn tại giữa các biến ngẫu nhiên. Tại sao độc thân mà một trong số tất cả những người khác?


18
Điều này giống như hỏi tại sao bạn sở hữu một tuốc nơ vít khi đôi khi bạn gặp phải đinh.
Sycorax nói phục hồi Monica

6
Bạn dường như cũng đang giả định tiền đề rằng có những người ngoài kia chỉ quan tâm đến hồi quy tuyến tính: "Nếu người ta chỉ nghĩ theo hồi quy tuyến tính", "Tại sao lại bỏ qua một trong những người khác ". Điều này có vẻ giống như một người rơm đối với tôi, tất nhiên thật nực cười khi tuân thủ một và chỉ một công cụ hoặc quan điểm.
Matthew Drury

7
Tuyến tính "đặc biệt" thực sự là nhiều hơn về sự kết hợp tuyến tính của các hàm cơ bản , thực sự khá chung chung.
GeoMatt22

2
@MatthewDrury Không có người rơm, và tôi không giả định bất cứ điều gì, tôi chỉ hỏi một câu hỏi bằng cách sử dụng một trường hợp cực đoan bệnh lý để minh họa một điểm yếu trong phương pháp. Tại sao bạn cho rằng tôi giả định điều đó? Hồi quy là một chủ đề rất lớn cho các nhà thống kê. Tôi không hiểu điều gì đặc biệt về nó đến nỗi nó được nghiên cứu rất nhiều.
Nicolas Bourbaki

8
Đối với những người đang gặp khó khăn trong câu hỏi này: Tôi nghĩ rằng bạn đã quên trở lại khi lần đầu tiên biết về hồi quy tuyến tính và được thông báo "một trong những giả định là hiệu ứng tuyến tính". Bạn tự nghĩ "nhưng một hiệu ứng là không bao giờ tuyến tính!". Rất có thể, sau rất nhiều suy ngẫm, bạn đã thuyết phục bản thân rằng mặc dù vậy, hồi quy tuyến tính vẫn là một công cụ cơ bản để được hiểu và sử dụng. Bây giờ chỉ cần thiết lập lại chính mình để trở lại trước khi bạn hoàn thành suy nghĩ đó. Tôi nghĩ rằng đó là một câu hỏi tuyệt vời mà mọi sinh viên thống kê nên dành nhiều thời gian để xem xét.
Vách đá AB

Câu trả lời:


9

Tôi đồng ý không phải tất cả các mối quan hệ là tuyến tính, nhưng khá nhiều mối quan hệ có thể được xấp xỉ tuyến tính. Chúng ta đã thấy nhiều trường hợp như vậy trong toán học như sê-ri Taylor hoặc sê-ri Fourier, v.v. Điểm mấu chốt ở đây là, geomatt22 nói trong nhận xét, nói chung bạn có thể chuyển đổi dữ liệu phi tuyến và áp dụng một số loại biến đổi với các hàm cơ bản và tuyến tính hóa mối quan hệ. Lý do các trường đại học chỉ giải quyết 'nhiều mô hình hồi quy tuyến tính' (bao gồm các mô hình hồi quy đơn giản) là vì chúng là khối xây dựng cho các mô hình ở cấp độ nâng cao hơn cũng là tuyến tính.

Về mặt toán học, miễn là bạn có thể chứng minh rằng một xấp xỉ tuyến tính nhất định là dày đặc trong không gian Hilbert, thì bạn sẽ có thể sử dụng xấp xỉ để biểu diễn một hàm trong không gian.


2
Chính xác. Không ai khác đề cập đến nó, nhưng như câu trả lời này nói chung, bạn luôn có thể áp dụng một phép biến đổi cho các biến của mình để tuyến tính hóa mối quan hệ. Hơn nữa: a) rất dễ tìm thấy cực đại toàn cầu cho hồi quy tuyến tính và b) nhiều mô hình khác, bao gồm cả mạng thần kinh, sẽ dễ hiểu hơn nếu bạn biết hồi quy logistic dựa trên hồi quy tuyến tính.
Ricardo Cruz

7

Mô hình mà bạn đang đề cập, hồi quy tuyến tính đơn giản, hay còn gọi là "dòng phù hợp nhất" (tôi đang nhầm lẫn mô hình và phương pháp ước lượng ở đây), được thừa nhận là rất đơn giản (như tên gọi). Tại sao học nó? Tôi có thể thấy rất nhiều lý do. Sau đây tôi giả sử rằng khái niệm biến ngẫu nhiên ít nhất đã được giới thiệu không chính thức, bởi vì bạn đã đề cập đến nó trong câu hỏi của bạn.

  1. sư phạm: tất nhiên, đối với bạn rõ ràng là các biến ngẫu nhiên có giá trị thực với các khoảnh khắc thứ hai hữu hạn tạo thành một không gian Hilbert. Có lẽ nó đã rõ ràng khi bạn lần đầu tiên nghiên cứu lý thuyết xác suất. Nhưng thống kê không chỉ được dạy cho sinh viên toán: có một cộng đồng rộng lớn hơn, từ vật lý đến kinh tế, khoa học máy tính, khoa học xã hội, v.v. Những sinh viên này có thể gặp phải thống kê sớm trong quá trình học. Họ có thể hoặc không thể được giải thích cho đại số tuyến tính, và ngay cả trong trường hợp đầu tiên, họ có thể đã không nhìn thấy nó từ quan điểm trừu tượng hơn của một khóa học toán. Đối với những sinh viên này, khái niệm xấp xỉ một biến ngẫu nhiên bằng một biến ngẫu nhiên khác không phải là ngay lập tức. Ngay cả thuộc tính cơ bản của mô hình tuyến tính đơn giản, nghĩa là thực tế là lỗi và bộ dự đoán là các biến ngẫu nhiên trực giao, đôi khi gây ngạc nhiên cho họ. Việc bạn có thể xác định "góc" giữa các biến ngẫu nhiên (các đối tượng "khó chịu"! Các hàm có thể đo được từ không gian xác suất đến không gian có thể đo được) có thể rõ ràng đối với bạn, nhưng không nhất thiết phải là sinh viên năm nhất. Do đó, nếu nghiên cứu về không gian vectơ bắt đầu với mặt phẳng Euclide tốt, thì việc bắt đầu nghiên cứu các mô hình thống kê với đơn giản nhất có hợp lý không?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ε . Đây là một lớp mô hình thực sự mạnh mẽ, như @DaeyoungLim đã lưu ý, có thể xấp xỉ tất cả các hàm trong không gian Hilbert, nếu bạn có một tập hợp các hàm cơ bản vô hạn và nếu chúng tạo ra một không gian con vector dày đặc trong không gian Hilbert .
  3. thực tế : có rất nhiều ứng dụng thành công của hồi quy tuyến tính đơn giản. Luật Okun của chuyên ngành kinh tế, luật Hooke của , định luật Ohmpháp luật của Charles trong vật lý, mối quan hệ giữa huyết áp tâm thu máu và tuổi tác trong y học (tôi không có ý tưởng nếu nó có một cái tên!) Là những ví dụ của hồi quy tuyến tính đơn giản, với mức độ khác nhau của sự chính xác.

4

Một lý do nữa là cách hồi quy đáng yêu đưa ra một phương pháp điều trị thống nhất các kỹ thuật như ANOVA. Đối với tôi, cách điều trị ANOVA 'cơ bản' thông thường có vẻ khá mơ hồ, tuy nhiên cách điều trị dựa trên hồi quy là rất rõ ràng. Tôi nghi ngờ điều này có liên quan nhiều đến cách các mô hình hồi quy đưa ra một số giả định rõ ràng rằng trong các phương pháp điều trị 'cơ bản' là ngầm và không được mô tả. Hơn nữa, sự rõ ràng về khái niệm được cung cấp bởi một quan điểm thống nhất như vậy đi kèm với lợi ích thực tế tương tự khi có thời gian để thực hiện các phương pháp trong phần mềm thống kê.

Nguyên tắc này không chỉ áp dụng cho ANOVA, mà còn cho các phần mở rộng như các khối vuông bị hạn chế - đáng chú ý là câu hỏi thứ hai của bạn.


3

Sự phổ biến của hồi quy tuyến tính một phần là do tính dễ hiểu của nó - nghĩa là, những người không có kỹ thuật có thể hiểu các hệ số tham số chỉ với một chút giải thích. Điều này bổ sung rất nhiều giá trị trong các tình huống kinh doanh, trong đó người dùng cuối về đầu ra hoặc dự đoán có thể không có hiểu biết sâu sắc về toán học / thống kê.

Vâng, có những giả định và hạn chế với kỹ thuật này (như với tất cả các phương pháp tiếp cận), và nó có thể không cung cấp sự phù hợp nhất trong nhiều trường hợp. Nhưng Regression tuyến tính rất mạnh mẽ và thường có thể thực hiện khá tốt ngay cả khi các giả định bị vi phạm.

Vì những lý do này, nó chắc chắn đáng để nghiên cứu.


-2

Một cái gì đó có thể không liên quan dirctly.

xycov(x,y)=0xyyx

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.