Biến độc lập = Biến ngẫu nhiên?


25

Tôi hơi bối rối nếu một biến độc lập (còn được gọi là dự đoán hoặc tính năng) trong mô hình thống kê, ví dụ: trong hồi quy tuyến tính , có phải là biến ngẫu nhiên không?XY=β0+β1X


12
Mô hình tuyến tính có điều kiện trên , do đó có ngẫu nhiên hay không không quan trọng. X
Tây An

4
Kiểm tra này . Câu hỏi hay, BTW.
Antoni Parellada

@ Xi'an, trong thiết kế cố định, các giả định mô hình tuyến tính không được quy định trên , xem câu trả lời của tôi. Vì vậy, nó có vấn đề rất nhiều. Đó là lý do tại sao các thí nghiệm dễ diễn giải hơn nhiều so với kết quả nghiên cứu quan sátX
Aksakal

Câu trả lời:


19

Có hai công thức phổ biến của hồi quy tuyến tính. Để tập trung vào các khái niệm, tôi sẽ trừu tượng hóa chúng phần nào. Mô tả toán học liên quan nhiều hơn một chút so với mô tả tiếng Anh, vì vậy hãy bắt đầu với mô tả sau:

Tuyến tính hồi quy là một mô hình trong đó một phản ứng Y được giả định là ngẫu nhiên với một phân phối xác định bằng hồi quy X thông qua một tuyến tính bản đồ β(X) và có thể là do các thông số khác θ .

Trong hầu hết các trường hợp, các bộ phân phối có thể là một gia đình trí với các thông số αθβ(X) cung cấp cho các tham số α . Ví dụ archetypical là hồi quy bình thường , trong đó tập các bản phân phối là gia đình bình thường N(μ,σ)μ=β(X) là một hàm tuyến tính của hồi quy.

Bởi vì tôi chưa được mô tả này về mặt toán học, nó vẫn còn là một câu hỏi mở những loại đối tượng toán học X , Y , β , và θ tham khảo - và tôi tin rằng đó là vấn đề chính trong chủ đề này. Mặc dù người ta có thể đưa ra nhiều lựa chọn (tương đương), hầu hết sẽ tương đương với, hoặc các trường hợp đặc biệt, của mô tả sau đây.


  1. Sửa lỗi hồi quy. Các hồi quy được biểu diễn dưới dạng vector thực XRp . Các phản ứng là một biến ngẫu nhiên Y:ΩR (nơi Ω được ưu đãi với một lĩnh vực sigma và xác suất). Các mô hình là một hàm f:R×ΘMd (hoặc, nếu bạn thích, một tập hợp các hàm RMd tham số bởi Θ ). Mdlà một cấu trúc con cấu trúc hữu hạn chiều (thường khác biệt thứ hai) (hoặc submanifold-với-ranh giới) của chiều d của không gian phân phối xác suất. f thường được thực hiện liên tục (hoặc đủ khác biệt). ΘRd1 là những "thông số phiền toái." Người ta cho rằng sự phân bố của Yf(β(X),θ) đối với một số kép vector biết βRp(the "hồi quy hệ số") và chưa biết θΘ. Chúng ta có thể viết

    Yf(β(X),θ).

  2. Hồi quy ngẫu nhiên. Các hồi quy và phản ứng là một p+1 chiều vector có giá trị biến ngẫu nhiên Z=(X,Y):ΩRp×R . Mô hình f là cùng loại đối tượng như trước đây, nhưng bây giờ nó đưa ra xác suất có điều kiện

    Y|Xf(β(X),θ).

Mô tả toán học là vô ích nếu không có một số đơn thuốc cho biết nó được áp dụng như thế nào cho dữ liệu. Trong trường hợp hồi quy cố định, chúng tôi quan niệm X như được chỉ định bởi người thực nghiệm. Do đó nó có thể giúp để xem Ω như một sản phẩm Rp×Ω ưu đãi với một đại số sigma sản phẩm. Các thí nghiệm xác định X và tính chất quyết định (một số không rõ, trừu tượng) ωΩ . Trong trường hợp regressor ngẫu nhiên, tính chất xác định ωΩ , các X -component của biến ngẫu nhiên πX(Z(ω)) xác địnhX (được "quan sát"), và bây giờ chúng ta có một cặp lệnh(X(ω),ω))Ω chính xác như trong trường hợp regressor cố định.


Ví dụ archetypical nhiều hồi quy tuyến tính (mà tôi sẽ thể hiện bằng ký hiệu chuẩn cho các đối tượng chứ không phải là một khái quát hơn này) là

f(β(X),σ)=N(β(x),σ)
đối với một số liên tục σΘ=R+ . Khi x thay đổi trong suốt Rp , hình ảnh của nó khác nhau theo dõi một tập hợp con một chiều - một đường cong - trong đa tạp hai chiều của các bản phân phối Bình thường.

Khi - trong bất kỳ thời trang whatsoever-- β được ước tính như βσσ , giá trị của β ( x )giá trị dự đoán của Y kết hợp với x --whether x được điều khiển bởi các thí nghiệm (trường hợp 1 ) hoặc chỉ được quan sát (trường hợp 2). Nếu chúng ta đặt giá trị (trường hợp 1) hoặc quan sát nhận biết (trường hợp 2) x của X , thì phản hồi Y liên quan đến X đó là một biến ngẫu nhiên có phân phối là N (β^σσ^β^(x)YxxxX YXN(β(x),σ) , đó là chưa biết nhưngước tínhN(β^(x),σ^) .


Hãy để tôi đề cập, rằng đây là một câu trả lời tuyệt vời (nhưng có lẽ không dành cho tất cả mọi người).
l7ll7

2
Tái bút: Bạn có biết về bất kỳ cuốn sách nào, nơi những câu hỏi nền tảng này được giải thích chính xác như bạn đã làm ở đây không? Là một nhà toán học, tất cả những cuốn sách tôi tìm thấy phản ánh các câu trả lời khác ở đây, ít chính xác hơn theo quan điểm toán học. (Điều này không làm cho chúng xấu đi, tất nhiên, chỉ là những cuốn sách đó không dành cho tôi - tôi sẽ thích một cuốn sách chính xác hơn, như câu trả lời này.)
l7ll7

Trong câu đầu tiên của đoạn cuối cùng, không phải là β ( x ) giá trị dự đoán cho y (một thực hiện của biến ngẫu nhiên Y ), không phải là giá trị dự đoán cho x ? Hoặc tôi đã hiểu nhầm ngôn ngữ của bạn và "giá trị dự đoán cho x " có nghĩa là "giá trị dự đoán khi x là giá trị được đặt (quan sát) của X ?" β^(x)yYxxxX
Chad

1
@Chad Cảm ơn bạn đã chỉ ra ngôn ngữ mơ hồ. Tôi đã chỉnh sửa câu đó để làm rõ nghĩa, phù hợp với sự hiểu biết của bạn.
whuber

6

Trước hết, @whuber đã đưa ra một câu trả lời tuyệt vời. Tôi sẽ cho nó một cách khác, có thể đơn giản hơn theo một nghĩa nào đó, cũng với một tham chiếu đến một văn bản.

ĐỘNG LỰC

có thể là ngẫu nhiên hoặc cố định trong công thức hồi quy. Điều này phụ thuộc vào vấn đề của bạn. Đối với cái gọi là nghiên cứu quan sát, nó phải là ngẫu nhiên, và đối với các thí nghiệm, nó thường được cố định.X

Ví dụ một. Tôi đang nghiên cứu tác động của việc tiếp xúc với bức xạ điện tử đến độ cứng của phần kim loại. Vì vậy, tôi lấy một vài mẫu của phần kim loại và phơi bày mức độ phóng xạ khác nhau. Mức phơi sáng của tôi là X và nó đã được sửa , vì tôi đặt thành các mức tôi đã chọn. Tôi hoàn toàn kiểm soát các điều kiện của thí nghiệm, hoặc ít nhất là cố gắng. Tôi có thể làm tương tự với các thông số khác, chẳng hạn như nhiệt độ và độ ẩm.

Ví dụ hai. Bạn đang nghiên cứu tác động của nền kinh tế đến tần suất xuất hiện gian lận trong các ứng dụng thẻ tín dụng. Vì vậy, bạn hồi quy sự kiện gian lận dựa trên GDP. Bạn không kiểm soát GDP, bạn không thể đặt ở mức mong muốn. Hơn nữa, bạn có thể muốn xem xét hồi quy đa biến, do đó bạn có các biến khác như thất nghiệp và bây giờ bạn có kết hợp các giá trị trong X mà bạn quan sát nhưng không kiểm soát. Trong trường hợp này X là ngẫu nhiên .

Ví dụ ba. Bạn đang nghiên cứu hiệu quả của thuốc trừ sâu mới trong lĩnh vực này, tức là không phải trong điều kiện phòng thí nghiệm, mà là trong trang trại thử nghiệm thực tế. Trong trường hợp này, bạn có thể kiểm soát một cái gì đó, ví dụ bạn có thể kiểm soát lượng thuốc trừ sâu cần đặt. Tuy nhiên, bạn không kiểm soát mọi thứ, ví dụ như điều kiện thời tiết hoặc đất đai. Ok, bạn có thể kiểm soát đất ở một mức độ nào đó, nhưng không hoàn toàn. Đây là một trường hợp ở giữa, trong đó một số điều kiện được quan sát và một số điều kiện được kiểm soát . Có toàn bộ lĩnh vực nghiên cứu này được gọi là thiết kế thử nghiệm thực sự tập trung vào trường hợp thứ ba này, trong đó nghiên cứu nông nghiệp là một trong những ứng dụng lớn nhất của nó.

MÔN TOÁN

Đây là phần toán học của một câu trả lời. Có một tập hợp các giả định thường được trình bày khi nghiên cứu hồi quy tuyến tính, được gọi là điều kiện Gauss-Markov. Họ rất lý thuyết và không ai bận tâm để chứng minh rằng họ nắm giữ trong bất kỳ thiết lập thực tế. Tuy nhiên, chúng rất hữu ích trong việc tìm hiểu các hạn chế của phương pháp bình phương nhỏ nhất (OLS).

Vì vậy, tập hợp các giả định là khác nhau đối với X ngẫu nhiên và cố định, gần tương ứng với các nghiên cứu quan sát và thực nghiệm. Một cách thô bạo, vì như tôi đã chỉ ra trong ví dụ thứ ba, đôi khi chúng ta thực sự ở giữa các thái cực. Tôi thấy phần định lý "Gauss-Markov" trong bách khoa toàn thư về thiết kế nghiên cứu của Salkind là một nơi tốt để bắt đầu, nó có sẵn trong Google Sách.

The differing assumptions of the fixed design are as follows for the usual regression model Y=Xβ+ε:

  • E[ε]=0
  • Homoscedasticity, E[ε2]=σ2
  • No serial correlation, E[εi,εj]=0

vs. the same assumptions in the random design:

  • E[ε|X]=0
  • Homoscedasticity, E[ε2|X]=σ2
  • No serial correlation, E[εi,εj|X]=0

As you can see the difference is in conditioning the assumptions on the design matrix for the random design. Conditioning makes these stronger assumptions. For instance, we are not just saying, like in fixed design, that the errors have zero mean; in random design we also say they're not dependent on X, covariates.


2

In statistics a random variable is quantity that varies randomly in some way. You can find a good discussion in this excellent CV thread: What is meant by a “random variable”?

In a regression model, the predictor variables (X-variables, explanatory variables, covariates, etc.) are assumed to be fixed and known. They are not assumed to be random. All of the randomness in the model is assumed to be in the error term. Consider a simple linear regression model as standardly formulated:

Y=β0+β1X+εwhere εN(0,σ2)
The error term, ε, is a random variable and is the source of the randomness in the model. As a result of the error term, Y is a random variable as well. But X is not assumed to be a random variable. (Of course, it might be a random variable in reality, but that is not assumed or reflected in the model.)

So you mean X is a constant ? Because that is the only other way to make sense of X from a mathematical point of view, since ε is a random variable and addition is only defined between two random variables and not "something else" + random variable. Though one of the two random variables could be constant, which is the case I'm referring to.
l7ll7

P.S. I looked at all the explanations from said link and none very illuminating: Why ? Because none make the connection between random variables as probabilists understand it vs. how statisticians understand it. So some answers restate the standard, precise probability theory definition, while others restate the (yet unclear to me) vague statistical definition. But none really explain the connection between these two concepts.(The only exception is the long ticket-in-a-box model answer, which may show some promise, but even so [...]
l7ll7

the difference wasn't fleshed out clearly enough to be strikingly illuminating; I'll have to meditate on this specific answer to see if there's any value to it)
l7ll7

@user10324, if you like, you can think of X as a set of constants. You could also think of it as a non-random variable.
gung - Reinstate Monica

No, the non-random variable way of thinking about it does not work, for two reasons: One, as I argued in the comments above, there is no such thing as a "variable" in mathematics, and two, even if it were, then addition in that case is not defined, as I argued in the comments above.
l7ll7

1

Not sure if I understand the question, but if you're just asking, "must an independent variable always be a random variable", then the answer is no.

An independent variable is a variable which is hypothesised to be correlated with the dependent variable. You then test whether this is the case through modelling (presumably regression analysis).

There are a lot of complications and "ifs, buts and maybes" here, so I would suggest getting a copy of a basic econometrics or statistics book covering regression analysis and reading it thoroughly, or else getting the class notes from a basic statistics/econometrics course online if possible.


Ok, but what is it, if it is not a random variable ? Just a (therefore deterministic) function ? I'm confused regarding the mathematical nature of the object "X". Actually, I found in the meantime a textbook, Probability and Statistics by Papoulis, where on page 149 he says "given two random variables X and Y [...]" and then goes on to explain how to regress X on Y. So he seems to understand X as a random variable ?
l7ll7

P.S. I want to add that there is no such thing as a "variable" in mathematics when you look at it as a "standalone" objects (my background is maths). Variables in mathematics are just parts of standalone objects (e.g. arguments of function), but have no standalone meaning. If I would just write "x" in mathematics, it could mean the function xx, or it could be a specific number, if x was assigned a values previously, but we don't have just x. And since log. regression is a mathematical model, I'm interested in the mathematical meaning of X.
l7ll7

It sounds as though you have a much greater understanding of maths than me. I'm just giving you the standard university undergraduate econometrics/statistics answer. I wonder if perhaps you might be overthinking it a bit, at least from the perspective of practical analysis. Regarding the quote from that book, my interpretation of that is that the specific x and y to which he is referring are random - but that doesn't mean that any x or any y are random.
Statsanalyst

e.g. the dependent variable in a model for voting trends in UK politics might be the number of votes received by the Conservative candidate in each constituency (Riding to Canadians, District to Americans), and the independent variable might be average house prices (a proxy for wealth/income in the UK). Neither of these is a "random" variable as I understand it, but this would be a perfectly reasonable thing to model.
Statsanalyst

Ok, that's is good to know what kind of answers I can expect/is the standard at econometrics/statistics departments and I appreciate that feedback very much (I would upvote again, but I can't since I already did). The problem with mathematics is "once you go black you never go back": Yearlong training in mathematical precision will induce a feeling of uneasiness if something is not crystal-clear fleshed out until one achieves claritiy [...]
l7ll7
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.