Tôi hơi bối rối nếu một biến độc lập (còn được gọi là dự đoán hoặc tính năng) trong mô hình thống kê, ví dụ: trong hồi quy tuyến tính , có phải là biến ngẫu nhiên không?
Tôi hơi bối rối nếu một biến độc lập (còn được gọi là dự đoán hoặc tính năng) trong mô hình thống kê, ví dụ: trong hồi quy tuyến tính , có phải là biến ngẫu nhiên không?
Câu trả lời:
Có hai công thức phổ biến của hồi quy tuyến tính. Để tập trung vào các khái niệm, tôi sẽ trừu tượng hóa chúng phần nào. Mô tả toán học liên quan nhiều hơn một chút so với mô tả tiếng Anh, vì vậy hãy bắt đầu với mô tả sau:
Tuyến tính hồi quy là một mô hình trong đó một phản ứng được giả định là ngẫu nhiên với một phân phối xác định bằng hồi quy thông qua một tuyến tính bản đồ và có thể là do các thông số khác .
Trong hầu hết các trường hợp, các bộ phân phối có thể là một gia đình trí với các thông số và và cung cấp cho các tham số . Ví dụ archetypical là hồi quy bình thường , trong đó tập các bản phân phối là gia đình bình thường và là một hàm tuyến tính của hồi quy.
Bởi vì tôi chưa được mô tả này về mặt toán học, nó vẫn còn là một câu hỏi mở những loại đối tượng toán học , , , và tham khảo - và tôi tin rằng đó là vấn đề chính trong chủ đề này. Mặc dù người ta có thể đưa ra nhiều lựa chọn (tương đương), hầu hết sẽ tương đương với, hoặc các trường hợp đặc biệt, của mô tả sau đây.
Sửa lỗi hồi quy. Các hồi quy được biểu diễn dưới dạng vector thực . Các phản ứng là một biến ngẫu nhiên (nơi được ưu đãi với một lĩnh vực sigma và xác suất). Các mô hình là một hàm (hoặc, nếu bạn thích, một tập hợp các hàm tham số bởi ). là một cấu trúc con cấu trúc hữu hạn chiều (thường khác biệt thứ hai) (hoặc submanifold-với-ranh giới) của chiều của không gian phân phối xác suất. thường được thực hiện liên tục (hoặc đủ khác biệt). là những "thông số phiền toái." Người ta cho rằng sự phân bố của là đối với một số kép vector biết (the "hồi quy hệ số") và chưa biết . Chúng ta có thể viết
Hồi quy ngẫu nhiên. Các hồi quy và phản ứng là một chiều vector có giá trị biến ngẫu nhiên . Mô hình là cùng loại đối tượng như trước đây, nhưng bây giờ nó đưa ra xác suất có điều kiện
Mô tả toán học là vô ích nếu không có một số đơn thuốc cho biết nó được áp dụng như thế nào cho dữ liệu. Trong trường hợp hồi quy cố định, chúng tôi quan niệm như được chỉ định bởi người thực nghiệm. Do đó nó có thể giúp để xem như một sản phẩm ưu đãi với một đại số sigma sản phẩm. Các thí nghiệm xác định và tính chất quyết định (một số không rõ, trừu tượng) . Trong trường hợp regressor ngẫu nhiên, tính chất xác định , các -component của biến ngẫu nhiên xác định (được "quan sát"), và bây giờ chúng ta có một cặp lệnh chính xác như trong trường hợp regressor cố định.
Ví dụ archetypical nhiều hồi quy tuyến tính (mà tôi sẽ thể hiện bằng ký hiệu chuẩn cho các đối tượng chứ không phải là một khái quát hơn này) là
Khi - trong bất kỳ thời trang whatsoever-- được ước tính như β và σ là σ , giá trị của β ( x ) là giá trị dự đoán của Y kết hợp với x --whether x được điều khiển bởi các thí nghiệm (trường hợp 1 ) hoặc chỉ được quan sát (trường hợp 2). Nếu chúng ta đặt giá trị (trường hợp 1) hoặc quan sát nhận biết (trường hợp 2) x của X , thì phản hồi Y liên quan đến X đó là một biến ngẫu nhiên có phân phối là N ( , đó là chưa biết nhưngước tínhlà .
Trước hết, @whuber đã đưa ra một câu trả lời tuyệt vời. Tôi sẽ cho nó một cách khác, có thể đơn giản hơn theo một nghĩa nào đó, cũng với một tham chiếu đến một văn bản.
có thể là ngẫu nhiên hoặc cố định trong công thức hồi quy. Điều này phụ thuộc vào vấn đề của bạn. Đối với cái gọi là nghiên cứu quan sát, nó phải là ngẫu nhiên, và đối với các thí nghiệm, nó thường được cố định.
Ví dụ một. Tôi đang nghiên cứu tác động của việc tiếp xúc với bức xạ điện tử đến độ cứng của phần kim loại. Vì vậy, tôi lấy một vài mẫu của phần kim loại và phơi bày mức độ phóng xạ khác nhau. Mức phơi sáng của tôi là X và nó đã được sửa , vì tôi đặt thành các mức tôi đã chọn. Tôi hoàn toàn kiểm soát các điều kiện của thí nghiệm, hoặc ít nhất là cố gắng. Tôi có thể làm tương tự với các thông số khác, chẳng hạn như nhiệt độ và độ ẩm.
Ví dụ hai. Bạn đang nghiên cứu tác động của nền kinh tế đến tần suất xuất hiện gian lận trong các ứng dụng thẻ tín dụng. Vì vậy, bạn hồi quy sự kiện gian lận dựa trên GDP. Bạn không kiểm soát GDP, bạn không thể đặt ở mức mong muốn. Hơn nữa, bạn có thể muốn xem xét hồi quy đa biến, do đó bạn có các biến khác như thất nghiệp và bây giờ bạn có kết hợp các giá trị trong X mà bạn quan sát nhưng không kiểm soát. Trong trường hợp này X là ngẫu nhiên .
Ví dụ ba. Bạn đang nghiên cứu hiệu quả của thuốc trừ sâu mới trong lĩnh vực này, tức là không phải trong điều kiện phòng thí nghiệm, mà là trong trang trại thử nghiệm thực tế. Trong trường hợp này, bạn có thể kiểm soát một cái gì đó, ví dụ bạn có thể kiểm soát lượng thuốc trừ sâu cần đặt. Tuy nhiên, bạn không kiểm soát mọi thứ, ví dụ như điều kiện thời tiết hoặc đất đai. Ok, bạn có thể kiểm soát đất ở một mức độ nào đó, nhưng không hoàn toàn. Đây là một trường hợp ở giữa, trong đó một số điều kiện được quan sát và một số điều kiện được kiểm soát . Có toàn bộ lĩnh vực nghiên cứu này được gọi là thiết kế thử nghiệm thực sự tập trung vào trường hợp thứ ba này, trong đó nghiên cứu nông nghiệp là một trong những ứng dụng lớn nhất của nó.
Đây là phần toán học của một câu trả lời. Có một tập hợp các giả định thường được trình bày khi nghiên cứu hồi quy tuyến tính, được gọi là điều kiện Gauss-Markov. Họ rất lý thuyết và không ai bận tâm để chứng minh rằng họ nắm giữ trong bất kỳ thiết lập thực tế. Tuy nhiên, chúng rất hữu ích trong việc tìm hiểu các hạn chế của phương pháp bình phương nhỏ nhất (OLS).
Vì vậy, tập hợp các giả định là khác nhau đối với X ngẫu nhiên và cố định, gần tương ứng với các nghiên cứu quan sát và thực nghiệm. Một cách thô bạo, vì như tôi đã chỉ ra trong ví dụ thứ ba, đôi khi chúng ta thực sự ở giữa các thái cực. Tôi thấy phần định lý "Gauss-Markov" trong bách khoa toàn thư về thiết kế nghiên cứu của Salkind là một nơi tốt để bắt đầu, nó có sẵn trong Google Sách.
The differing assumptions of the fixed design are as follows for the usual regression model :
vs. the same assumptions in the random design:
As you can see the difference is in conditioning the assumptions on the design matrix for the random design. Conditioning makes these stronger assumptions. For instance, we are not just saying, like in fixed design, that the errors have zero mean; in random design we also say they're not dependent on X, covariates.
In statistics a random variable is quantity that varies randomly in some way. You can find a good discussion in this excellent CV thread: What is meant by a “random variable”?
In a regression model, the predictor variables (X-variables, explanatory variables, covariates, etc.) are assumed to be fixed and known. They are not assumed to be random. All of the randomness in the model is assumed to be in the error term. Consider a simple linear regression model as standardly formulated:
Not sure if I understand the question, but if you're just asking, "must an independent variable always be a random variable", then the answer is no.
An independent variable is a variable which is hypothesised to be correlated with the dependent variable. You then test whether this is the case through modelling (presumably regression analysis).
There are a lot of complications and "ifs, buts and maybes" here, so I would suggest getting a copy of a basic econometrics or statistics book covering regression analysis and reading it thoroughly, or else getting the class notes from a basic statistics/econometrics course online if possible.