Sự khác biệt giữa và gì?


9

Giả sử tôi có một mẫu ngẫu nhiên .{xn,yn}n=1N

Giả sử

yn=β0+β1xn+εn

y^n=β^0+β^1xn

Sự khác biệt giữa và gì?β1β^1


6
beta betaβ là hệ số thực tế của bạn và là công cụ ước tính của bạn về . β^β
ARAT

1
Đây không phải là một bản sao của một bài viết trước đó? Tôi sẽ ngạc nhiên ...
Richard Hardy

Câu trả lời:


7

β 1 β 1 β 1β1 là một ý tưởng - nó không thực sự tồn tại trong thực tế. Nhưng nếu giả định Gauss-Markov giữ, sẽ cung cấp cho bạn độ dốc tối ưu đó với các giá trị bên trên và bên dưới nó theo chiều dọc "lát" dọc với biến phụ thuộc tạo thành phân bố dư Gaussian bình thường. là ước tính của dựa trên mẫu.β1β^1β1

Ý tưởng là bạn đang làm việc với một mẫu từ dân số. Mẫu của bạn tạo thành một đám mây dữ liệu, nếu bạn muốn. Một trong các kích thước tương ứng với biến phụ thuộc và bạn cố gắng khớp với dòng giảm thiểu các điều khoản lỗi - trong OLS, đây là phép chiếu của biến phụ thuộc vào không gian con vectơ được hình thành bởi không gian cột của ma trận mô hình. Các ước tính về các tham số dân số này được biểu thị bằng ký hiệu . Càng có nhiều điểm dữ liệu, các hệ số ước tính càng chính xác, , và ước tính của các hệ số dân số được lý tưởng hóa này càng tốt, . β iβiβ^β^iβi

Dưới đây là sự khác biệt về độ dốc ( so với ) giữa "dân số" màu xanh lam và mẫu trong các chấm đen bị cô lập:betaββ^

nhập mô tả hình ảnh ở đây

Đường hồi quy được chấm và màu đen, trong khi đường "dân số" hoàn hảo về mặt tổng hợp có màu xanh đặc. Sự phong phú của các điểm cung cấp một cảm giác xúc giác về tính quy luật của phân phối dư.


9

Các biểu tượng "chiếc mũ" thường biểu thị một ước tính, như trái ngược với các giá trị "true". Do đó là ước tính của . Một vài biểu tượng có quy ước riêng: ví dụ, phương sai mẫu thường được viết là , không phải , mặc dù một số người sử dụng cả hai để phân biệt giữa ước lượng sai lệch và không thiên vị.β^βs2 σ 2σ^2

Trong trường hợp cụ thể của bạn, các giá trị là ước tính tham số cho mô hình tuyến tính. Mô hình tuyến tính cho rằng biến kết quả được tạo bởi sự kết hợp tuyến tính của s, mỗi trọng số của giá trị tương ứng . Trong thực tế, tất nhiên, các giá trị này là không xác định và thậm chí có thể không tồn tại (có lẽ dữ liệu không được tạo bởi mô hình tuyến tính). Tuy nhiên, chúng ta có thể ước tính giá trị từ các dữ liệu mà xấp xỉ .β^Yxiβiβ β Yβ^Y


4

Phương trình

yi=β0+β1xi+ϵi

là những gì được gọi là mô hình thực sự. Phương trình này nói rằng mối quan hệ giữa biến và biến có thể được giải thích bằng một dòng . Tuy nhiên, vì các giá trị quan sát sẽ không bao giờ tuân theo phương trình chính xác đó (do lỗi), nên một thuật ngữ lỗi bổ sung được thêm vào để chỉ ra lỗi. Các lỗi có thể được hiểu là độ lệch tự nhiên cách xa mối quan hệ của và . Dưới đây tôi hiển thị hai cặp và (các chấm đen là dữ liệu). Nói chung, người ta có thể thấy rằng khi tăng tăng. Đối với cả hai cặp, phương trình đúng là y y = β 0 + β 1 x ϵ i x y x y x y y i = 4 + 3 x i + ϵ ixyy=β0+β1xϵixyxyxy

yi=4+3xi+ϵi
nhưng hai ô có lỗi khác nhau. Biểu đồ bên trái có lỗi lớn và âm mưu bên phải lỗi nhỏ (vì các điểm chặt chẽ hơn). (Tôi biết phương trình thực vì tôi tự tạo dữ liệu. Nói chung, bạn không bao giờ biết phương trình thực) nhập mô tả hình ảnh ở đây

Hãy nhìn vào cốt truyện bên trái. Sự thật và đúng = 3. Nhưng trong thực tế khi đưa dữ liệu, chúng ta không biết sự thật. Vì vậy, chúng tôi ước tính sự thật. Chúng tôi ước tính với và với . Tùy thuộc vào phương pháp thống kê nào được sử dụng, các ước tính có thể rất khác nhau. Trong cài đặt hồi quy, các ước tính thu được thông qua một phương pháp gọi là Bình phương tối thiểu thông thường. Đây cũng được gọi là phương pháp phù hợp nhất. Về cơ bản, bạn cần vẽ đường phù hợp nhất với dữ liệu. Tôi không thảo luận về các công thức ở đây, nhưng sử dụng công thức cho OLS, bạn sẽ nhận đượcβ 1 β 0 β 0 β 1 β 1β0=4β1β0β^0β1β^1

β^0=4.809 and β^1=2.889

và dòng kết quả phù hợp nhất là, nhập mô tả hình ảnh ở đây

Một ví dụ đơn giản sẽ là mối quan hệ giữa chiều cao của mẹ và con gái. Đặt chiều cao của mẹ và = chiều cao của con gái. Đương nhiên, người ta sẽ mong muốn các bà mẹ cao hơn có con gái cao hơn (do sự giống nhau về di truyền). Tuy nhiên, bạn có nghĩ rằng một phương trình có thể tóm tắt chính xác chiều cao của mẹ và con gái, để nếu tôi biết chiều cao của mẹ tôi sẽ có thể dự đoán chính xác chiều cao của con gái? Mặt khác, người ta có thể tóm tắt mối quan hệ với sự giúp đỡ của một tuyên bố trung bình .yx=y

TL DR: là sự thật dân số. Nó đại diện cho mối quan hệ chưa biết giữa và . Vì chúng tôi không thể luôn nhận được tất cả các giá trị có thể có của và , chúng tôi thu thập một mẫu từ dân số và thử và ước tính bằng cách sử dụng dữ liệu. là ước tính của chúng tôi. Nó là một chức năng của dữ liệu. là không một chức năng của dữ liệu, nhưng sự thật.y x y x β β ββyxyx ββ^β

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.