Ẩn mô hình hồi quy từ giáo sư (Regression Battleship) [đã đóng]


11

Tôi đang làm bài tập về nhà, nơi giáo sư của tôi muốn chúng tôi tạo ra một mô hình hồi quy thực, mô phỏng một mẫu dữ liệu và anh ấy sẽ cố gắng tìm mô hình hồi quy thực sự của chúng tôi bằng cách sử dụng một số kỹ thuật chúng tôi đã học trong lớp. Chúng tôi cũng sẽ phải làm như vậy với một bộ dữ liệu anh ấy đưa cho chúng tôi.

Anh ấy nói rằng anh ấy đã có thể tạo ra một mô hình khá chính xác cho tất cả những nỗ lực trong quá khứ để thử và lừa anh ấy. Đã có một số sinh viên tạo ra một số mô hình điên rồ nhưng anh ta cho rằng có thể tạo ra một mô hình đơn giản hơn, vừa đủ.

Làm thế nào tôi có thể đi về việc phát triển một mô hình khó khăn cho anh ta để tìm? Tôi không muốn trở nên siêu rẻ bằng cách thực hiện 4 thuật ngữ bậc hai, 3 quan sát và phương sai lớn? Làm thế nào tôi có thể tạo ra một bộ dữ liệu dường như vô hại có một mô hình nhỏ khó khăn bên dưới nó?

Anh ta chỉ cần có 3 Quy tắc để tuân theo:

  1. Tập dữ liệu của bạn phải có một biến "Y" và 20 biến "X" được gắn nhãn là "Y", "X1", ..., "X20".

  2. Biến phản hồi của bạn phải đến từ mô hình hồi quy tuyến tính thỏa mãn: trong đó và .Y ' i = β 0 + β 1 X ' i 1 + ... + β p - 1 X ' i , p - 1 + ε i ε i ~ N ( 0 , σ 2 ) p 21Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Tất cả các biến được sử dụng để tạo đều có trong tập dữ liệu của bạn.YXY

Cần lưu ý, không phải tất cả 20 biến X cần có trong mô hình thực của bạn

Tôi đã nghĩ đến việc sử dụng một cái gì đó giống như Mô hình 3 yếu tố Fama-French và để anh ấy bắt đầu với dữ liệu chứng khoán (SPX và AAPL) và phải chuyển đổi các biến đó thành lợi nhuận gộp liên tục để quan sát thêm một chút. Nhưng điều đó để lại cho tôi những giá trị còn thiếu trong lần quan sát đầu tiên và đó là chuỗi thời gian (mà chúng ta chưa thảo luận trong lớp).

Không chắc chắn nếu đây là nơi thích hợp để đăng một cái gì đó như thế này. Tôi cảm thấy như nó có thể tạo ra một số cuộc thảo luận tốt.

Chỉnh sửa: Tôi cũng không yêu cầu các mô hình "dựng sẵn" nói riêng. Tôi tò mò hơn về các chủ đề / công cụ trong Thống kê sẽ cho phép ai đó thực hiện điều này.


4
Sẽ rất khó nếu anh ấy giới hạn bạn trong một mô hình tuyến tính ...
Frank H.

4
Nếu giáo sư của bạn giành chiến thắng nếu các hệ số thực của bạn nằm trong khoảng tin cậy 95%, thì tính đa hình sẽ không giúp ích gì, bởi vì tính đa hướng làm tăng quá mức các TCTD. Mặt khác, nếu đánh giá được thực hiện dựa trên sự khác biệt giữa dữ liệu dự đoán và dữ liệu thực tế trên các yếu tố dự đoán mới (dữ liệu "thực tế" đã được tạo bằng DGP thực sự của bạn), thì đa hướng sẽ là cách tiếp cận tốt hơn nhiều. Điểm mấu chốt: tìm hiểu chức năng mục tiêu là gì và điều chỉnh cách tiếp cận của bạn với nó. (Điều này áp dụng chung hơn trong cuộc sống ...)
Stephan Kolassa

4
@dylanjm Bạn có thể xác định chính xác điều kiện chiến thắng của bạn?
Matthew Gunn

11
Điểm của bài tập như vậy là để bạn học bằng cách cố gắng tự nghĩ ra điều gì đó . Nếu bạn chuyên gia chống lại anh ta, cơ hội để bạn thực sự căng não bằng cách củng cố các thông tin khác nhau mà bạn đã được cung cấp liên quan đến hồi quy sẽ giảm đáng kể (cũng như không công bằng với giáo sư). Hơn nữa, tại bất kỳ tổ chức có uy tín nào trình bày công việc cho anh ta như của bạn khi nó được thực hiện một phần bởi người khác có thể nằm ở đâu đó giữa hành vi sai trái trong học tập và gian lận (đặc biệt nếu nó xứng đáng với bất kỳ phần nào trong nhãn hiệu của bạn). Hãy rất cẩn thận về chính xác cách bạn yêu cầu điều này.
Glen_b -Reinstate Monica

4
Bất chấp sự phổ biến của câu hỏi này, tôi cảm thấy bắt buộc phải đóng nó vào thời điểm này bởi vì ngay cả sau khi yêu cầu lặp đi lặp lại để làm rõ các quy tắc của trò chơi (tiêu chí nào sẽ được sử dụng để đánh giá thành công, bạn phải cung cấp bao nhiêu mẫu, v.v.) thông tin vẫn chưa xuất hiện trong câu hỏi. Mục tiêu của chúng tôi hẹp hơn và tập trung hơn "tạo thảo luận": vui lòng tham khảo trung tâm trợ giúp của chúng tôi để biết các loại câu hỏi chúng tôi có thể giải quyết trên trang web này.
whuber

Câu trả lời:


6

yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Chúc may mắn xác định pha với tỷ lệ nhiễu / tín hiệu này.


Điều này dường như không hoạt động cho tiêu chí giành chiến thắng CI, phải không? Tất nhiên, chúng tôi sẽ nhận được các TCTD lớn chắc chắn sẽ bao gồm 1. Và một số bất ổn về số, tất nhiên.
Stephan Kolassa

Sự không ổn định sẽ không phải là vấn đề, tất cả những gì tôi đang làm là chôn vùi tín hiệu trong tiếng ồn. Điều này sẽ đi ra như tiếng ồn trắng tinh khiết.
Aksakal

4
Đây được coi là một mô hình giá rẻ không mong muốn của OP
Sextus Empiricus

5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY v.v. Bạn có thể tranh luận lại rằng đó không phải là những gì anh ấy nói, vì anh ấy nói:

biến Y phải đến từ mô hình hồi quy tuyến tính thỏa mãn (...) biến được sử dụng để tạo Y (...) mô hình thực của bạn (...)

Và bạn có thể châm ngòi cho một cuộc thảo luận tốt trong lớp về quan hệ nhân quả, DGP thực sự có nghĩa là gì và nhận dạng nói chung.


bạn đang đề xuất một mô hình tuân thủ # 2 trong bài đăng
Aksakal

3

Sử dụng các biến có độ đa hình và độ không đồng nhất như thu nhập so với tuổi: thực hiện một số kỹ thuật tính năng đau đớn cung cấp các vấn đề mở rộng: cung cấp NA cho một số rắc rối. Các mảnh tuyến tính thực sự làm cho nó khó khăn hơn nhưng nó có thể được thực hiện đau đớn. Ngoài ra, các ngoại lệ sẽ tăng vấn đề cho anh ta trả trước.


Tôi nghĩ rằng tính không đồng nhất nằm ngoài phạm vi của vấn đề, nhưng chắc chắn đồng ý tính đa hình là một trong những cách tốt nhất để làm cho đặc tả kỹ thuật thực sự khó tìm.
JDL


0

Chọn bất kỳ mô hình tuyến tính. Đưa cho anh ta một bộ dữ liệu trong đó hầu hết các mẫu nằm trong khoảng x = 0. Đưa cho anh ta vài mẫu khoảng x = 1.000.000.

Điều tuyệt vời ở đây là các mẫu xung quanh x = 1.000.000 không phải là ngoại lệ. Chúng được tạo ra từ cùng một nguồn. Tuy nhiên, vì các tỷ lệ rất khác nhau, các lỗi trong khoảng 1M sẽ không phù hợp với các lỗi xung quanh 0.

Yi=β0+β1Xi1+ϵi

Chúng tôi có một bộ dữ liệu gồm n mẫu, gần x = 0. Chúng tôi sẽ chọn thêm 2 điểm trong các giá trị "đủ xa". Chúng tôi giả định rằng hai điểm này có một số lỗi.

Giá trị "đủ xa" là một giá trị sao cho sai số cho ước tính không vượt qua trực tiếp ở hai điểm này lớn hơn nhiều so với lỗi của phần còn lại của tập dữ liệu.

Do đó, hồi quy tuyến tính sẽ chọn các hệ số sẽ vượt qua trong hai điểm này và sẽ bỏ lỡ phần còn lại của bộ dữ liệu và khác với mô hình gạch chân.

Xem ví dụ sau. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Đây là định dạng loạt WolfarmAlpha. Trong mỗi cặp, mục đầu tiên là x và mục thứ hai được tạo trong Excel bằng công thức = A2 + NORMINV (RAND (), 0,2000).

β0=1,β1=1

y=178433.x426805y=x


Chính xác thì nó nên hoạt động như thế nào và hiệu ứng này được cho là tạo ra như thế nào?
Richard Hardy

Nó hoạt động vì tiếng ồn và độ chính xác sẽ hoạt động khác nhau trong các quy mô khác nhau. Trong các số cao, thực hiện cực đoan và xem xét một điểm duy nhất, dòng nên đi trực tiếp qua nó hoặc chịu nhiều chi phí. Một số tiếng ồn là đủ để bỏ lỡ các giá trị đúng. Khoảng không, một lần nữa trong cực đoan - không có sự không quan tâm, bạn bị bỏ lại với tiếng ồn.
DaL

Sử dụng một giá trị nhỏ cho biến có hệ số sai và bạn đang trả chi phí.
DaL

Vâng, nhưng tại sao giáo sư khó có thể khám phá mô hình tạo ra điều này? Nó trông giống như một nhiệm vụ đặc biệt dễ dàng khi có rất nhiều biến thể trong biến hồi quy đã cho.
Richard Hardy

Bởi vì không có mô hình sẽ phù hợp với cả hai nhóm.
DaL
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.