Hồi quy cho luật điện


7

Đây là một bài chéo từ Math SE .

Tôi có một số dữ liệu (thời gian chạy của thuật toán) và tôi nghĩ rằng nó tuân theo luật công suất

yreg= =kxmột

Tôi muốn xác định và . Những gì tôi đã làm cho đến nay là thực hiện hồi quy tuyến tính (bình phương nhỏ nhất) thông qua và xác định và từ các hệ số của nó.kmộtđăng nhập(x),đăng nhập(y)kmột

Vấn đề của tôi là do lỗi "tuyệt đối" được giảm thiểu cho "dữ liệu nhật ký nhật ký", nên những gì được giảm thiểu khi bạn xem dữ liệu gốc là thương số

yyreg

Điều này dẫn đến lỗi tuyệt đối lớn cho các giá trị lớn của . Có cách nào để thực hiện "hồi quy pháp luật điện" để giảm thiểu lỗi "tuyệt đối" thực tế không? Hoặc ít nhất là một công việc tốt hơn trong việc giảm thiểu nó?y


Thí dụ:

nhập mô tả hình ảnh ở đây

Các đường cong màu đỏ là phù hợp thông qua toàn bộ dữ liệu. Đường cong màu xanh lá cây chỉ phù hợp với 21 điểm cuối cùng.

Đây là dữ liệu cho cốt truyện. Cột bên trái là các giá trị của ( -axis), cột bên phải là các giá trị của ( -axis)nxty

1.000000000000000000e+02,1.944999820000248248e-03
1.120000000000000000e+02,1.278203080000253058e-03
1.250000000000000000e+02,2.479853309999952970e-03
1.410000000000000000e+02,2.767649050000500332e-03
1.580000000000000000e+02,3.161272610000196315e-03
1.770000000000000000e+02,3.536506440000266715e-03
1.990000000000000000e+02,3.165302929999711402e-03
2.230000000000000000e+02,3.115432719999944224e-03
2.510000000000000000e+02,4.102446610000356694e-03
2.810000000000000000e+02,6.248937529999807478e-03
3.160000000000000000e+02,4.109296799998674206e-03
3.540000000000000000e+02,8.410178100001530418e-03
3.980000000000000000e+02,9.524117600000181830e-03
4.460000000000000000e+02,8.694799099998817837e-03
5.010000000000000000e+02,1.267794469999898935e-02
5.620000000000000000e+02,1.376997950000031709e-02
6.300000000000000000e+02,1.553864030000227069e-02
7.070000000000000000e+02,1.608576049999897034e-02
7.940000000000000000e+02,2.055535920000011244e-02
8.910000000000000000e+02,2.381920090000448978e-02
1.000000000000000000e+03,2.922614199999884477e-02
1.122000000000000000e+03,1.785056299999610019e-02
1.258000000000000000e+03,3.823622889999569313e-02
1.412000000000000000e+03,3.297452850000013452e-02
1.584000000000000000e+03,4.841355780000071440e-02
1.778000000000000000e+03,4.927822640000271981e-02
1.995000000000000000e+03,6.248602919999939054e-02
2.238000000000000000e+03,7.927740400003813193e-02
2.511000000000000000e+03,9.425949999996419137e-02
2.818000000000000000e+03,1.212073290000148518e-01
3.162000000000000000e+03,1.363937510000141629e-01
3.548000000000000000e+03,1.598689289999697394e-01
3.981000000000000000e+03,2.055201890000262210e-01
4.466000000000000000e+03,2.308686839999722906e-01
5.011000000000000000e+03,2.683506760000113900e-01
5.623000000000000000e+03,3.307920660000149837e-01
6.309000000000000000e+03,3.641307770000139499e-01
7.079000000000000000e+03,5.151283440000042901e-01
7.943000000000000000e+03,5.910637860000065302e-01
8.912000000000000000e+03,5.568920769999863296e-01
1.000000000000000000e+04,6.339683309999486482e-01
1.258900000000000000e+04,1.250584726999989016e+00
1.584800000000000000e+04,1.820368430999963039e+00
1.995200000000000000e+04,2.750779816999994409e+00
2.511800000000000000e+04,4.136365994000016144e+00
3.162200000000000000e+04,5.498797844000023360e+00
3.981000000000000000e+04,7.895301083999981984e+00
5.011800000000000000e+04,9.843239714999981516e+00
6.309500000000000000e+04,1.641506008199996813e+01
7.943200000000000000e+04,2.786652209900000798e+01
1.000000000000000000e+05,3.607965075100003105e+01
1.258920000000000000e+05,5.501840400599996883e+01
1.584890000000000000e+05,8.544515980200003469e+01
1.995260000000000000e+05,1.273598972439999670e+02
2.511880000000000000e+05,1.870695913819999987e+02
3.162270000000000000e+05,3.076423412130000088e+02
3.981070000000000000e+05,4.243025571930002116e+02
5.011870000000000000e+05,6.972544795499998145e+02
6.309570000000000000e+05,1.137165088436000133e+03
7.943280000000000000e+05,1.615926472178005497e+03
1.000000000000000000e+06,2.734825116088002687e+03
1.584893000000000000e+06,6.900561992643000849e+03

(xin lỗi vì ký hiệu khoa học lộn xộn)


2
Hãy nhận biết rằng các trung tâm trợ giúp nói " Hãy lưu ý, tuy nhiên, cross-đăng không được khuyến khích trên các trang web SE. Chọn một địa điểm tốt nhất để đăng câu hỏi của bạn. Sau đó, nếu nó chứng tỏ phù hợp tốt hơn trên một trang web khác, nó có thể được di chuyển. "
Glen_b -Reinstate Monica

2
Điều này khá rõ ràng từ âm mưu của bạn rằng một luật công suất duy nhất không phù hợp với những dữ liệu này. Bạn có thể tìm thấy một số giá trị trong các câu hỏi pháp luật quyền lực khác trên trang web. Cũng có thể đáng để bạn dành thời gian để đọc bài viết của Aaron Clauset, Cosma Rohilla Shalizi, MEJ Newman (2009), "Phân phối luật pháp trong dữ liệu thực nghiệm", SIAM Đánh giá 51, 661-703 (xem phiên bản arXiv tại đây arXiv: 0706.1062v2 ); và bài đăng này của Shalizi.
Glen_b -Reinstate Monica

2
Một số thông tin liên quan ở đây
Glen_b -Reinstate Monica

Câu trả lời:


3

Nếu bạn muốn phương sai sai bằng nhau trên mỗi quan sát trong thang đo chưa được xử lý, bạn có thể sử dụng bình phương tối thiểu phi tuyến.

(Điều này thường sẽ không phù hợp; lỗi trên nhiều đơn đặt hàng cường độ hiếm khi không đổi về kích thước.)

Tuy nhiên, nếu chúng ta tiếp tục và sử dụng nó, chúng ta sẽ phù hợp hơn với các giá trị sau:

Đồ thị của hình vuông nhỏ nhất phi tuyến phù hợp

Và nếu chúng ta kiểm tra phần dư, chúng ta có thể thấy rằng cảnh báo của tôi ở trên là hoàn toàn có cơ sở:

Lô dư chống lại log (được trang bị) cho mô hình trên

Điều này cho thấy độ biến thiên không phải là hằng số trên thang đo ban đầu (và sự phù hợp của đường cong công suất đơn này cũng không phù hợp với tất cả ở mức cao, vì có độ cong khác biệt trong một phần ba phạm vi của các giá trị nhật ký trên tỷ lệ x - trong khoảng từ 0 đến 5 trên trục x ở trên). Độ biến thiên gần như không đổi trong thang đo log (mặc dù nó có một chút thay đổi về mặt tương đối ở các giá trị thấp hơn so với giá trị cao ở đó).

Những gì tốt nhất nên làm ở đây phụ thuộc vào những gì bạn đang cố gắng đạt được.


y

1
@kjetilbhalvorsen Có nhiều cách tốt hơn để đạt được điều đó, nhưng thực tế là mô hình không phù hợp là một cảnh báo rõ ràng rằng nếu quan tâm là dự đoán ngay cả ngoài phạm vi dữ liệu, dự đoán sẽ quá thấp, có lẽ là rất đáng kể. Mức độ phù hợp với chỉ 21 điểm cuối cùng vẫn không phù hợp với độ cong trong phần dữ liệu đó.
Glen_b -Reinstate Monica

2

Một bài báo của Lin và Tegmark đã tóm tắt một cách độc đáo những lý do tại sao các bản phân phối quy trình lognatural và / hoặc markov không phù hợp với dữ liệu hiển thị các hành vi quan trọng, quyền lực ... https://ai2-s2-pdfs.s3.amazonaws.com/5ba0/3a03d844f10d7b4861d3bbb2 .pdf . Như họ lưu ý, "Markov xử lý ... thất bại về mặt lịch sử bằng cách dự đoán thông tin lẫn nhau theo cấp số nhân ..." Giải pháp và khuyến nghị của họ là sử dụng các mạng thần kinh học sâu như mô hình bộ nhớ ngắn hạn (LSTM).

Là trường học cũ và không phải là người thích trò chuyện hay thoải mái với NN hay LSTM, tôi sẽ đưa ra một lời khuyên cho cách tiếp cận phi tuyến của @ glen_b. Tuy nhiên, tôi thích các cách giải quyết dễ truy cập hơn và dễ tiếp cận hơn như hồi quy lượng tử dựa trên giá trị. Đã sử dụng phương pháp này cho các yêu cầu bảo hiểm có đuôi nặng, tôi biết rằng nó có thể cung cấp sự phù hợp tốt hơn cho các đuôi so với các phương pháp truyền thống hơn, bao gồm các mô hình log-log nhân, nhân. Thách thức khiêm tốn trong việc sử dụng QR là tìm ra lượng tử thích hợp để dựa vào mô hình của một người. Thông thường, điều này là lớn hơn nhiều so với trung bình. Điều đó nói rằng, tôi không muốn bán quá nhiều phương pháp này vì vẫn còn thiếu sự phù hợp đáng kể trong các giá trị cực đoan nhất của đuôi.

Hyndman, et al ( http://robjhyndman.com/ con / sig- alternate.pdf), đề xuất một QR thay thế mà họ hạn chế tăng hồi quy lượng tử phụ gia . Cách tiếp cận của họ xây dựng các mô hình trên toàn bộ phạm vi hoặc lưới lượng tử, tạo ra các ước tính hoặc dự báo xác suất có thể được đánh giá bằng bất kỳ phân phối giá trị cực đoan nào, ví dụ, Cauchy, Levy-ổn định, bất cứ điều gì. Tôi chưa sử dụng phương pháp của họ nhưng có vẻ đầy hứa hẹn.

Một cách tiếp cận khác để mô hình hóa giá trị cực đoan được gọi là mô hình POT hoặc đỉnh vượt ngưỡng. Điều này liên quan đến việc thiết lập ngưỡng hoặc ngưỡng cho phân phối giá trị theo kinh nghiệm và chỉ mô hình hóa các giá trị lớn nhất vượt quá ngưỡng dựa trên phân phối giá trị cực trị của GEV hoặc tổng quát. Ưu điểm của phương pháp này là mọi giá trị cực trị trong tương lai có thể được hiệu chỉnh hoặc định vị dựa trên các tham số từ mô hình. Tuy nhiên, phương pháp này có nhược điểm rõ ràng là người ta không sử dụng bản PDF đầy đủ.

Cuối cùng, trong một bài báo năm 2013, JP Bouchaud đề xuất RFIM (mô hình ising trường ngẫu nhiên) để mô hình hóa thông tin phức tạp hiển thị các hành vi quan trọng và đuôi nặng như chăn gia súc, xu hướng, tuyết lở, v.v. Bouchaud rơi vào một lớp đa hình bao gồm những người như Mandelbrot, Shannon, Tukey, Turing, v.v. Tôi có thể khẳng định bị hấp dẫn bởi cuộc thảo luận của anh ta, đồng thời, bị đe dọa bởi sự nghiêm khắc liên quan đến việc thực hiện các đề xuất của anh ta . https://www.researchgate

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.