Câu hỏi trên đã nói lên tất cả. Về cơ bản câu hỏi của tôi là về một hàm khớp chung (có thể phức tạp tùy ý) sẽ không tuyến tính trong các tham số tôi đang cố ước tính, làm thế nào để chọn giá trị ban đầu để khởi tạo sự phù hợp? Tôi đang cố gắng để làm bình phương tối thiểu phi tuyến. Có chiến lược hay phương pháp nào không? Điều này đã được nghiên cứu? Bất kỳ tài liệu tham khảo? Bất cứ điều gì ngoài ad hoc đoán? Cụ thể, ngay bây giờ một trong những hình thức phù hợp mà tôi đang làm việc là một dạng tuyến tính Gaussian cộng với năm tham số tôi đang cố gắng ước tính, như
trong đó (dữ liệu abscissa) và (dữ liệu thứ tự) có nghĩa là trong không gian log-log, dữ liệu của tôi trông giống như một đường thẳng cộng với một vết sưng mà tôi đang xấp xỉ bởi một Gaussian. Tôi không có lý thuyết, không có gì để hướng dẫn tôi về cách khởi tạo sự phù hợp phi tuyến trừ việc có thể vẽ đồ thị và nhãn cầu như độ dốc của đường và tâm / chiều rộng của vết sưng là gì. Nhưng tôi có hơn trăm cách phù hợp để làm như vậy thay vì vẽ đồ thị và đoán, tôi thích một số cách tiếp cận có thể được tự động hóa.
Tôi không thể tìm thấy bất kỳ tài liệu tham khảo, trong thư viện hoặc trực tuyến. Điều duy nhất tôi có thể nghĩ là chỉ chọn ngẫu nhiên các giá trị ban đầu. MATLAB cung cấp để chọn ngẫu nhiên các giá trị từ [0,1] được phân phối đồng đều. Vì vậy, với mỗi bộ dữ liệu, tôi chạy ngẫu nhiên khởi tạo phù hợp một nghìn lần và sau đó chọn dữ liệu có cao nhất ? Bất kỳ ý tưởng (tốt hơn) khác?
Phụ lục số 1
Đầu tiên, đây là một số biểu diễn trực quan của các tập dữ liệu chỉ để cho các bạn thấy tôi đang nói về loại dữ liệu nào. Tôi đang đăng cả dữ liệu ở dạng ban đầu mà không có bất kỳ loại chuyển đổi nào và sau đó biểu thị trực quan của nó trong không gian log-log vì nó làm rõ một số tính năng của dữ liệu trong khi làm biến dạng các dữ liệu khác. Tôi đang đăng một mẫu của cả dữ liệu tốt và xấu.
Mỗi trong sáu bảng trong mỗi hình hiển thị bốn bộ dữ liệu được vẽ cùng nhau màu đỏ, xanh lá cây, xanh lam và lục lam và mỗi bộ dữ liệu có chính xác 20 điểm dữ liệu. Tôi đang cố gắng để phù hợp với từng người trong số họ bằng một đường thẳng cộng với một gaussian vì những va chạm được nhìn thấy trong dữ liệu.
Hình đầu tiên là một số dữ liệu tốt. Hình thứ hai là biểu đồ log-log của cùng một dữ liệu tốt từ hình một. Hình thứ ba là một số dữ liệu xấu. Hình thứ tư là biểu đồ log-log của hình ba. Có nhiều dữ liệu hơn, đây chỉ là hai tập con. Hầu hết các dữ liệu (khoảng 3/4) là tốt, tương tự như dữ liệu tốt tôi đã trình bày ở đây.
Bây giờ một số ý kiến, xin vui lòng chịu đựng với tôi vì điều này có thể lâu dài nhưng tôi nghĩ tất cả các chi tiết này là cần thiết. Tôi sẽ cố gắng ngắn gọn nhất có thể.
Ban đầu tôi đã mong đợi một luật công suất đơn giản (có nghĩa là đường thẳng trong không gian log-log). Khi tôi vẽ mọi thứ trong không gian log-log, tôi thấy vết sưng bất ngờ ở khoảng 4,8 mHz. Các vết sưng đã được điều tra kỹ lưỡng và được phát hiện trong những người khác cũng hoạt động để nó không làm chúng tôi rối tung lên. Nó là vật lý ở đó và các tác phẩm được xuất bản khác cũng đề cập đến điều này. Vì vậy, sau đó tôi chỉ cần thêm một thuật ngữ gaussian vào dạng tuyến tính của tôi. Lưu ý rằng sự phù hợp này đã được thực hiện trong không gian log-log (do đó hai câu hỏi của tôi bao gồm câu hỏi này).
Bây giờ, sau khi đọc câu trả lời của Stumpy Joe Pete cho một câu hỏi khác của tôi (hoàn toàn không liên quan đến những dữ liệu này) và đọc cái này và cái này và các tài liệu tham khảo trong đó (thứ của Clauset), tôi nhận ra rằng tôi không nên phù hợp với log-log không gian. Vì vậy, bây giờ tôi muốn làm mọi thứ trong không gian được chuyển đổi trước.
Câu hỏi 1: Nhìn vào dữ liệu tốt, tôi vẫn nghĩ rằng một tuyến tính cộng với một gaussian trong không gian được chuyển đổi trước vẫn là một hình thức tốt. Tôi rất thích nghe từ những người khác có nhiều dữ liệu hơn những gì họ nghĩ. Là gaussian + tuyến tính hợp lý? Tôi chỉ nên làm một Gaussian? Hoặc một hình thức hoàn toàn khác nhau?
Câu hỏi 2: Dù câu trả lời cho câu hỏi 1 là gì, tôi vẫn sẽ cần (rất có thể) bình phương tối thiểu phi tuyến tính phù hợp vì vậy vẫn cần trợ giúp với việc khởi tạo.
Dữ liệu mà chúng tôi thấy hai bộ, chúng tôi rất thích chụp lại vết sưng đầu tiên ở khoảng 4-5 mHz. Vì vậy, tôi không muốn thêm nhiều thuật ngữ gaussian và thuật ngữ gaussian của chúng ta nên tập trung vào vết sưng đầu tiên gần như luôn luôn là vết sưng lớn hơn. Chúng tôi muốn "chính xác hơn" giữa 0,8mHz và khoảng 5mHz. Chúng tôi không quan tâm quá nhiều đến các tần số cao hơn nhưng cũng không muốn bỏ qua chúng hoàn toàn. Vì vậy, có thể một số loại cân? Hoặc B có thể được khởi tạo khoảng 4,8mHz luôn?
Dữ liệu abscissa là tần số tính theo đơn vị millihertz, biểu thị nó bằng . Các dữ liệu phối là một hệ số chúng ta đang tính toán, biểu thị nó bằng L . Vì vậy, không có chuyển đổi nhật ký, và hình thức là
- là tần số, luôn dương.
- là một hệ số dương. Vì vậy, chúng tôi đang làm việc trong góc phần tư đầu tiên.
- , biên độ phải luôn luôn tích cực, tôi nghĩ bởi vì chúng ta chỉ đang đối phó với những va chạm. Khi tôi nhìn vào dữ liệu tôi luôn thấy các đỉnh và không có thung lũng. Dường như trong tất cả các dữ liệu có nhiều lần va chạm ở tần số cao hơn. Các vết sưng đầu tiên luôn lớn hơn nhiều so với những người khác. Trong dữ liệu tốt, các va chạm thứ cấp rất yếu nhưng trong dữ liệu xấu (ví dụ bảng 2 và 5), các va chạm thứ cấp rất mạnh. Vì vậy, chúng tôi thực sựkhôngcó một thung lũng, mà là hai gập ghềnh. Có nghĩa là biên độ A > 0 . Và vì chúng tôi quan tâm chủ yếu về đỉnh đầu tiên, tất cả lý do nhiều hơn để A tích cực.
- là trung tâm của vết sưng và chúng tôi luôn muốn nó ở vết sưng lớn đó khoảng 4-5mHz. Trong dải tần số được giải quyết của chúng tôi, nó hầu như luôn xuất hiện ở mức 4,8mHz.
- là chiều rộng của vết sưng. Tôi tưởng tượng nó đối xứng quanh 0 có nghĩa là C sẽ có tác dụng tương tự - C vì nó bình phương. Vì vậy, chúng tôi không quan tâm giá trị của nó là gì. Hãy nói rằng chúng tôi thích nó tích cực.
- là độ dốc của đường, có vẻ như nó có thể hơi âm nên không thực thi bất kỳ hạn chế nào trên nó. Độ dốc là thú vị theo cách riêng của nó vì vậy thay vì thực thi bất kỳ hạn chế nào đối với nó, chúng tôi chỉ muốn xem nó sẽ là gì. Là nó tích cực hay tiêu cực? Làm thế nào lớn / nhỏ là nó khôn ngoan? và như thế.
- là L- intercept(gần như). Điều tinh tế ở đây là do thuật ngữ gaussian, E không hoàn toàn là L -intercept. Chặn thực tế (nếu chúng ta ngoại suy thành f = 0 ) sẽ là
Vì vậy, hạn chế duy nhất ở đây là đánh chặn cũng phải tích cực. Việc chặn là 0, tôi không biết điều đó có nghĩa là gì. Nhưng chắc chắn tiêu cực sẽ vô nghĩa. Tôi đoán ở đây chúng ta có thể cho phép hơi âm với cường độ nhỏ nếu cần thiết. Lý do E và đánh chặn là quan trọng ở đây nhưng một số đồng nghiệp của chúng tôi thực sự quan tâm đến phép ngoại suy là tốt. Tần số tối thiểu chúng ta có là 0,8mHz và họ muốn ngoại suy trong khoảng từ 0 đến 0,8mHz. Ý tưởng ngây thơ của tôi là chỉ sử dụng sự phù hợp để đi xuống đến f = 0 .
Câu hỏi 3: Các bạn nghĩ gì khi ngoại suy theo cách này trong trường hợp này? Bất kỳ ưu / nhược điểm? Bất kỳ ý tưởng khác cho ngoại suy? Một lần nữa, chúng tôi chỉ quan tâm đến các tần số thấp hơn nên ngoại suy giữa 0 và 1mHz ... đôi khi các tần số rất rất nhỏ, gần bằng không. Tôi biết bài này đã được đóng gói. Tôi đã hỏi câu hỏi này ở đây vì các câu trả lời có thể liên quan nhưng nếu các bạn thích tôi có thể tách câu hỏi này và hỏi một câu hỏi khác sau.
Cuối cùng, đây là hai bộ dữ liệu mẫu theo yêu cầu.
0.813010000000000 0.091178000000000 0.012728000000000
1.626000000000000 0.103120000000000 0.019204000000000
2.439000000000000 0.114060000000000 0.063494000000000
3.252000000000000 0.123130000000000 0.071107000000000
4.065000000000000 0.128540000000000 0.073293000000000
4.878000000000000 0.137040000000000 0.074329000000000
5.691100000000000 0.124660000000000 0.071992000000000
6.504099999999999 0.104480000000000 0.071463000000000
7.317100000000000 0.088040000000000 0.070336000000000
8.130099999999999 0.080532000000000 0.036453000000000
8.943100000000001 0.070902000000000 0.024649000000000
9.756100000000000 0.061444000000000 0.024397000000000
10.569000000000001 0.056583000000000 0.025222000000000
11.382000000000000 0.052836000000000 0.024576000000000
12.194999999999999 0.048727000000000 0.026598000000000
13.008000000000001 0.045870000000000 0.029321000000000
13.821000000000000 0.041454000000000 0.067300000000000
14.633999999999999 0.039596000000000 0.081800000000000
15.447000000000001 0.038365000000000 0.076443000000000
16.260000000000002 0.036425000000000 0.075912000000000
Cột đầu tiên là tần số tính bằng mHz, giống hệt nhau trong mỗi bộ dữ liệu. Cột thứ hai là một tập dữ liệu tốt (dữ liệu tốt hình một và hai, bảng 5, điểm đánh dấu màu đỏ) và cột thứ ba là tập dữ liệu xấu (dữ liệu xấu hình ba và bốn, bảng 5, đánh dấu màu đỏ).
Hy vọng điều này là đủ để kích thích một số cuộc thảo luận giác ngộ hơn. Cảm ơn mọi người.