Prophet từ Facebook có khác gì với hồi quy tuyến tính không?


11

Vì vậy, những gì tôi đã đọc về nhà tiên tri của Facebook là về cơ bản nó chia chuỗi thời gian thành xu hướng và thời vụ. Ví dụ: một mô hình phụ gia sẽ được viết là:

y(t)=g(t)+s(t)+h(t)+et

với

  • t thời gian
  • g(t) xu hướng (có thể là tuyến tính hoặc logistic)
  • s(t) tính thời vụ (hàng ngày, hàng tuần, hàng năm ...)
  • h(t) ngày lễ
  • et lỗi

Câu hỏi của tôi là: Không thể thực hiện được với hồi quy tuyến tính đơn giản? Điều gì sẽ là sự khác biệt về kết quả nếu chúng ta so sánh chúng, và tại sao?


Có, bạn có thể làm điều này với một mô hình tuyến tính. Tôi không biết Tiên tri nhưng nếu đây là tất cả những gì nó đang làm thì không có gì khác biệt.
dùng2974951

Câu trả lời:


13

Vấn đề ở đây là để có được một phương trình phân tích dữ liệu quan sát thành tín hiệu và nhiễu. Nếu dữ liệu của bạn đơn giản thì phương pháp hồi quy của bạn có thể hoạt động. Cần thận trọng để hiểu một số giả định mà họ đang thực hiện với Tiên tri. Bạn nên hiểu rõ hơn về những gì Prophet làm, vì nó không chỉ phù hợp với một mô hình đơn giản mà còn cố gắng thêm một số cấu trúc.

Ví dụ, một số phản ánh mà tôi đã thực hiện sau khi đọc phần giới thiệu được viết tốt của họ có thể giúp bạn đánh giá. Tôi xin lỗi trước nếu tôi hiểu sai cách tiếp cận của họ, và muốn được sửa chữa nếu có.

1) Ví dụ dẫn đầu của họ có hai điểm dừng trong xu hướng nhưng họ chỉ nắm bắt được điểm rõ ràng nhất.

2) Họ bỏ qua bất kỳ và tất cả cấu trúc ARIMA phản ánh chuỗi ngẫu nhiên bị bỏ qua hoặc giá trị sử dụng các giá trị lịch sử của Y để hướng dẫn dự báo.

3) Họ bỏ qua mọi động lực có thể có (hiệu ứng chì và độ trễ) của chuỗi ngẫu nhiên và xác định do người dùng đề xuất. Hiệu ứng hồi quy nguyên nhân của nhà tiên tri chỉ đơn giản là đương thời.

4) Không có nỗ lực nào được thực hiện để xác định dịch chuyển bước / cấp trong chuỗi hoặc xung theo mùa, ví dụ: thay đổi nửa giờ HIỆU QUẢ HÀNG NGÀY do một số sự kiện bên ngoài không xác định. Prophet giả định "tăng trưởng tuyến tính đơn giản" thay vì xác nhận nó bằng cách kiểm tra các khả năng thay thế. Để có ví dụ về điều này, hãy xem Dự báo các đơn đặt hàng định kỳ cho một doanh nghiệp đăng ký trực tuyến bằng Facebook Prophet và R

5) Sines và Cosines là một cách không rõ ràng để đối phó với tính thời vụ, trong khi các hiệu ứng theo mùa như ngày trong tuần, ngày trong tháng, tuần, tháng trong năm là hiệu quả / nhiều thông tin hơn khi xử lý các hiệu ứng do con người gây ra (đối phó với con người!).

Đề xuất tần suất 365,25 cho các mẫu hàng năm không có ý nghĩa gì vì chúng tôi không thực hiện cùng một hành động vào cùng một ngày như năm ngoái, trong khi hoạt động hàng tháng thì bền bỉ hơn nhiều, nhưng Prophet dường như không cung cấp 11 chỉ số hàng tháng Lựa chọn. Tần suất hàng tuần là 52 có ý nghĩa rất nhỏ bởi vì chúng tôi không có 52 tuần mỗi năm.

6) Không có nỗ lực nào được thực hiện để xác nhận các quá trình lỗi là Gaussian để các thử nghiệm có ý nghĩa có thể được thực hiện.

7) Không quan tâm đến phương sai lỗi mô hình là đồng nhất, nghĩa là, không thay đổi một cách xác định tại các thời điểm cụ thể trong thời gian gợi ý Bình phương tối thiểu có trọng số. Không cần quan tâm đến việc tìm một biến đổi công suất tối ưu để xử lý phương sai lỗi tỷ lệ thuận với Giá trị mong đợi Khi nào (và tại sao) bạn nên lấy nhật ký phân phối (số)? .

8) Người dùng phải chỉ định trước tất cả các hiệu ứng dẫn và trễ có thể xảy ra xung quanh các sự kiện / ngày lễ. Ví dụ, doanh số hàng ngày thường bắt đầu tăng vào cuối tháng 11, phản ánh hiệu quả lâu dài của Giáng sinh.

9) Không có lo ngại rằng các lỗi kết quả là không có cấu trúc gợi ý các cách để cải thiện mô hình thông qua kiểm tra chẩn đoán cho đủ.

10) Rõ ràng không có mối quan tâm với việc cải thiện mô hình bằng cách xóa cấu trúc không đáng kể.

11) Không có cơ sở để có được một họ các dự báo mô phỏng trong đó các giới hạn độ tin cậy có thể không nhất thiết phải đối xứng thông qua việc khởi động các lỗi của mô hình với sự cho phép của các bất thường có thể xảy ra.

12) Cho phép người dùng đưa ra các giả định về xu hướng (# điểm dừng xu hướng và điểm dừng thực tế) cho phép tính linh hoạt không mong muốn / không thể sử dụng khi đối mặt với phân tích quy mô lớn mà theo tên của nó được thiết kế cho các ứng dụng quy mô lớn rảnh tay.


Đồng ý, nhưng tôi muốn nói rằng những thứ đó gần với các tính năng "tốt để có", thì "phải có". Bạn có thể có các mô hình dự báo chất lượng cao thiếu một số trong số họ. Nhưng, như tôi đã nói, điểm tốt và đánh giá tốt.
Tim

Bạn hoàn toàn đúng trong phản ánh của mình ... sự phức tạp vốn có của "dữ liệu" là vấn đề cầm quyền. Dữ liệu đơn giản .. cần các giải pháp đơn giản .. dữ liệu phức tạp cho thấy rằng "tốt để có" có thể trở thành "cần phải có". Chỉ có dữ liệu của bạn biết chắc chắn! Dao cạo của Occam xuất hiện trong tâm trí ..
IrishStat 16/07/19

@ Tim stats.stackexchange.com/questions/417908/... chủ đề gợi ý rằng một số tính năng mà là "tốt đẹp để có" nên trong thực tế là "phải có" để foil giả định không đúng như "xu hướng tuyến tính đơn giản".
IrishStat

10

Tôi chưa sử dụng nó, nhưng đây là bản tóm tắt của họ (nhấn mạnh của tôi):

Dự báo là một nhiệm vụ khoa học dữ liệu phổ biến giúp các tổ chức lập kế hoạch năng lực, thiết lập mục tiêu và phát hiện bất thường. Mặc dù tầm quan trọng của nó, có những thách thức nghiêm trọng liên quan đến việc tạo ra các dự báo chất lượng cao và đáng tin cậy - đặc biệt là khi có nhiều chuỗi thời gian và các nhà phân tích có chuyên môn về mô hình chuỗi thời gian là tương đối hiếm . Để giải quyết những thách thức này, chúng tôi mô tả một cách tiếp cận thực tế để dự báo về quy mô của Google, kết hợp các mô hình có thể định cấu hình với phân tích hiệu suất trong vòng phân tích. Chúng tôi đề xuất một mô hình hồi quy mô-đun với các tham số có thể hiểu được có thể được điều chỉnh bằng trực giác bởi các nhà phân tích có kiến ​​thức về miền về chuỗi thời gian. Chúng tôi mô tả các phân tích hiệu suất để so sánh và đánh giá các quy trình dự báo và tự động gắn cờ dự báo để xem xét và điều chỉnh thủ công. Các công cụ giúp các nhà phân tích sử dụng chuyên môn của họ một cách hiệu quả nhất cho phép dự báo đáng tin cậy, thực tế về chuỗi thời gian kinh doanh.

Trong phần giới thiệu:

Chúng tôi đã quan sát hai chủ đề chính trong thực tế tạo dự báo kinh doanh. Đầu tiên, các kỹ thuật dự báo hoàn toàn tự động có thể khó điều chỉnh và thường quá không linh hoạt để kết hợp các giả định hữu ích hoặc chẩn đoán. Thứ hai, các nhà phân tích chịu trách nhiệm về các nhiệm vụ khoa học dữ liệu trong toàn tổ chức thường có chuyên môn sâu về các sản phẩm hoặc dịch vụ cụ thể mà họ hỗ trợ, nhưng thường không được đào tạo về dự báo chuỗi thời gian.

Vì vậy, dường như với tôi rằng họ không tuyên bố đã đạt được một tiến bộ thống kê đáng kể ở đây (mặc dù nó có khả năng vượt xa so với mô hình đơn giản mà bạn phác thảo). Thay vào đó, họ tuyên bố rằng hệ thống của họ làm cho số lượng lớn người không có chuyên môn về phân tích chuỗi thời gian có thể tạo ra các dự báo trong khi áp dụng chuyên môn về miền và các ràng buộc cụ thể của hệ thống.

Nếu bạn đã có chuyên môn về cả phân tích chuỗi thời gian và mã hóa các mô hình phức tạp, điều này có thể không hữu ích cho bạn. Nhưng nếu tuyên bố của họ là đúng, điều này có thể rất hữu ích! Khoa học (và thương mại) tiến bộ không chỉ vì những ý tưởng mới, mà còn vì những công cụ mới và sự lan truyền của chúng (xem đoạn Freeman Dyson ngắn này về chủ đề và phản ứng này ).

Lấy một ví dụ từ chính số liệu thống kê: Rkhông đại diện cho một tiến bộ thống kê, nhưng nó có ảnh hưởng lớn vì nó giúp nhiều người dễ dàng phân tích thống kê hơn. Nó đã được giàn giáo trên đó rất nhiều sự hiểu biết thống kê đã được xây dựng. Nếu chúng ta may mắn, Tiên tri có thể đóng một vai trò tương tự.

Dyson, Freeman J. "Khoa học chủ yếu được điều khiển bởi ý tưởng hay bởi các công cụ?" Khoa học 338, không. 6113 (2012): 1426-1427.


0

Bạn đang thiếu các điểm thay đổi, các spline tuyến tính từng phần, có thể được thực hiện trong các mô hình tuyến tính.

Bạn đúng rằng ít nhất trong trường hợp giới hạn đó là hồi quy chính quy tuyến tính (chính quy L1 và L2).

Lưu ý rằng có một mô hình tiên tri riêng biệt, tăng trưởng logistic.

Ngoài ra, bạn đang giả sử các yếu tố theo mùa là phụ gia, nhưng chúng cũng hỗ trợ các hiệu ứng theo mùa nhân, có vẻ tự nhiên hơn ít nhất là cho mô hình tăng trưởng.


Giả thuyết tiên tri về việc lấy nhật ký bay trước cuộc thảo luận có giá trị này ... stats.stackexchange.com/questions/18844/ , trong đó các biến đổi sức mạnh được chứng minh dựa trên mối quan hệ thực nghiệm giữa Giá trị kỳ vọng và phương sai lỗi mô hình HOẶC cụ thể cơ sở giả định phi tuyến tính dựa trên kiến ​​thức tên miền.
IrishStat

@IrishStat Cảm ơn bạn vì điều đó (Tôi đã tha thứ cho việc họ đăng nhập biến đổi để thực hiện tính thời vụ nhân, họ sử dụng STAN, vì vậy tôi tin rằng họ có thể đã sử dụng mô hình phi tuyến thay vì ghi nhật ký). Bạn có thể giải thích sự khác biệt của bạn giữa giả định về tính thời vụ nhân và 'giả định phi tuyến tính ..'
seanv507

Nếu bạn nhìn vào số liệu thống kê câu trả lời của @ whuber's.stackexchange.com/questions/298/ nam , ông đề nghị chuyển đổi "khi lý thuyết khoa học chỉ ra" đó sẽ là một giả định phi tuyến tính có thể dựa trên kiến ​​thức tên miền. Biến đổi sức mạnh thực nghiệm rất hữu ích khi phương sai của các lỗi được tìm thấy tỷ lệ thuận với giá trị mong đợi nếu không nó có thể chỉ đơn giản là "thay đổi cửa sổ".
IrishStat

0

Rất nhiều điều có thể được thực hiện với một hồi quy tuyến tính đơn giản nhưng không phải tất cả những gì Tiên tri làm. Chỉ cần một ví dụ, bạn có thể chỉ định ứng cử viên điểm thay đổi của riêng mình cho một xu hướng và Prophet sẽ sử dụng nó làm ưu tiên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.