Bạn có tầm nhìn toàn cầu về những kỹ thuật phân tích đó không?


24

Tôi hiện đang ở một dự án mà về cơ bản tôi cần, giống như tất cả chúng ta, để hiểu làm thế nào đầu ra có liên quan đến đầu vào . Điều đặc biệt ở đây là dữ liệu được cung cấp cho tôi từng mảnh một, vì vậy tôi muốn cập nhật phân tích của mình mỗi khi tôi nhận được một . Tôi tin rằng đây được gọi là xử lý "trực tuyến", trái ngược với xử lý "lô", nơi bạn có tất cả dữ liệu cần thiết và thực hiện các tính toán của mình bằng cách sử dụng tất cả dữ liệu cùng một lúc.yx(y,x)(y,x)

Vì vậy, tôi đã xem xét các ý tưởng và cuối cùng tôi đã đưa ra kết luận rằng thế giới được chia làm ba:

  • Phần đầu tiên là vùng đất của thống kê và kinh tế lượng. Những người ở đó làm OLS, GLS, biến công cụ, ARIMA, kiểm tra, sự khác biệt của sự khác biệt, PCA và không có gì. Vùng đất này chủ yếu bị chi phối bởi tuyến tính và chỉ xử lý "hàng loạt".

  • Phần thứ hai là hòn đảo của máy học và các từ khác như trí tuệ nhân tạo, học tập có giám sát và không giám sát, mạng lưới thần kinh và SVM. Cả hai quá trình xử lý "lô" và "trực tuyến" đều được thực hiện tại đây.

  • Phần thứ ba là cả một lục địa mà tôi vừa khám phá, chủ yếu là các kỹ sư điện, nên có vẻ như vậy. Ở đó, mọi người thường thêm từ "bộ lọc" vào các công cụ của họ và họ đã phát minh ra những thứ tuyệt vời như thuật toán Widrow-Hoff, bình phương tối thiểu đệ quy , bộ lọc Wiener , bộ lọc Kalman và có lẽ những thứ khác tôi chưa khám phá được. Rõ ràng họ chủ yếu thực hiện xử lý "trực tuyến" vì nó phù hợp hơn với nhu cầu của họ.

Vì vậy, câu hỏi của tôi là, bạn có một tầm nhìn toàn cầu về tất cả điều này? Tôi có ấn tượng rằng ba phần của thế giới không nói quá nhiều với nhau. Tôi có lầm không? Có một lý thuyết thống nhất lớn về cách hiểu quan đến như thế nào không? Bạn có biết bất kỳ tài nguyên nào mà các cơ sở của lý thuyết đó có thể được đặt ra không?YX

Tôi không chắc câu hỏi này có thực sự có ý nghĩa hay không, nhưng tôi hơi lạc lõng giữa tất cả những lý thuyết đó. Tôi tưởng tượng câu trả lời cho câu hỏi "tôi nên sử dụng cái này hay cái kia?" sẽ là "nó phụ thuộc vào những gì bạn muốn làm (và vào dữ liệu của bạn)". Tuy nhiên tôi cảm thấy như ba thế giới đó cố gắng trả lời cho cùng một câu hỏi ( ?) Và do đó, có thể có cái nhìn cao hơn về tất cả những điều này, và hiểu sâu sắc điều gì làm cho mỗi kỹ thuật cụ thể.y= =f(x)


Tôi nghĩ rằng 2 khu vực đầu tiên nói chuyện với nhau nhiều hơn những ngày này. Câu hỏi tuyệt vời mặc dù!
Zach

Chủ đề năng nổ và câu hỏi bằng văn bản!
rolando2

1
Hãy làm CW này.
Đức hồng y

1
Tôi tự gọi mình là một nhà thống kê, nhưng tôi làm rất nhiều công việc trực tuyến, thực hiện một số mô hình phi tuyến các loại và đã nghiên cứu ít nhất một chút về AI. Tôi nghĩ rằng sự khác biệt trong các công cụ điển hình có liên quan nhiều hơn đến các loại vấn đề mà mọi người có xu hướng gặp phải. Khi các vấn đề của họ hội tụ, sớm hay muộn họ có xu hướng tìm hoặc phát minh lại các công cụ tương tự (thường dưới các tên khác nhau và có tiếng chuông và còi hơi khác nhau).
Glen_b -Reinstate Monica

Câu trả lời:


4

Xét về lô so với trực tuyến, kinh nghiệm của tôi cho tôi biết rằng đôi khi bạn kết hợp cả hai. Ý tôi là bạn để cho công việc nặng nhọc tức là tính toán các công cụ chuyên sâu liên quan đến công thức mô hình được thực hiện ngoại tuyến và sau đó sử dụng các quy trình nhanh chóng / thích ứng để sử dụng các mô hình này. Chúng tôi đã tìm thấy rằng "dữ liệu mới" có thể được sử dụng theo ba cách; 1. để dự báo đơn giản; 2. để sửa lại các tham số của mô hình đã biết và 3. để sửa lại các tham số và có thể sửa lại mô hình. Ba phương pháp này đã được sử dụng để "phân tích trực tiếp" và tất nhiên thời gian để hoàn thành một trong ba bước này phụ thuộc vào cả phần mềm được sử dụng và phần cứng có sẵn.

Bây giờ đến điểm khác của bạn về cách mô hình y vs x. Tôi thích sử dụng một phiên bản hồi quy mở rộng (được gọi là Hàm truyền hoặc Mô hình ARMAX) làm cơ sở để loại bỏ tác động của lịch sử của y và các giá trị hiện tại và pas của x. Điều quan trọng là người ta xác nhận các yêu cầu Gaussian và kết hợp các proxy cần thiết cho cả cấu trúc xác định bị bỏ qua (thông qua Phát hiện ngoại lệ) và cấu trúc ngẫu nhiên bị bỏ qua thông qua thành phần ARMA. Ngoài ra, người ta cần đảm bảo rằng người ta đã không sử dụng quá nhiều dữ liệu (kiểm tra độ không đổi tham số) và bất kỳ phương sai lỗi không cố định nào do phương sai lỗi xác định / ngẫu nhiên và / hoặc liên kết giữa giá trị dự kiến ​​của y và phương sai của dư.

Bây giờ trong lịch sử (hoặc cuồng loạn nếu bạn muốn) các silo tư tưởng khác nhau đã cố gắng hình thành các cách tiếp cận. Nhiều mô hình đặc biệt được sử dụng bởi cây gậy tổ tiên của chúng tôi được hiển thị là tập hợp con của Hàm chuyển nhưng có những tập dữ liệu có thể được tưởng tượng sẽ thách thức các giả định của Hàm chuyển. Mặc dù các bộ dữ liệu này có thể tồn tại nhưng không nên giả định rằng chúng sẽ ảnh hưởng trực tiếp đến bạn trừ khi phân tích mang lại kết luận đó.

Các văn bản như Wei (Addison-Wessley) hoặc Box-Jenkins nên cung cấp một lộ trình hợp lý để hỗ trợ cộng đồng của tôi và đưa bạn đến một số "câu trả lời" khác

Nhân tiện đây là một câu hỏi lớn!

Ngoài ra, nếu bạn có bất kỳ dữ liệu nào bạn muốn sử dụng, tôi có thể chứng minh các tùy chọn khác nhau được nêu trong tài liệu này. Vui lòng đăng dữ liệu của bạn lên web để mọi người cùng xem và sử dụng trong nỗ lực của họ để liên hệ "y với x".


Cảm ơn câu trả lời của bạn! Tôi sẽ nhìn sâu hơn vào điều đó ngay khi tôi có thời gian và có lẽ tôi sẽ quay lại với bạn. Tôi phải nói rằng tôi không biết mô hình ARMAX. Tôi đoán tôi đã trực tiếp đến một VAR hoàn toàn nội sinh. Về dữ liệu, thực tế chúng tôi vẫn đang xây dựng những thứ khác cho dự án của chúng tôi vì vậy tôi không có nhiều dữ liệu liên quan ngay bây giờ. Nhưng cảm ơn bạn rất nhiều, bạn nên nghe từ tôi một lần nữa!
Arthur

"Xác thực các yêu cầu Gaussian": không phải Gaussian / nonparametric / quên-model (speed Breiman) là một sự phân chia sâu sắc?
chối

2

Breiman giải quyết vấn đề này trong " Mô hình thống kê: Hai nền văn hóa ". Một câu trả lời đầu tiên cho một câu hỏi xuất sắc.


Cảm tạ! Liên kết của bạn không hoạt động với tôi, cái đó hoạt động và cái này dẫn trực tiếp đến pdf. Tôi chỉ đọc phần tóm tắt và một số phần ngẫu nhiên trong văn bản và nó trông rất thú vị. Các anh chàng dường như hoàn toàn "chống thống kê cổ điển", mặc dù. Cảm ơn một lần nữa.
Arthur

Tuyệt vời - Tôi đã cập nhật liên kết. Đó là một niềm vui đọc - thưởng thức!
Ram Ahluwalia

"Hai nền văn hóa" của Breiman đã được thảo luận ở đây : một số điểm thú vị, nhưng thật khó để thay đổi hoặc thậm chí giải thích tư duy của một người.
chối

1

Tôi nghi ngờ câu trả lời cho câu hỏi này là một cái gì đó dọc theo dòng chữ "không có bữa trưa miễn phí." Có lẽ lý do các nhà thống kê, nhà khoa học máy tính và kỹ sư điện đã phát triển các thuật toán khác nhau là vì họ quan tâm đến việc giải quyết các loại vấn đề khác nhau.


0

Tôi muốn nói rằng ba nhóm mà bạn chỉ ra thực sự chỉ có hai nhóm:

  • Số liệu thống kê
  • Học máy, trí tuệ nhân tạo và nhận dạng mẫu.

Tất cả các nhánh liên quan đến lọc tín hiệu đều dựa trên hai khía cạnh: trích xuất tính năng (wavelet, Gabor và Fourier) thuộc về nhận dạng mẫu và Biến đổi Fourier rời rạc thuộc về toán học cứng. Trong thực tế, lọc kỹ thuật số gần với một khía cạnh kỹ thuật hơn khi nó cố gắng giải quyết vấn đề nhận dạng mẫu này bằng các thuật toán chi phí tính toán đơn giản và thấp. Nhưng thực chất, nó là máy học.

Hơn nữa, Filtering, Wavelets, Gabor và Fourier được sử dụng rộng rãi trong xử lý hình ảnh là cốt lõi của tầm nhìn nhân tạo.

Sự khác biệt tồn tại giữa thống kê và học máy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.