Sự khác biệt giữa các thuật ngữ phân tích chuỗi thời gian của YouTube và phân tích dữ liệu theo chiều dọc


17

Khi nói về dữ liệu theo chiều dọc, chúng ta có thể đề cập đến dữ liệu được thu thập theo thời gian từ cùng một chủ đề / đơn vị nghiên cứu, do đó có mối tương quan cho các quan sát trong cùng một chủ đề, nghĩa là tương tự trong chủ đề.

Khi nói về dữ liệu chuỗi thời gian, chúng tôi cũng đề cập đến dữ liệu được thu thập trong một chuỗi thời gian và nó có vẻ rất giống với cài đặt theo chiều dọc được đề cập ở trên.

Tôi tự hỏi nếu ai đó có thể cung cấp một sự làm rõ rõ ràng giữa hai điều khoản này, mối quan hệ là gì và sự khác biệt là gì?


1
Điều này có thể biến thành một cuộc thăm dò ... Tôi đã làm việc trên cả hai loại dữ liệu và một điểm khác biệt chính là dữ liệu theo chiều dọc thường được sử dụng trong các phân tích nguyên nhân , để hiểu tác động của các can thiệp hoặc điều trị, trong khi chuỗi thời gian thường được sử dụng trong dự báo . Tất nhiên, sự khác biệt không rõ ràng (bạn cần hiểu các trình điều khiển cơ bản để dự báo và IMO bạn chưa hiểu các trình điều khiển trừ khi bạn có thể dự báo tốt). Nhưng những người phát hiện tín hiệu theo chuỗi thời gian thường không quan tâm lắm đến việc dự báo, vì vậy họ có thể sẽ từ chối sự phân biệt của tôi.
S. Kolassa - Tái lập Monica

Cảm ơn ý kiến ​​của bạn. Nhưng tôi nghĩ thuật ngữ "nhân quả" có thể không phù hợp ở đây hơn là thuật ngữ "hiệp hội" nên tốt hơn? Về mục đích phân tích dữ liệu, tôi nghĩ ý kiến ​​của bạn có ý nghĩa với tôi. Nhưng chúng ta không thể sử dụng dữ liệu theo chiều dọc để dự báo? Vì nó cũng là loại dữ liệu chuỗi thời gian.
bắt đầu từ

1
Bạn có một điểm là "nhân quả" so với "liên kết", và tất nhiên dữ liệu theo chiều dọc có thể được sử dụng để dự báo - chỉ là tôi không thường thấy hai khái niệm này cùng nhau. Các nhà dự báo thường nói về chuỗi thời gian. Ngoài ra, tôi không thể đặt nó tốt hơn @gung.
S. Kolassa - Tái lập Monica

3
Một trong những khác biệt điển hình có thể (không xác định) là trong chuỗi thời gian bạn thấy và mô hình đáp ứng thời gian phụ thuộc vào trạng thái ; Đây là hiệu ứng chuyển giao . Trong phân tích thời gian theo chiều dọc, bạn thường coi thời gian là yếu tố nền tảng tiến hóa vĩnh viễn . t - 1tt-1
ttnphns

Câu trả lời:


19

Tôi nghi ngờ có những định nghĩa chính thức, nghiêm ngặt mà một loạt các nhà phân tích dữ liệu đồng ý.

Tuy nhiên, nói chung, chuỗi thời gian bao hàm một đơn vị nghiên cứu duy nhất được quan sát tại các khoảng thời gian đều đặn trong một khoảng thời gian rất dài. Một ví dụ mẫu sẽ là tăng trưởng GDP hàng năm của một quốc gia trong nhiều thập kỷ hoặc thậm chí hơn một trăm năm. Đối với một nhà phân tích làm việc cho một công ty tư nhân, đó có thể là doanh thu bán hàng hàng tháng trong suốt vòng đời của công ty. Do có rất nhiều quan sát, dữ liệu được phân tích rất chi tiết, tìm kiếm những thứ như tính thời vụ qua các thời kỳ khác nhau (ví dụ: hàng tháng: bán nhiều hơn vào đầu tháng ngay sau khi mọi người được trả tiền; hàng năm: bán nhiều hơn vào tháng 11 và Tháng 12, khi mọi người đang mua sắm cho mùa Giáng sinh), và có thể chế độ thay đổi. Dự báo thường rất quan trọng, như @StephanKolassa lưu ý.

Theo chiều dọc thường đề cập đến các phép đo ít hơn trên một số lượng lớn hơn các đơn vị nghiên cứu. Một ví dụ mẫu có thể là một thử nghiệm thuốc, trong đó có hàng trăm bệnh nhân được đo tại đường cơ sở (trước khi điều trị) và hàng tháng trong 3 tháng tiếp theo. Chỉ với 4 quan sát của mỗi đơn vị trong ví dụ này, không thể cố gắng phát hiện các loại tính năng mà các nhà phân tích chuỗi thời gian quan tâm. Mặt khác, với các bệnh nhân có lẽ được chọn ngẫu nhiên vào các nhánh điều trị và kiểm soát, có thể suy ra nguyên nhân một lần sự không độc lập đã được giải quyết. Như điều đó cho thấy, thường thì sự không độc lập được coi là gần như phiền toái, hơn là tính năng chính được quan tâm.


8

Có khoảng ba loại bộ dữ liệu:

  • mặt cắt ngang: các đối tượng khác nhau cùng một lúc; nghĩ về nó như một hàng với nhiều cột tương ứng với các chủ đề khác nhau;
  • chuỗi thời gian: cùng một chủ đề tại các thời điểm khác nhau; nghĩ về nó như một cột với các hàng tương ứng với các mốc thời gian khác nhau;
  • bảng điều khiển (theo chiều dọc): nhiều môn học ở các thời điểm khác nhau, bạn có cùng một chủ đề vào các thời điểm khác nhau và bạn có nhiều môn học cùng một lúc; nghĩ về nó như một bảng trong đó các hàng là các điểm thời gian và các cột là các chủ đề.

2
Dựa trên ý kiến ​​của bạn, có vẻ như dữ liệu theo chiều dọc là một tập hợp dữ liệu chuỗi nhiều thời gian được thu thập từ các đối tượng khác nhau?
bắt đầu từ

1
Nói chung, có, bạn có thể xem dữ liệu của từng đối tượng theo chuỗi thời gian. Trong thực tế, dữ liệu theo chiều dọc thường có rất ít điểm thời gian cho mỗi đối tượng. Họ gọi sóng điểm thời gian . Ví dụ, nó có thể là nghiên cứu y tế trong đó mỗi bệnh nhân có 4-5 lần quan sát hàng tháng và hàng trăm bệnh nhân trong suốt nhiều năm. Theo cách đó, các bộ dữ liệu bảng điều khiển thường không cân bằng (nghĩ về một bảng rất thưa thớt), vì vậy các nghiên cứu theo chiều dọc có các phương pháp yêu thích riêng để đối phó với điều này.
Aksakal

Điều này rất hữu ích khi đưa ra câu hỏi, nhưng có nhiều loại bộ dữ liệu khác không thuộc bất kỳ tiêu đề nào trong số này. Tuy nhiên, chúng dường như không liên quan đến câu hỏi và cố gắng phân loại mọi loại dữ liệu có thể sẽ vô ích ở đây. Ví dụ: bất kỳ tập dữ liệu nào trong đó cấu trúc cơ bản là chủ đề x chủ đề; bất kỳ tập dữ liệu nào không phải là hai chiều.
Nick Cox

@NickCox, đúng, nhưng tôi thuộc về kinh tế lượng, và ba người này là những người có lý thuyết phát triển và chủ yếu được sử dụng trong lĩnh vực của chúng tôi
Aksakal

2
Không có nghi ngờ gì về bạn, nhưng không có gì trong câu hỏi bắt buộc hoặc thậm chí khuyến khích một quan điểm kinh tế lượng hẹp, cũng như quan điểm cụ thể của bạn được làm rõ ràng.
Nick Cox

3

Hai thuật ngữ này có thể không liên quan đến cách OP giả định - tức là tôi không nghĩ chúng là các phương thức phân tích cạnh tranh.

Thay vào đó, phân tích chuỗi thời gian mô tả một tập hợp các kỹ thuật cấp thấp hơn có thể hữu ích để phân tích dữ liệu trong một nghiên cứu theo chiều dọc.

Đối tượng nghiên cứu trong phân tích chuỗi thời gian là một số tín hiệu phụ thuộc thời gian.

Hầu hết các kỹ thuật để phân tích và mô hình hóa / dự đoán các tín hiệu phụ thuộc thời gian này được xây dựng dựa trên tiền đề rằng các tín hiệu này có thể phân tách thành các thành phần khác nhau. Hai quan trọng nhất là:

  • thành phần tuần hoàn (ví dụ, hàng ngày, hàng tuần, hàng tháng, theo mùa); và

  • khuynh hướng

Nói cách khác, phân tích chuỗi thời gian dựa trên việc khai thác tính chất tuần hoàn của tín hiệu phụ thuộc thời gian để trích xuất tín hiệu cơ bản.


0

Để làm cho nó đơn giản, tôi sẽ giả định một nghiên cứu về các cá nhân, nhưng áp dụng tương tự cho bất kỳ đơn vị phân tích nào. Nó không phức tạp, chuỗi thời gian là dữ liệu được thu thập theo thời gian, thường ngụ ý cùng một phép đo từ một dân số tương đương tại các khoảng thời gian riêng biệt - hoặc được thu thập liên tục nhưng được phân tích theo các khoảng thời gian.
Dữ liệu theo chiều dọc rộng hơn nhiều về phạm vi. Dân số tương đương được thay thế bằng dân số giống hệt nhau, do đó dữ liệu cá nhân có thể được ghép nối hoặc nối theo thời gian. Dữ liệu theo chiều dọc có thể được đo lặp lại hoặc không phụ thuộc vào mục tiêu nghiên cứu. Khi dữ liệu theo chiều dọc trông giống như một chuỗi thời gian là khi chúng ta đo lường điều tương tự theo thời gian. Sự khác biệt lớn là trong một chuỗi thời gian chúng ta có thể đo lường sự thay đổi tổng thể của phép đo theo thời gian (hoặc theo nhóm) trong khi phân tích theo chiều dọc, bạn thực sự có phép đo thay đổi ở cấp độ cá nhân. Vì vậy, bạn có nhiều tiềm năng để phân tích và việc đo lường sự thay đổi là không có lỗi nếu việc lấy mẫu có liên quan, vì vậy một nghiên cứu theo chiều dọc có thể chính xác và nhiều thông tin hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.