Có lẽ, đây là một câu hỏi rất cơ bản nhưng dường như tôi không thể tìm được câu trả lời chắc chắn cho nó. Tôi hy vọng ở đây, tôi có thể.
Tôi hiện đang đọc các bài báo như là một sự chuẩn bị cho luận án thạc sĩ của riêng tôi. Hiện tại, tôi đang đọc một bài báo nghiên cứu về mối quan hệ giữa các tweet và các tính năng của thị trường chứng khoán.
Trong một giả thuyết của họ, họ đề xuất rằng "khối lượng tweet tăng có liên quan đến việc tăng khối lượng giao dịch".
Tôi hy vọng chúng, trong các tương quan theo cặp, tương quan tweetVolume
với tradingVolume
, nhưng thay vào đó chúng báo cáo bằng các phiên bản đã ghi: LN(tweetVolume)
và LN(tradingVolume)
.
Đối với luận án của tôi, tôi đã sao chép bit này của bài báo của họ. Tôi đã thu thập các tweet khoảng 100 công ty trong hơn 6 tháng ( tweetVolume
) và khối lượng giao dịch chứng khoán cho cùng một khung thời gian. Nếu tôi tương quan với các biến tuyệt đối, tôi tìm thấy r=.282, p.000
nhưng khi tôi sử dụng các verion đã ghi, tôi tìm thấy r=.488, p=.000
.
Tôi không hiểu tại sao các nhà nghiên cứu đôi khi sử dụng các phiên bản được ghi lại của các biến của họ và tại sao mối tương quan có vẻ cao hơn nhiều nếu bạn làm như vậy. Lý do ở đây là gì và tại sao sử dụng các biến đã đăng nhập lại ổn?
Giúp đỡ của bạn được đánh giá rất cao :-)