Tại sao sử dụng biến đăng nhập?


12

Có lẽ, đây là một câu hỏi rất cơ bản nhưng dường như tôi không thể tìm được câu trả lời chắc chắn cho nó. Tôi hy vọng ở đây, tôi có thể.

Tôi hiện đang đọc các bài báo như là một sự chuẩn bị cho luận án thạc sĩ của riêng tôi. Hiện tại, tôi đang đọc một bài báo nghiên cứu về mối quan hệ giữa các tweet và các tính năng của thị trường chứng khoán.

Trong một giả thuyết của họ, họ đề xuất rằng "khối lượng tweet tăng có liên quan đến việc tăng khối lượng giao dịch".

Tôi hy vọng chúng, trong các tương quan theo cặp, tương quan tweetVolumevới tradingVolume, nhưng thay vào đó chúng báo cáo bằng các phiên bản đã ghi: LN(tweetVolume)LN(tradingVolume).

Đối với luận án của tôi, tôi đã sao chép bit này của bài báo của họ. Tôi đã thu thập các tweet khoảng 100 công ty trong hơn 6 tháng ( tweetVolume) và khối lượng giao dịch chứng khoán cho cùng một khung thời gian. Nếu tôi tương quan với các biến tuyệt đối, tôi tìm thấy r=.282, p.000nhưng khi tôi sử dụng các verion đã ghi, tôi tìm thấy r=.488, p=.000.

Tôi không hiểu tại sao các nhà nghiên cứu đôi khi sử dụng các phiên bản được ghi lại của các biến của họ và tại sao mối tương quan có vẻ cao hơn nhiều nếu bạn làm như vậy. Lý do ở đây là gì và tại sao sử dụng các biến đã đăng nhập lại ổn?

Giúp đỡ của bạn được đánh giá rất cao :-)


1
Nếu bạn thấy các chủ đề liên quan ở phía dưới bên phải của trang, việc sử dụng logarit đã được đề cập một vài lần trước đây. Cụ thể xem, Trong hồi quy tuyến tính, khi nào thì thích hợp để sử dụng nhật ký của một biến độc lập thay vì các giá trị thực tế? .
Andy W

Câu trả lời:


24

Lý do sử dụng các biến được ghi lại thuộc hai loại: Thống kê và thực chất.

Theo thống kê, nếu các biến của bạn là lệch phải (nghĩa là chúng có đuôi dài ở mức cao) thì một biện pháp như tương quan hoặc hồi quy có thể bị ảnh hưởng rất nhiều bởi một hoặc một vài trường hợp ở cấp cao trên một hoặc cả hai các biến (ngoại lệ, điểm đòn bẩy, điểm ảnh hưởng). Lấy nhật ký có thể giúp điều này bằng cách giảm hoặc loại bỏ xiên.

Về cơ bản, một số khái niệm được nghĩ về mặt tỷ lệ tốt hơn so với sự khác biệt. Thực hiện hai biện pháp âm lượng bạn thảo luận. Bây giờ, hãy so sánh hai công ty: Một công ty nhỏ giao dịch trên NASDAQ mà ít người nghe đến, còn lại là một tập đoàn lớn. Các cựu sẽ nhận được rất ít tweet mỗi ngày. Sau này sẽ nhận được nhiều; tương tự cho khối lượng giao dịch. Giả sử (chỉ để chọn số) công ty A thường nhận được 100 tweet mỗi ngày và sau đó nhận được 100.000.

Nếu tweet của công ty A tăng từ 100 đến 500 (chênh lệch 400, tỷ lệ 5) thì đó là tin tức lớn - điều gì đó phải xảy ra. Nhưng nếu công ty B tăng từ 100.000 lên 100.400 (chênh lệch 400, tỷ lệ rất gần với 1) thì không ai quan tâm. Tương đương thô sẽ là nếu nó đi từ 100.000 đến 500.000.


Cảm ơn bạn vì hồi ứng nhanh chóng. Hai câu hỏi nữa đến từ câu trả lời của bạn. Đầu tiên, nếu tôi có 3 thuộc tính cho một đối tượng (giao dịch chứng khoán, trả về và biến động) và lấy phiên bản đã đăng nhập cho một trong số chúng? Những gì bạn nói cho tweet của công ty A và B, cũng có thể được tính cho lợi nhuận của họ: nếu công ty A tăng từ 1 tot 1,50 thì lợi nhuận là (50%) 0,50. Công ty B cần tăng từ 400 đến 600 (200) cho tỷ lệ% tương tự. Và xuất phát từ đó: nếu lợi nhuận là âm, thì LN (-0,50) rõ ràng không hoạt động. Sau đó có được phép lấy -LN (0,50) không?
Pr0no

Ngoài ra, nếu tôi hiểu chính xác, lấy biến đã đăng nhập không phải là một lựa chọn miễn phí - nó có phải được lập luận bởi các biểu đồ skwiness (theo thống kê) không? Và thực chất chỉ là một lý do hợp lý cho việc đăng nhập mà thực sự cung cấp proff để làm như vậy? Nói cách khác, có các quy tắc ngón tay cái ở đây, xác định các ngưỡng trên mà bạn nên lấy phiên bản đã đăng nhập hay đó là vấn đề giải thích?
Pr0no

1
Bạn không muốn lấy nhật ký tỷ lệ phần trăm trong trường hợp này: Lấy phần trăm làm những gì nhật ký sẽ làm. Đó là, nó làm cho mọi thứ tỷ lệ. Chắc chắn bạn có thể lấy nhật ký của một số biến chứ không phải các biến khác. Lấy nhật ký không yêu cầu biểu đồ độ lệch, nhưng thông thường các biến phải ghi nhật ký là lệch phải. Nhưng điều chínhchất . Nếu nó không có ý nghĩa thực sự để lấy nhật ký, thì đừng làm điều đó. Thay vào đó, sử dụng các phương pháp thống kê làm việc với các biến bị lệch. SUBSTANCE đến trước.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.