Khi nào (và tại sao) bạn nên lấy nhật ký phân phối (số)?


174

Giả sử tôi có một số dữ liệu lịch sử, ví dụ: giá cổ phiếu trong quá khứ, biến động giá vé máy bay, dữ liệu tài chính trong quá khứ của công ty ...

Bây giờ ai đó (hoặc một số công thức) xuất hiện và nói "hãy lấy / sử dụng nhật ký phân phối" và đây là nơi tôi đi TẠI SAO ?

Câu hỏi:

  1. TẠI SAO nên lấy nhật ký phân phối ở nơi đầu tiên?
  2. Nhật ký phân phối 'cho / đơn giản hóa' mà phân phối ban đầu không thể / không làm gì?
  3. Là chuyển đổi nhật ký 'mất mát'? Tức là, khi chuyển đổi sang không gian log và phân tích dữ liệu, các kết luận tương tự có giữ cho phân phối ban đầu không? Làm thế nào mà?
  4. Và cuối cùng KHI NÀO để lấy nhật ký phân phối? Trong những điều kiện nào người ta quyết định làm điều này?

Tôi thực sự muốn hiểu các bản phân phối dựa trên log (ví dụ lognatural) nhưng tôi chưa bao giờ hiểu các khía cạnh khi / tại sao - tức là, bản ghi của phân phối là một bản phân phối bình thường, vậy thì sao? Điều đó thậm chí còn nói với tôi và tại sao phải bận tâm? Do đó câu hỏi!

CẬP NHẬT : Theo nhận xét của mỗi người đăng ký, tôi đã xem các bài đăng và vì một số lý do tôi hiểu việc sử dụng các biến đổi nhật ký và ứng dụng của chúng trong hồi quy tuyến tính, vì bạn có thể rút ra mối quan hệ giữa biến độc lập và nhật ký của biến phụ thuộc. Tuy nhiên, câu hỏi của tôi là chung chung theo nghĩa phân tích bản phân phối - không có mối quan hệ nào mà tôi có thể kết luận để giúp hiểu lý do lấy nhật ký để phân tích phân phối. Tôi hy vọng tôi có ý nghĩa: - /

Trong phân tích hồi quy, bạn có các ràng buộc về kiểu / sự phù hợp / phân phối dữ liệu và bạn có thể chuyển đổi nó và xác định mối quan hệ giữa biến phụ thuộc độc lập và (không biến đổi). Nhưng khi nào / tại sao người ta sẽ làm điều đó cho một phân phối trong sự cô lập trong đó các ràng buộc về loại / sự phù hợp / phân phối không nhất thiết phải được áp dụng trong một khung (như hồi quy). Tôi hy vọng việc làm rõ làm cho mọi thứ rõ ràng hơn khó hiểu :)

Câu hỏi này xứng đáng có câu trả lời rõ ràng là "TẠI SAO VÀ KHI NÀO"


3
Bởi vì điều này bao gồm gần như cùng một nền tảng với các câu hỏi trước đâyở đây , vui lòng đọc các chủ đề đó và cập nhật câu hỏi của bạn để tập trung vào bất kỳ khía cạnh nào của vấn đề này chưa được giải quyết. Lưu ý rằng, số 4 (và một phần của số 3) là những câu hỏi cơ bản về logarit có câu trả lời dễ dàng tìm thấy ở nhiều nơi.
whuber

1
Việc làm rõ giúp. Tuy nhiên, bạn có thể muốn suy ngẫm về thực tế, hồi quy đó chỉ với một thuật ngữ không đổi (và không có các biến độc lập khác) để đánh giá sự thay đổi của dữ liệu xung quanh giá trị trung bình của chúng. Do đó, nếu bạn thực sự hiểu tác động của việc lấy nhật ký của các biến phụ thuộc trong hồi quy, bạn đã hiểu tình huống (đơn giản hơn) mà bạn đang hỏi về vấn đề này. Nói tóm lại, một khi bạn có câu trả lời cho cả bốn câu hỏi để hồi quy, bạn không cần phải hỏi lại họ về "sự phân phối trong sự cô lập".
whuber

@ what hồi quy tuyến tính. Đó là sự hiểu biết duy nhất của tôi. Có lẽ điều tôi thiếu là "sự hiểu biết thực sự" về tác dụng của việc ghi nhật ký và do đó có sự nhầm lẫn ... có giúp được gì không? ;)
Tiến sĩ

2
À, nhưng bạn biết nhiều hơn thế, bởi vì sau khi sử dụng nhật ký hồi quy, bạn biết rằng kết quả được diễn giải khác nhau và bạn biết quan tâm đến các giá trị được trang bị biến đổi ngược và khoảng tin cậy. Tôi đề nghị rằng bạn có thể không bị nhầm lẫn và có lẽ bạn đã biết nhiều câu trả lời cho bốn câu hỏi này, mặc dù ban đầu bạn không biết về nó :-).
whuber

2
Người đọc ở đây cũng có thể muốn xem xét các chủ đề liên quan chặt chẽ này: phiên dịch-log-log-Transform-dự đoán , và Cách giải thích các hệ số biến đổi logarit trong hồi quy tuyến tính .
gung

Câu trả lời:


98

logY=β0+β1tYYYY2. Tôi không nhớ nguồn gốc cho những điều sau đây nhưng nó tóm tắt một cách độc đáo vai trò của biến đổi sức mạnh. Điều quan trọng cần lưu ý là các giả định phân phối luôn luôn là về quá trình lỗi không phải là Y được quan sát, do đó, nó là một "không-không" nhất định để phân tích chuỗi gốc cho một phép biến đổi phù hợp trừ khi chuỗi được xác định bởi hằng số đơn giản.

Các biến đổi không chính đáng hoặc không chính xác bao gồm các khác biệt nên được tránh một cách tích cực vì chúng thường là một nỗ lực sai lầm / không hợp lý để đối phó với sự bất thường / thay đổi mức độ / xu hướng thời gian hoặc thay đổi thông số hoặc thay đổi trong phương sai. Một ví dụ kinh điển về điều này được thảo luận bắt đầu từ slide 60 tại đây http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_doad/53-capabilities-presentation trong đó có ba dị thường xung ( không được điều trị) đã dẫn đến một sự chuyển đổi nhật ký không chính đáng của các nhà nghiên cứu ban đầu. Thật không may, một số nhà nghiên cứu hiện tại của chúng tôi vẫn đang mắc sai lầm tương tự.

Chuyển đổi năng lượng tối ưu được tìm thấy thông qua Thử nghiệm Box-Cox trong đó

  • -1. là một đối ứng
  • -.5 là một căn bậc hai recriprocal
  • 0,0 là một chuyển đổi nhật ký
  • .5 là một biến đổi toot vuông và
  • 1.0 là không biến đổi.

Yt=u+atYatatYtatYtYYYXYXlogYlogX. Tóm lại các biến đổi giống như thuốc một số là tốt và một số là xấu cho bạn! Chúng chỉ nên được sử dụng khi cần thiết và sau đó thận trọng.


2
Tôi đồng ý rằng bất cứ ai rời khỏi (các) downvote nên để lại một nhận xét về lý do tại sao điều này bị hạ cấp. Đối với Irishstat, việc đọc bài đăng của bạn sẽ dễ dàng hơn nhiều nếu bạn tận dụng các tùy chọn định dạng để để lại câu trả lời, đặc biệt là các tùy chọn có sẵn để đánh dấu các phương trình trong latex. Xem phần trợ giúp chỉnh sửa markdown . Liên kết đó có sẵn bất cứ khi nào bạn nhập phản hồi ở góc trên bên phải của hộp đăng bài (trong vòng tròn màu cam có dấu chấm hỏi).
Andy W

4
Bảng trích dẫn được tìm thấy trong Giới thiệu về Phân tích hồi quy tuyến tính của Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining.
dùng1717828

@ user1717828 tu .. Tôi luôn là một fan hâm mộ của Montgomery khi anh ấy có một bộ râu dài liên quan đến chuỗi thời gian
IrishStat

Có phải luôn luôn đúng là khoảnh khắc thứ hai và phương sai tỷ lệ thuận với nhau không? Chúng ta có phương trình cổ điển nói rằng: phương sai bằng với khoảnh khắc thứ hai trừ đi khoảnh khắc đầu tiên bình phương.
information_interchange

Như bạn nói phương sai là một chức năng của khoảnh khắc thứ hai. Tôi đã ngụ ý khác ở đâu. Ngoài ra, phương sai có thể thay đổi (một cách xác định) tại các thời điểm khác nhau XEM thời gian XEM pdfs.semanticscholar.org/09c4/ mà không được khắc phục bằng một biến đổi sức mạnh.
IrishStat

108

Quy mô log thông báo về những thay đổi tương đối (nhân), trong khi quy mô tuyến tính thông báo về những thay đổi tuyệt đối (phụ gia). Khi nào bạn sử dụng mỗi? Khi bạn quan tâm đến những thay đổi tương đối, hãy sử dụng thang đo log; khi bạn quan tâm đến những thay đổi tuyệt đối, hãy sử dụng quy mô tuyến tính. Điều này đúng với phân phối, nhưng cũng đúng với bất kỳ số lượng hoặc thay đổi về số lượng.

Lưu ý, tôi sử dụng từ "chăm sóc" ở đây rất cụ thể và có chủ ý. Không có mô hình hoặc mục tiêu, câu hỏi của bạn không thể được trả lời; mô hình hoặc mục tiêu xác định quy mô nào là quan trọng. Nếu bạn đang cố gắng mô hình hóa một cái gì đó và cơ chế hoạt động thông qua một thay đổi tương đối, quy mô nhật ký là rất quan trọng để nắm bắt hành vi nhìn thấy trong dữ liệu của bạn. Nhưng nếu cơ chế của mô hình cơ bản là phụ gia, bạn sẽ muốn sử dụng quy mô tuyến tính.


$$$


$$$$


$

Nếu chúng ta chuyển đổi sang không gian nhật ký, những thay đổi tương đối sẽ xuất hiện dưới dạng thay đổi tuyệt đối.

log10($1)log10($1.10)
log10($100)log10($110)

Bây giờ, lấy sự khác biệt tuyệt đối trong không gian nhật ký , chúng tôi thấy rằng cả hai đã thay đổi bởi 0,0413.

Cả hai biện pháp thay đổi này đều quan trọng, và biện pháp nào quan trọng đối với bạn chỉ phụ thuộc vào mô hình đầu tư của bạn. Có hai mô hình. (1) Đầu tư một khoản tiền gốc cố định hoặc (2) đầu tư vào một số lượng cổ phiếu cố định.

Mô hình 1: Đầu tư với một khoản tiền gốc cố định.

$$$$$$$$

Mô hình 2: số lượng cổ phiếu cố định.

$

Bây giờ giả sử chúng ta nghĩ về một giá trị cổ phiếu như một biến ngẫu nhiên dao động theo thời gian và chúng ta muốn đưa ra một mô hình phản ánh chung cách các cổ phiếu hành xử. Và giả sử chúng tôi muốn sử dụng mô hình này để tối đa hóa lợi nhuận. Chúng tôi tính toán phân phối xác suất có giá trị x tính theo đơn vị 'giá cổ phiếu' và giá trị y trong xác suất quan sát giá cổ phiếu nhất định. Chúng tôi làm điều này cho cổ phiếu A và cổ phiếu B. Nếu bạn đăng ký vào kịch bản đầu tiên, nơi bạn có một khoản tiền gốc cố định mà bạn muốn đầu tư, thì việc ghi nhật ký của các phân phối này sẽ có thông tin. Tại sao? Điều bạn quan tâm là hình dạng của phân phối trong không gian tương đối. Cho dù một cổ phiếu đi từ 1 đến 10, hoặc 10 đến 100 không quan trọng với bạn, phải không? Cả hai trường hợp là 10 lầnlợi ích tương đối. Điều này xuất hiện một cách tự nhiên trong phân phối tỷ lệ log trong đơn vị tăng đó tương ứng với mức tăng trực tiếp. Đối với hai cổ phiếu có giá trị trung bình khác nhau nhưng có sự thay đổi tương đối được phân phối giống hệt nhau (chúng có cùng phân phối thay đổi phần trăm hàng ngày ), phân phối nhật ký của chúng sẽ giống hệt nhau về hình dạng. Ngược lại, phân phối tuyến tính của chúng sẽ không giống nhau về hình dạng, với phân phối có giá trị cao hơn có phương sai cao hơn.

Nếu bạn nhìn vào các phân phối tương tự trong không gian tuyến tính hoặc tuyệt đối, bạn sẽ nghĩ rằng giá cổ phiếu có giá trị cao hơn tương ứng với biến động lớn hơn. Đối với mục đích đầu tư của bạn, mặc dù chỉ có lợi ích tương đối, điều này không nhất thiết đúng.

Ví dụ 2. Phản ứng hóa học. Giả sử chúng ta có hai phân tử A và B trải qua phản ứng thuận nghịch.

AB

được xác định bởi các hằng số tỷ lệ riêng

kabABkbaBA

Trạng thái cân bằng của chúng được xác định bởi mối quan hệ:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

CHỈNH SỬA . Một song song thú vị giúp tôi xây dựng trực giác là ví dụ về phương tiện số học so với phương tiện hình học. Một số học (vanilla) có nghĩa là tính trung bình của các số giả định một mô hình ẩn trong đó sự khác biệt tuyệt đối là vấn đề. Thí dụ. Giá trị trung bình số học của 1 và 100 là 50,5. Giả sử chúng ta đang nói về nồng độ, trong đó mối quan hệ hóa học giữa các nồng độ là nhân. Sau đó, nồng độ trung bình nên thực sự được tính trên thang đo log. Đây được gọi là trung bình hình học. Trung bình hình học của 1 và 100 là 10! Xét về sự khác biệt tương đối, điều này có ý nghĩa: 10/1 = 10 và 100/10 = 10, nghĩa là, sự thay đổi tương đối giữa giá trị trung bình và hai giá trị là như nhau. Ngoài ra, chúng tôi tìm thấy điều tương tự; 50,5-1 = 49,5 và 100-50,5 = 49,5.


2
Đây là một câu trả lời thực sự hữu ích và tôi thích các ví dụ. Bạn có thể thêm nhiều hơn về "khi" cụ thể để sử dụng chuyển đổi log không? Bạn nói "Khi bạn quan tâm đến những thay đổi tương đối, hãy sử dụng thang đo log; khi bạn quan tâm đến những thay đổi tuyệt đối, hãy sử dụng thang đo tuyến tính." Nhưng có những trường hợp khi bạn quan tâm đến những thay đổi tương đối nhưng không nên chuyển đổi log và nếu vậy, làm thế nào để bạn phát hiện ra những trường hợp đó? Ví dụ: bài viết này tạo ra một trường hợp dữ liệu không tuân theo phân phối bình thường của nhật ký không nên được chuyển đổi nhật ký: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88

@ skeller88 Tôi đồng ý với bài viết này; đó là một câu trả lời hẹp cho câu hỏi rộng hơn (và triết học!) về 'tại sao chúng ta chuyển đổi phân phối?' Tôi nghĩ rằng câu trả lời là chúng ta có một bộ công cụ thống kê được phát triển tốt để tương phản giữa các bản phân phối bình thường, nhưng một bộ công cụ kém phát triển hơn cho các bản phân phối khác, thậm chí có thể chưa được đặt tên (phần lớn). Một cách tiếp cận để đánh giá một phân phối có vẻ vui nhộn có thể là lấy nhật ký của nó để xem nó có bình thường hơn không; nhưng như IrishStat mô tả về mặt kỹ thuật ở trên, con đường này đầy nguy hiểm (của chốt vuông, lỗ tròn đa dạng).
vector07

1
Có một lời giải thích có liên quan về hiệu ứng này và tại sao nó lại quan trọng đối với cây quyết định hơn một chút đối vớidatascience.com/ Khăn
Keith
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.