Phân phối tỷ lệ cược log là gì?


11

Tôi đang đọc một cuốn sách giáo khoa về học máy (Khai thác dữ liệu của Witten, et al., 2011) và tình cờ thấy đoạn văn này:

... Hơn nữa, các bản phân phối khác nhau có thể được sử dụng. Mặc dù phân phối bình thường thường là một lựa chọn tốt cho các thuộc tính số, nhưng nó không phù hợp với các thuộc tính có mức tối thiểu được xác định trước nhưng không có giới hạn trên; trong trường hợp này, phân phối "log-normal" là phù hợp hơn. Các thuộc tính số được giới hạn ở trên và dưới có thể được mô hình hóa bằng phân phối "tỷ lệ cược log" .

Tôi chưa bao giờ nghe nói về phân phối này. Tôi đã googled cho "phân phối tỷ lệ cược log" nhưng không thể tìm thấy bất kỳ trận đấu chính xác có liên quan. Ai đó có thể giúp tôi không? Phân phối này là gì và tại sao nó giúp với các số giới hạn ở trên và dưới?

PS Tôi là một kỹ sư phần mềm, không phải là một nhà thống kê.

Câu trả lời:


14

Tại sao nó giúp với các số giới hạn ở trên và dưới?

Một phân phối được xác định trên là những gì làm cho nó phù hợp làm mô hình cho dữ liệu trên ( 0 , 1 ) . Tôi không nghĩ rằng văn bản ngụ ý bất cứ điều gì ngoài "đó là mô hình cho dữ liệu trên ( 0 , 1 ) " (hay nói chung hơn là trên ( a , b ) ).(0,1)(0,1)(0,1)(một,b)

phân phối này là gì ...?

Thật không may, thuật ngữ 'phân phối tỷ lệ cược log' là không hoàn toàn chuẩn (và không phải là một thuật ngữ rất phổ biến ngay cả sau đó).

Tôi sẽ thảo luận về một số khả năng cho những gì nó có nghĩa là. Hãy bắt đầu bằng cách xem xét một cách để xây dựng phân phối cho các giá trị trong khoảng đơn vị.

Một cách phổ biến để mô hình một biến ngẫu nhiên liên tục, in ( 0 , 1 )phân phối beta và cách phổ biến để mô hình các tỷ lệ rời rạc trong [ 0 , 1 ] là nhị thức tỷ lệ ( P = X / n , ít nhất là khi X là một số đếm).P(0,1)[0,1]P= =X/nX

Một cách khác để sử dụng phân phối beta là lấy một số CDF nghịch đảo liên tục ( ) và sử dụng nó để chuyển đổi các giá trị trong ( 0 , 1 ) thành dòng thực (hoặc hiếm khi, nửa dòng thực) và sau đó sử dụng mọi phân phối có liên quan ( G ) để mô hình hóa các giá trị trên phạm vi được chuyển đổi. Điều này mở ra nhiều khả năng, vì bất kỳ cặp phân phối liên tục nào trên dòng thực ( F , G ) đều có sẵn để chuyển đổi và mô hình.F-1(0,1)GF,G

Vì vậy, ví dụ, phép biến đổi tỷ lệ cược log Y= =đăng nhập(P1-P)Y

(μ,τ)Y(0,1)P= =điểm kinh nghiệm(Y)1+điểm kinh nghiệm(Y)Pμ,τ

nhập mô tả hình ảnh ở đây

Nhìn vào đề cập ngắn gọn trong văn bản của Witten et al, đây có thể là mục đích của "phân phối tỷ lệ cược log" - nhưng chúng có thể dễ dàng có ý nghĩa khác.

Một khả năng khác là logit-normal đã được dự định.

[1]FG(0,1)), mà sau đó họ dường như dành rất nhiều nỗ lực vào. (Có vẻ dễ dàng hơn để tránh mô hình không phù hợp, nhưng có lẽ đó chỉ là tôi.)

YP

PY-

[2]

Vì vậy, như bạn thấy, nó không phải là một thuật ngữ với một ý nghĩa duy nhất. Không có chỉ dẫn rõ ràng hơn từ Witten hoặc một trong những tác giả khác của cuốn sách đó, chúng tôi sẽ đoán những gì được dự định.

[1]: Noel van Erp & Pieter van Gelder, (2008),
"Cách diễn giải phân phối Beta trong trường hợp đổ vỡ",
Kỷ yếu của Hội thảo xác suất quốc tế lần thứ 6 , liên kết Darmstadt
pdf

[2]: Yan Guo, (2009),
Phương pháp mới về đánh giá năng lực và tính mạnh mẽ của hệ thống NDE,
Luận án đã nộp cho Trường sau đại học của Đại học bang Wayne, Detroit, Michigan


1
(+1) Một tìm kiếm của toàn bộ cuốn sách chỉ ra rằng không có sự làm rõ nào được đưa ra. Bối cảnh cho thấy "phân phối tỷ lệ cược log" đề cập đến một số mô hình cụ thể, giống như "lognatural" được đề xuất trong câu trước dưới dạng phân phối chung cho tất cả các giá trị không âm (!).
whuber

1
@whuber Tôi đồng ý với đặc điểm của bạn về những gì trong cuốn sách - Tôi không có ý kiến ​​rằng những nhận xét của tôi liên quan đến việc sử dụng thuật ngữ này trong các bối cảnh khác để đề cập đến phân phối mẫu ngụ ý rằng đó là ý định trong cuốn sách, nhưng chỉ là một dấu hiệu của nó là một thuật ngữ có nhiều ý nghĩa. Về các đoạn trong câu hỏi, lời khuyên của tôi cho những người học tài liệu này (như về nhiều thứ) sẽ là đọc nhiều hơn một cuốn sách.
Glen_b -Reinstate Monica

2

Tôi là một kỹ sư phần mềm (không phải là một nhà thống kê) và gần đây tôi đã đọc một cuốn sách có tên Giới thiệu về Học thống kê. Với các ứng dụng trong R.

Tôi nghĩ những gì bạn đang đọc là log-odds hoặc logit. trang 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Cuốn sách rực rỡ - Tôi đọc nó từ bìa này sang bìa khác. Hi vọng điêu nay co ich


Cảm ơn bạn cho con trỏ. Giả sử phân phối tỷ lệ cược log giống như "phân phối logistic", tôi đã tra cứu phần sau trên Wikipedia. Dường như PDF của nó không có giới hạn dưới hoặc trên. Vì vậy, tôi vẫn tự hỏi tại sao sách giáo khoa mà tôi trích dẫn ban đầu nói rằng "Các thuộc tính số được giới hạn ở trên và dưới có thể được mô hình hóa" với phân phối này.
stackoverflowuser2010

Tôi nghĩ rằng nó có thể nói về đầu ra của hàm trong đó giới hạn là 0,0 (không thể) đến 1.0 (xác định). (Tôi có thể sai hoàn toàn ở đây)
JasonEdinburgh

Có thể mô hình của bạn có thể tạo ra kết quả dương tính hoặc âm tính lớn tùy ý. Chúng có thể không được giải thích theo phạm vi giới hạn như xác suất, nhưng có thể hiểu là tỷ lệ cược log sử dụng hàm logit và hàm nghịch đảo của hàm logistic.
Henry
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.