Cách sử dụng thống kê CDF và PDF để phân tích


12

Đây có thể là quá nhiều câu hỏi chung nhưng tôi hy vọng tôi có thể tìm thấy sự giúp đỡ ở đây. Tôi đang bắt đầu một công việc RA trong trường đại học của mình và chủ đề của tôi sẽ liên quan đến Phân tích Lưu lượng truy cập Internet. Tôi còn khá mới mẻ với thế giới phân tích nhưng tôi đoán trong thế giới nghiên cứu đây là điều tôi phải làm rất nhiều.

Tôi đã xem qua một vài bài báo và trong rất nhiều bài tôi thấy họ sử dụng Mật độ Xác suất (PDF), CDF, CCDF, v.v. để giải thích kết quả họ đã thu được. Ví dụ: PDF về thời lượng phiên của người dùng, CDF của byte được truyền mỗi ngày, v.v. Tôi đã lấy lớp xác suất và thống kê để tôi hiểu chúng là gì nhưng tôi vẫn bối rối với các trường hợp sẽ chọn đại diện như vậy.

Vì vậy, nếu có bất kỳ ai ở ngoài đó thực hiện các biểu đồ và phân tích như vậy (trong bất kỳ chủ đề nào khác nói chung hoặc điều này), bạn có thể chỉ cho tôi biết trong trường hợp nào tôi sẽ sử dụng một hoặc một trong những cách trình bày này

Câu trả lời:


17

Đó là một phần của vấn đề hương vị và quy ước, nhưng lý thuyết, chú ý đến mục tiêu của bạn và một smidgen của khoa học thần kinh nhận thức [xem tài liệu tham khảo] có thể cung cấp một số hướng dẫn.

Bởi vì pdf và cdf truyền tải cùng một thông tin, sự khác biệt giữa chúng phát sinh từ cách chúng thực hiện: pdf biểu thị xác suất với các khu vực trong khi cdf biểu thị xác suất với khoảng cách (dọc) . Các nghiên cứu cho thấy mọi người so sánh khoảng cách nhanh hơn và chính xác hơn so với họ so sánh các khu vực và họ ước tính sai khu vực một cách có hệ thống. Do đó, nếu mục đích của bạn là cung cấp một công cụ đồ họa để đọc xác suất, bạn nên ưu tiên sử dụng cdf.

Pdf và cdf cũng đại diện cho mật độ xác suất : cái trước làm như vậy bằng chiều cao trong khi cái sau đại diện cho mật độ theo độ dốc . Bây giờ các bảng được quay, bởi vì mọi người là những người ước lượng kém về độ dốc (là tiếp tuyến của một góc; chúng ta có xu hướng nhìn thấy góc đó). Mật độ rất tốt trong việc truyền đạt thông tin về các chế độ, độ nặng của đuôi và khoảng trống. Ưu tiên sử dụng pdf trong các tình huống như vậy và bất cứ nơi nào khác, nơi các chi tiết địa phương của phân phối xác suất cần được nhấn mạnh.

Đôi khi một pdf hoặc cdf cung cấp thông tin lý thuyết hữu ích. Giá trị của nó (hay đúng hơn là nghịch đảo của nó) có liên quan đến các công thức cho các lỗi tiêu chuẩn cho các lượng tử, cực trị và thống kê xếp hạng. Hiển thị pdf chứ không phải là cdf trong các tình huống như vậy. Khi nghiên cứu các mối tương quan đa biến trong một thiết lập không tham số, chẳng hạn như với các công thức , cdf hóa ra hữu ích hơn (có lẽ vì đó là chức năng biến đổi một quy luật xác suất liên tục thành một quy tắc thống nhất).

Một pdf hoặc cdf có thể được liên kết mật thiết với một bài kiểm tra thống kê cụ thể. Các thử nghiệm Kolmogorov-Smirnov (và thống kê KS) có một đại diện đồ họa đơn giản về một bộ đệm dọc xung quanh lũy; nó không có biểu diễn đồ họa đơn giản về mặt pdf (mà tôi biết).

Ccdf (cdf bổ sung) được sử dụng trong các ứng dụng đặc biệt tập trung vào sự sống sót và các sự kiện hiếm. Việc sử dụng nó có xu hướng được thiết lập theo quy ước.

Người giới thiệu

WS Cleveland (1994). Các yếu tố của dữ liệu đồ thị. Hội nghị thượng đỉnh, NJ, Hoa Kỳ: Báo chí Hobart. SỐ 0-9634884-1-4

BD nha (1999). Bản đồ: Thiết kế bản đồ chuyên đề lần thứ 5 Ed. Boston, MA, Hoa Kỳ: WCB McGraw-Hill.

AM MacEachren (2004). Bản đồ hoạt động như thế nào. New York, NY, Hoa Kỳ: Nhà xuất bản Guilford. Mã số 1-57230-040-X


(+1) đặc biệt cho những hiểu biết về khả năng giải thích khoảng cách so với khu vực và độ dốc so với chiều cao.
steffen

8

Tôi đồng ý với câu trả lời của người bán hàng, nhưng có thêm một điểm nhỏ:

CDF có một công cụ ước tính không tham số đơn giản, không cần phải lựa chọn: hàm phân phối theo kinh nghiệm . Đó không phải là khá đơn giản như vậy để ước tính một PDF. Nếu bạn sử dụng biểu đồ, bạn cần chọn chiều rộng thùng và điểm bắt đầu cho thùng thứ nhất. Nếu bạn sử dụng ước tính mật độ hạt nhân, bạn cần chọn hình dạng và băng thông của hạt nhân. Một người đọc nghi ngờ hoặc hoài nghi có thể tự hỏi liệu bạn thực sự đã chọn những thứ này hoàn toàn là một tiên nghiệm hay nếu bạn đã thử một vài giá trị khác nhau và chọn những giá trị mang lại kết quả mà bạn thích nhất.

Đây chỉ là một điểm nhỏ. Những cái mà người tạo ra là quan trọng hơn, vì vậy tôi có lẽ chỉ sử dụng cái này để chọn khi tôi vẫn chưa quyết định sau khi xem xét chúng.


Đó vẫn là một điểm thú vị. Cảm ơn vì đã mang nó lên.
whuber

2

Tôi đoán nó phụ thuộc vào số liệu thống kê hoặc phát hiện bạn sẽ tìm hiểu, nghiên cứu, nghiên cứu hoặc báo cáo. Tôi giả sử bạn sẽ sử dụng những biểu đồ này để thể hiện những phát hiện cho chủ đề đại học của bạn, phải không?

Ví dụ như, nếu bạn muốn trình bày phát hiện của mình về câu nói, 'Người dùng ở lại trên một trang web nào đó trong bao lâu', có thể tốt để hiển thị nó trong CDF vì nó cho thấy thời gian tích lũy mà anh ta dành cho trang web đó, thông qua các trang, v.v. .

Mặt khác, nếu bạn chỉ muốn hiển thị xác suất người dùng nhấp vào liên kết quảng cáo (ví dụ: liên kết Google adwords) thì bạn có thể muốn trình bày dưới dạng PDF vì nó có thể sẽ là một đường cong chuông phân phối bình thường và bạn có thể hiển thị xác suất của bệnh gan đó.

Hy vọng điều này sẽ giúp, Jeff

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.