Làm cách nào để tìm ra loại phân phối nào thể hiện dữ liệu này theo thời gian phản hồi ping?


22

Tôi đã lấy mẫu một quy trình trong thế giới thực, thời gian ping mạng. "Chuyến đi khứ hồi" được tính bằng mili giây. Kết quả được vẽ trong một biểu đồ:

văn bản thay thế

Thời gian Ping có giá trị tối thiểu, nhưng đuôi trên dài.

Tôi muốn biết phân phối thống kê này là gì và làm thế nào để ước tính các tham số của nó.

Mặc dù phân phối không phải là phân phối bình thường, tôi vẫn có thể hiển thị những gì tôi đang cố gắng đạt được.

Phân phối bình thường sử dụng chức năng:

văn bản thay thế

với hai tham số

  • (trung bình)
  • σ 2  (phương sai)

Ước tính tham số

Các công thức để ước tính hai tham số là:

văn bản thay thế

Áp dụng các công thức này dựa trên dữ liệu tôi có trong Excel, tôi nhận được:

  • = 10.9558 (trung bình)
  • σ 2  = 67,4578 (sai)

Với các tham số này, tôi có thể vẽ phân phối " bình thường " trên dữ liệu được lấy mẫu của mình:

văn bản thay thế

Rõ ràng đó không phải là một bản phân phối bình thường. Một phân phối bình thường có đuôi trên và dưới vô hạn, và đối xứng. Phân phối này không đối xứng.


  • Những nguyên tắc nào tôi sẽ áp dụng; lưu đồ nào tôi sẽ áp dụng để xác định loại phân phối này là gì?
  • Cho rằng phân phối không có đuôi âm và đuôi dương dài: phân phối nào khớp với đó?
  • Có một tài liệu tham khảo phù hợp với phân phối cho các quan sát bạn đang thực hiện?

Và cắt theo đuổi, công thức cho phân phối này là gì và các công thức để ước tính các tham số của nó là gì?


Tôi muốn nhận phân phối để tôi có thể nhận được giá trị "trung bình", cũng như "mức chênh lệch": văn bản thay thế

Tôi thực sự đang vẽ biểu đồ trong phần mềm và tôi muốn phủ lên bản phân phối lý thuyết:

văn bản thay thế

Lưu ý: Đăng chéo từ math.stackexchange.com


Cập nhật : 160.000 mẫu:

nhập mô tả hình ảnh ở đây

Tháng và tháng, và vô số phiên lấy mẫu, tất cả đều cho cùng một phân phối. Có phải là một đại diện toán học.


Harvey đề nghị đưa dữ liệu lên thang đo log. Đây là mật độ xác suất trên thang đo log:

nhập mô tả hình ảnh ở đây

Tags : lấy mẫu, thống kê, ước lượng tham số, phân phối chuẩn


Đó không phải là một câu trả lời, mà là một phụ lục cho câu hỏi. Đây là các thùng phân phối. Tôi nghĩ rằng người thích phiêu lưu hơn có thể muốn dán chúng vào Excel (hoặc bất kỳ chương trình nào bạn biết) và có thể khám phá bản phân phối.

Các giá trị được chuẩn hóa

Time    Value
53.5    1.86885613545469E-5
54.5    0.00396197500716395
55.5    0.0299702228922418
56.5    0.0506460012708222
57.5    0.0625879919763777
58.5    0.069683415770654
59.5    0.0729476844872482
60.5    0.0508017392821101
61.5    0.032667605247748
62.5    0.025080049337802
63.5    0.0224138145845533
64.5    0.019703973188144
65.5    0.0183895443728742
66.5    0.0172059354870862
67.5    0.0162839664602619
68.5    0.0151688822994406
69.5    0.0142780608748739
70.5    0.0136924859524314
71.5    0.0132751080821798
72.5    0.0121849420031646
73.5    0.0119419907055555
74.5    0.0117114984488494
75.5    0.0105528076448675
76.5    0.0104219877153857
77.5    0.00964952717939773
78.5    0.00879608287754009
79.5    0.00836624596638551
80.5    0.00813575370967943
81.5    0.00760001495084908
82.5    0.00766853967581576
83.5    0.00722624372375815
84.5    0.00692099722163388
85.5    0.00679017729215205
86.5    0.00672788208763689
87.5    0.00667804592402477
88.5    0.00670919352628235
89.5    0.00683378393531266
90.5    0.00612361860383988
91.5    0.00630427469693383
92.5    0.00621706141061261
93.5    0.00596788059255199
94.5    0.00573115881539439
95.5    0.0052950923837883
96.5    0.00490886211579433
97.5    0.00505214108617919
98.5    0.0045413204091549
99.5    0.00467214033863673
100.5   0.00439181191831853
101.5   0.00439804143877004
102.5   0.00432951671380337
103.5   0.00419869678432154
104.5   0.00410525397754881
105.5   0.00440427095922156
106.5   0.00439804143877004
107.5   0.00408656541619426
108.5   0.0040616473343882
109.5   0.00389345028219728
110.5   0.00392459788445485
111.5   0.0038249255572306
112.5   0.00405541781393668
113.5   0.00393705692535789
114.5   0.00391213884355182
115.5   0.00401804069122759
116.5   0.0039432864458094
117.5   0.00365672850503968
118.5   0.00381869603677909
119.5   0.00365672850503968
120.5   0.00340131816652754
121.5   0.00328918679840026
122.5   0.00317082590982146
123.5   0.00344492480968815
124.5   0.00315213734846692
125.5   0.00324558015523965
126.5   0.00277213660092446
127.5   0.00298394029627599
128.5   0.00315213734846692
129.5   0.0030649240621457
130.5   0.00299639933717902
131.5   0.00308984214395176
132.5   0.00300885837808206
133.5   0.00301508789853357
134.5   0.00287803844860023
135.5   0.00277836612137598
136.5   0.00287803844860023
137.5   0.00265377571234566
138.5   0.00267246427370021
139.5   0.0027472185191184
140.5   0.0029465631735669
141.5   0.00247311961925171
142.5   0.00259148050783051
143.5   0.00258525098737899
144.5   0.00259148050783051
145.5   0.0023485292102214
146.5   0.00253541482376687
147.5   0.00226131592390018
148.5   0.00239213585338201
149.5   0.00250426722150929
150.5   0.0026288576305396
151.5   0.00248557866015474
152.5   0.00267869379415173
153.5   0.00247311961925171
154.5   0.00232984064886685
155.5   0.00243574249654262
156.5   0.00242328345563958
157.5   0.00231738160796382
158.5   0.00256656242602444
159.5   0.00221770928073957
160.5   0.00241705393518807
161.5   0.00228000448525473
162.5   0.00236098825112443
163.5   0.00216787311712744
164.5   0.00197475798313046
165.5   0.00203705318764562
166.5   0.00209311887170926
167.5   0.00193115133996985
168.5   0.00177541332868196
169.5   0.00165705244010316
170.5   0.00160098675603952
171.5   0.00154492107197588
172.5   0.0011150841608213
173.5   0.00115869080398191
174.5   0.00107770703811221
175.5   0.000946887108630378
176.5   0.000853444301857643
177.5   0.000822296699600065
178.5   0.00072885389282733
179.5   0.000753771974633393
180.5   0.000766231015536424
181.5   0.000566886361087923

1
Chỉ cần nhìn vào nó, nó trông giống như một phân phối bình thường sai lệch. Bạn có chắc chắn các ngoại lệ là cần thiết cho phân tích của bạn?
Brandon Bertelsen

1
Phân tích của tôi sẽ chỉ bao gồm việc vẽ một biểu đồ đẹp trên các thanh :) Nhưng sẽ thật gian lận khi giả vờ không có đuôi trên cùng ...
Ian Boyd

Bạn đang nhận được rất nhiều ý tưởng hữu ích cho các bản phân phối khác nhau. Để trả lời câu hỏi của bạn "Tôi muốn biết phân phối thống kê này là gì", phương pháp thông thường là một âm mưu QQ, dễ dàng tạo ra trong R.
Mike Dunlavey

1
Tất nhiên, nếu tất cả những gì bạn muốn là một đường cong mượt mà, hãy lấy tất cả dữ liệu của bạn, sắp xếp nó để tạo một CDF theo kinh nghiệm, làm mịn nó và lấy đạo hàm đầu tiên bằng số. Đó là đường cong của bạn.
Mike Dunlavey

Câu trả lời:


12

Weibull đôi khi được sử dụng để mô hình hóa thời gian ping. hãy thử một phân phối weibull. Để phù hợp với một trong R:

x<-rweibull(n=1000,shape=2,scale=100)
#generate a weibull (this should be your data).
hist(x)
#this is an histogram of your data.
library(survival)
a1<-survreg(Surv(x,rep(1,1000))~1,dist='weibull')
exp(a1$coef) #this is the ML estimate of the scale parameter
1/a1$scale     #this is the ML estimate of the shape parameter

Nếu bạn đang tự hỏi về những cái tên ngớ ngẩn (ví dụ: $ scale để có được hình dạng nghịch đảo) thì đó là vì "Survreg" sử dụng một tham số khác (nghĩa là nó được tham số hóa theo nghĩa "nghịch đảo weibull", nó trở nên hài hước hơn trong khoa học tính toán) .


10

Hãy để tôi hỏi một câu hỏi cơ bản hơn: bạn muốn làm gì với thông tin phân phối này?

Lý do tôi hỏi là bởi vì nó có thể có ý nghĩa hơn để xấp xỉ phân phối với một loại công cụ ước tính mật độ hạt nhân, thay vì nhấn mạnh rằng nó phù hợp với một trong các phân phối gia đình theo hàm mũ (có thể thay đổi). Bạn có thể trả lời gần như tất cả các loại câu hỏi giống nhau mà phân phối chuẩn sẽ cho phép bạn trả lời và bạn không phải lo lắng (nhiều) về việc bạn đã chọn đúng mô hình hay chưa.

Nhưng nếu có một thời gian tối thiểu cố định và bạn phải có một số loại phân phối được tham số hóa nhỏ gọn để đi cùng với nó, thì chỉ cần đánh dấu nó là tôi sẽ trừ đi mức tối thiểu và phù hợp với một gamma, như những người khác đã đề xuất.


tôi muốn vẽ biểu đồ phân bố lý thuyết trên nó, tìm ra trung bình , trung bình , độ lệch chuẩn . Chủ yếu tôi muốn trung bình, nhưng thực sự tôi muốn vẽ đường cong lý thuyết.
Ian Boyd

1
Tôi nghĩ Rich có ý nghĩa gì đó như "Bạn đang cố gắng trả lời loại câu hỏi nào?" Xác định phân phối dữ liệu là một câu hỏi, vâng, nhưng chắc chắn có một số câu hỏi khác mà bạn mong đợi có thể trả lời một khi bạn biết phân phối. Nó là gì?
Matt Parker

@MattParker tôi muốn biết thời gian "cao điểm" là gì.
Ian Boyd

2
@IanBoyd Tôi không nghĩ bạn thực sự cần biết phân phối lý thuyết để có được điều đó - liệu trung bình có hoạt động không? Và để tạo bóng trong 'độ lệch chuẩn' liền kề, bạn chỉ cần sử dụng lượng tử. Nếu mục tiêu của bạn là truyền đạt thời gian hầu hết các ping, tôi sẽ không thấy có gì sai khi báo cáo trung vị với các lượng tử 25% và 75%. Hoặc, nếu bạn muốn mô phỏng 68% nằm trong phạm vi 1 SD của giá trị trung bình trong phân phối chuẩn, thì lượng tử 16% và 84%.
Matt Parker

8

Không có lý do để mong đợi rằng bất kỳ tập dữ liệu trong thế giới thực nào sẽ phù hợp với một hình thức phân phối đã biết ... đặc biệt là từ một nguồn dữ liệu lộn xộn đã biết như vậy.

Những gì bạn muốn làm với câu trả lời sẽ phần lớn chỉ ra một cách tiếp cận. Ví dụ: nếu bạn muốn biết thời điểm ping thay đổi đáng kể, thì xu hướng phân phối theo kinh nghiệm có thể là một cách để đi. Nếu bạn muốn xác định các ngoại lệ, các kỹ thuật khác có thể phù hợp hơn.


Thực sự tôi muốn vẽ đường cong toán học theo phân phối. Cấp nó có thể không phải là một phân phối được biết đến; nhưng tôi không thể tưởng tượng rằng điều này đã không được điều tra trước đây.
Ian Boyd

4
Tra cứu 'ước tính mật độ'.
PeterR

6

Một cách tiếp cận đơn giản hơn có thể là chuyển đổi dữ liệu. Sau khi biến đổi, nó có thể gần với Gaussian.

Một cách phổ biến để làm như vậy là bằng cách lấy logarit của tất cả các giá trị.

Tôi đoán là trong trường hợp này, sự phân phối đối ứng của thời gian khứ hồi sẽ đối xứng hơn và có lẽ gần với Gaussian. Bằng cách lấy đối ứng, về cơ bản, bạn đang lập bảng vận tốc thay vì thời gian, do đó vẫn dễ dàng diễn giải kết quả (không giống như logarit hoặc nhiều biến đổi).


4

xGamma(k,θ)

Cập nhật- Quy trình dự toán

θ^k^k^


tôi thực sự đã nỗ lực để tránh đề cập đến việc phân phối Gamma. Tôi đã thấy nó trên Wikipedia, tôi thực sự không thể tìm thấy công thức phân phối hoặc các công thức để ước tính các tham số trong công thức đó. Và sau đó tôi đã thực sự lo lắng khi thấy "Không có giải pháp dạng đóng cho k." Và dù sao tôi cũng đã thử nó với một số công thức - nhưng khi bạn nhận được một gói trở lại sau 0ms, ln (0) sẽ nổ tung.
Ian Boyd

Bởi vì trong khi tôi hiểu rõ về sự phân phối bình thường, từ những ngày còn học đại học, tôi đã vượt qua đầu mình khi chúng ta có được những thứ như "phân kỳ Kullback tựa Leibler" .
Ian Boyd

k

Vâng, về mặt kỹ thuật nó nên được gọi là <1ms. Và âm mưu này không bao gồm số không, bởi vì nó đi qua một liên kết độ trễ cao hơn (modem). Nhưng tôi có thể chạy chương trình cũng như qua một liên kết nhanh hơn (tức là ping một máy khác trên mạng LAN), và thường xuyên nhận được <1ms1ms, với ít lần xuất hiện hơn 2ms. Thật không may, Windows chỉ cung cấp độ phân giải 1ms. tôi có thể tự điều chỉnh thời gian bằng cách sử dụng bộ đếm hiệu suất cao, nhận được các bản nhạc; nhưng tôi vẫn hy vọng có thể bỏ chúng vào thùng (để tiết kiệm bộ nhớ). Có lẽ tôi nên thêm 1ms vào mọi thứ ...1ms ==> (0..1]
Ian Boyd

chỉ đơn giản là phù hợp các gamma với R: docs.google.com/
Kẻ

4

Một cách tiếp cận khác, được chứng minh hợp lý hơn bằng các cân nhắc của mạng, là cố gắng khớp một tổng số mũ độc lập với các tham số khác nhau. Một giả định hợp lý sẽ là mỗi nút trong đường dẫn của ping độ trễ sẽ là một số mũ độc lập, với các tham số khác nhau. Tham chiếu đến hình thức phân phối của tổng số mũ độc lập với các tham số khác nhau là http://www.math.bme.hu/~balazs/sumapi.pdf .

Bạn có lẽ cũng nên nhìn vào thời gian ping so với số bước nhảy.


3

Nhìn vào nó tôi sẽ nói một phân phối lệch chuẩn hoặc có thể là phân phối không bình thường có thể phù hợp với nó.

Trong R, bạn có thể sử dụng snthư viện để đối phó với phân phối và sử dụng thông thườngnls hoặc mleđể thực hiện một hình vuông nhỏ nhất phi tuyến tính hoặc phù hợp với khả năng tối đa hóa dữ liệu của bạn.

===

EDIT: đọc lại câu hỏi / bình luận của bạn Tôi sẽ thêm một cái gì đó nữa

Nếu những gì bạn quan tâm chỉ là vẽ một biểu đồ đẹp trên các thanh mà quên đi các bản phân phối, thì cuối cùng ai cũng quan tâm nếu bạn không làm gì với nó. Chỉ cần vẽ B-spline qua điểm dữ liệu của bạn và bạn đã ổn.

Ngoài ra, với cách tiếp cận này, bạn tránh phải thực hiện thuật toán phù hợp MLE (hoặc tương tự) và bạn được bảo vệ trong trường hợp phân phối không sai lệch (hoặc bất cứ điều gì bạn chọn để vẽ)


+1 tôi cũng nghĩ nhị thức, khi tôi lần đầu tiên nhìn thấy biểu đồ. (Không chắc chắn lý do tại sao điều này đã bị hạ cấp).
doug

Vâng, nó không chỉ là dòng đẹp. Tôi cũng muốn có thể chỉ ra "đỉnh" thực sự trong đường cong, cũng như bóng râm trong một đơn vị độ lệch chuẩn ở hai bên.
Ian Boyd

@IanBoyd: Một B-spline sẽ đủ cho những điều đó, đặc biệt là khi biểu đồ có độ phân giải tương đối thấp. Sau đó, nó luôn phụ thuộc vào những gì bạn có nghĩa là "đỉnh" thực sự.
nico

2

Dựa trên nhận xét của bạn "Thực sự tôi muốn vẽ đường cong toán học theo phân phối. Được cấp nó có thể không phải là phân phối đã biết; nhưng tôi không thể tưởng tượng rằng điều này chưa được điều tra trước đây." Tôi đang cung cấp một chức năng mà phù hợp.

Hãy xem ExtremeValueDistribution

Tôi đã thêm một biên độ và làm cho hai betas khác nhau. Tôi cho rằng trung tâm chức năng của bạn gần với 9,5 rồi 10.

Hàm mới: a E ^ (- E ^ (((- x + alpha) / b1)) + (-x + alpha) / b2) / ((b1 + b2) / 2)

{alpha-> 9.5, b2 -> 0.899093, a -> 5822.2, b1 -> 0.381825}

Wolfram alpha : lô 11193.8 E ^ (- E ^ (1.66667 (10 - x)) + 1.66667 (10 - x)), x 0..16, y từ 0 đến 4500

Một số điểm khoảng 10ms:
{{9, 390.254}, {10, 3979.59}, {11, 1680.73}, {12, 562.838}}

Đuôi không phù hợp hoàn hảo mặc dù. Đuôi có thể phù hợp hơn nếu b2 thấp hơn và đỉnh được chọn để gần hơn với 9.


1

Phân phối có vẻ log-normal với tôi.

Bạn có thể điều chỉnh dữ liệu của mình bằng hai tham số: tỷ lệ và vị trí. Chúng có thể được trang bị theo cách tương tự như phân phối bình thường bằng cách sử dụng tối đa hóa kỳ vọng.

http://en.wikipedia.org/wiki/Log-n normal_distribution

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.