Dữ liệu của tôi theo phân phối nào?


31

Hãy để chúng tôi nói rằng tôi có 1000 thành phần và tôi đã thu thập dữ liệu về số lần các bản ghi này bị lỗi và mỗi lần chúng ghi lại một lỗi, tôi cũng theo dõi xem nhóm của tôi mất bao lâu để khắc phục sự cố. Nói tóm lại, tôi đã ghi lại thời gian để sửa chữa (tính bằng giây) cho mỗi 1000 thành phần này. Dữ liệu được đưa ra ở cuối câu hỏi này.

Tôi lấy tất cả các giá trị này và vẽ biểu đồ Cullen và Frey trong R bằng cách sử dụng descdisttừ fitdistrplusgói. Hy vọng của tôi là để hiểu nếu thời gian để sửa chữa theo một phân phối cụ thể. Đây là âm mưu boot=500để có được các giá trị bootstrapping:

nhập mô tả hình ảnh ở đây

Tôi thấy rằng âm mưu này đang nói với tôi rằng quan sát rơi vào phân phối beta (hoặc có thể không, trong trường hợp nào, nó tiết lộ điều gì?) Bây giờ, xem xét rằng tôi là một kiến ​​trúc sư hệ thống chứ không phải là một nhà thống kê, điều này là gì tiết lộ ? (Tôi đang tìm kiếm một trực giác thực tế thực tế đằng sau những kết quả này).

CHỈNH SỬA:

QQplot sử dụng qqPlotchức năng trong gói car. Trước tiên tôi ước tính các tham số hình dạng và tỷ lệ bằng cách sử dụng fitdistrhàm.

> fitdistr(Data$Duration, "weibull")
      shape          scale    
  3.783365e-01   5.273310e+03 
 (6.657644e-03) (3.396456e+02)

Sau đó, tôi đã làm điều này:

qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)

nhập mô tả hình ảnh ở đây

EDIT 2:

Cập nhật với một QQplot logic.

nhập mô tả hình ảnh ở đây

Đây là dữ liệu của tôi:

c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L, 
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L, 
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L, 
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L, 
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L, 
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L, 
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L, 
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L, 
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L, 
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L, 
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L, 
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L, 
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L, 
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L, 
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L, 
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L, 
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L, 
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L, 
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L, 
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L, 
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L, 
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L, 
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L, 
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L, 
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L, 
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L, 
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L, 
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L, 
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L, 
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L, 
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L, 
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L, 
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L, 
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L, 
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L, 
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L, 
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L, 
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L, 
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L, 
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L, 
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L, 
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L, 
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L, 
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L, 
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L, 
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L, 
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L, 
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L, 
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L, 
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L, 
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L, 
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L, 
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L, 
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L, 
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L, 
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 
301L, 318L, 3806L, 3778L, 3699L, 3691L)

7
Sơ đồ đó không cho bạn biết bản phân phối của bạn là beta. Nó nói rằng độ lệch và kurtosis phù hợp với phiên bản beta - chẳng hạn, nó có thể dễ dàng trở thành bất thường, nhưng có lẽ nó không thực sự là bất kỳ bản phân phối nào có tên trên sơ đồ đó.
Glen_b -Reinstate Monica

@Glen_b: Cảm ơn bạn. Tôi chỉ bao gồm một qqplot cho lognatural là tốt nhưng ngay cả điều này dường như không phù hợp. Có bất cứ điều gì khác mà bạn khuyên tôi nên thử không? Tôi bao gồm dữ liệu của tôi trong câu hỏi.
Truyền thuyết

4
Tôi tò mò tại sao bạn gọi đây là cốt truyện "Cullen Frey", khi nó được Rhind giới thiệu vào năm 1909 (và được biết đến qua nhiều thế hệ sau đó), 90 năm trước khi Cullen và Frey viết bất cứ điều gì cùng nhau! Xem bài viết Wikipedia về hệ thống phân phối Pearson .
whuber

3
Chúng ta đang thấy Luật Eponymy của Stigler đang hoạt động. :-)
whuber

3
@whuber Đó là một âm mưu của Cullen và Frey, không phải là hình dung của Rhind về không gian Pearson. Nó có các tính năng khác biệt rõ ràng, chẳng hạn như mô tả các giá trị tăng cường, lớp phủ phân phối đồng đều, v.v. Nó xây dựng trên biểu đồ của Rhind, nhưng mọi thứ trong khoa học đều xây dựng trên một cái gì đó trước nó (và chúng tôi không muốn phải quy tất cả mọi thứ cho các nhà phát minh ban đầu, chưa biết về lửa và bánh xe ...).
Hack-R

Câu trả lời:


34

Vấn đề là dữ liệu thực không nhất thiết phải tuân theo bất kỳ phân phối cụ thể nào bạn có thể đặt tên ... và thực sự sẽ rất ngạc nhiên nếu nó xảy ra.

Vì vậy, trong khi tôi có thể đặt tên cho hàng tá khả năng, thì quá trình thực tế tạo ra những quan sát này có lẽ sẽ không phải là bất cứ điều gì tôi có thể đề xuất. Khi kích thước mẫu tăng, bạn có thể sẽ từ chối mọi phân phối nổi tiếng.

Phân phối tham số thường là một tiểu thuyết hữu ích, không phải là một mô tả hoàn hảo.

Ít nhất hãy xem xét dữ liệu nhật ký, đầu tiên là trong một qqplot bình thường và sau đó là ước tính mật độ hạt nhân để xem nó xuất hiện như thế nào:

nhật ký qqnorm (x)

Lưu ý rằng trong một âm mưu QQ được thực hiện theo cách này, các phần dốc nhất là nơi bạn có xu hướng nhìn thấy các đỉnh. Điều này có một gợi ý rõ ràng về một đỉnh gần 6 và khác về 12.3. Ước tính mật độ hạt nhân của nhật ký cho thấy điều tương tự:

ước tính mật độ hạt nhân

Trong cả hai trường hợp, dấu hiệu cho thấy rằng phân phối thời gian đăng nhập là sai lệch, nhưng nó không rõ ràng là không chính thống. Rõ ràng đỉnh chính là đâu đó khoảng 5 phút. Có thể là có một đỉnh nhỏ thứ hai trong mật độ thời gian đăng nhập, dường như ở đâu đó trong khu vực có lẽ là 60 giờ. Có lẽ có hai "loại" sửa chữa rất khác nhau về chất lượng và phân phối của bạn đang phản ánh sự pha trộn của hai loại. Hoặc chỉ có thể một lần sửa chữa đạt được cả ngày làm việc, nó có xu hướng chỉ mất nhiều thời gian hơn (nghĩa là thay vì phản ánh một đỉnh chỉ trong hơn một tuần, nó có thể phản ánh một đỉnh chống lại chỉ hơn một ngày - một lần bạn nhận được lâu hơn chỉ dưới một ngày để sửa chữa, công việc có xu hướng 'chậm lại').

Ngay cả nhật ký của nhật ký thời gian cũng có phần sai lệch. Chúng ta hãy xem xét một sự biến đổi mạnh mẽ hơn, trong đó đỉnh thứ hai khá rõ ràng - trừ đi nghịch đảo của gốc thứ tư của thời gian:

lịch sử -1 / (x ^ 0,25)

Các dòng được đánh dấu là ở 5 phút (màu xanh) và 60 giờ (màu xanh lá cây nét đứt); như bạn thấy, có một đỉnh chỉ dưới 5 phút và một đỉnh khác ở đâu đó trên 60 giờ. Lưu ý rằng "đỉnh" trên nằm ngoài khoảng phân vị thứ 95 và không nhất thiết phải gần với mức cao nhất trong phân phối chưa được dịch.

Ngoài ra còn có một gợi ý về một lần ngâm khác khoảng 7,5 phút với mức cực đại trong khoảng từ 10 đến 20 phút, điều này có thể gợi ý một xu hướng rất nhỏ là 'làm tròn' trong khu vực đó (không nhất thiết phải có bất cứ điều gì xảy ra; / đỉnh điểm trong thời gian công việc vốn có ở đó, nó thậm chí có thể đơn giản như một chức năng của khả năng con người tập trung trong một khoảng thời gian không bị gián đoạn trong hơn một vài phút.)

Nó trông giống như một hỗn hợp hai thành phần (hai đỉnh) hoặc có thể là ba thành phần của các phân phối lệch phải sẽ mô tả quá trình một cách hợp lý nhưng sẽ không phải là một mô tả hoàn hảo.

Gói logsplinedường như chọn bốn đỉnh trong nhật ký (thời gian):

lô cốt

với các đỉnh gần 30, 270, 900 và 270K giây (30 giây, 4,5m, 15m và 75h).

Sử dụng logspline với các biến đổi khác thường tìm thấy 4 đỉnh nhưng với các trung tâm hơi khác nhau (khi được dịch sang các đơn vị ban đầu); điều này được mong đợi với các biến đổi.


2
+1 Đây là một mỏ vàng thông tin của tôi. Tôi đang cố gắng tiêu hóa mọi thứ bạn đã viết và cho đến nay điều này đã dạy tôi cách thực sự tiếp cận loại vấn đề này. Điểm của sự chuyển đổi mạnh mẽ hơn là gì? Tôi có thể hỏi làm thế nào bạn nghĩ ra điều đó? Đó có phải là kinh nghiệm hay có một cách chính thức hơn để chọn một chuyển đổi không thông thường như vậy? Xin tha thứ cho sự thiếu hiểu biết của tôi nếu đây là sự khôn ngoan phổ biến trong cộng đồng thống kê. Nhưng tôi sẽ rất biết ơn nếu bạn có thể chỉ cho tôi một tài liệu tham khảo tốt để tìm hiểu loại công việc "thám tử" này mà tôi cảm thấy tuyệt vời.
Truyền thuyết

3
Tham chiếu đúng đến EDA: Tukey, JW (1977). Phân tích dữ liệu thăm dò . Addison-Wesley, Đọc, MA.
Glen_b -Reinstate Monica

3
Như đã đề cập trong câu trả lời ở trên, bạn có thể thử lắp một bản phân phối hỗn hợp. Đây là một bài báo sử dụng các giống lai này cho tốc độ gió - Tôi nghĩ rằng một số phân phối là sự kết hợp của 3 phân phối khác. journal-ijeee.com/content/3/1/27
rbatt

2
Đối với một hỗn hợp, vấn đề là tìm ra có bao nhiêu thành phần bạn muốn, phân phối hoặc phân phối nào bạn sẽ lấy một hỗn hợp (đó là những gì bạn đã đăng ban đầu), và sau đó là cách bạn sẽ xác định các tham số của các thành phần và tỷ lệ thành phần. Có một số gói có thể giúp với các nhiệm vụ đó; đây là một bài báo (pdf) về một trong số chúng. Một vài trong số các gói mô hình hỗn hợp được đề cập trong Chế độ xem Nhiệm vụ mô hình hóa hỗn hợp và phân tích cụm ... (ctd)
Glen_b -Reinstate Monica

1
(ctd) ... Một gói ví dụ khác là rebmix . Phân tích của riêng tôi ở trên dựa trên các phương pháp thăm dò đơn giản hơn nhưng hiện tại nó chưa phải là một mô hình hỗn hợp được xác định đầy đủ; nó gợi ý rằng một hỗn hợp 4 thành phần có thể cần thiết. Phần cuối cùng trong câu trả lời của tôi - phần với log-spline là một cách tiếp cận khác (không theo tỷ lệ) để mô hình hóa mật độ phức tạp.
Glen_b -Reinstate Monica

12

Hàm descdist có một tùy chọn để khởi động lại bản phân phối của bạn để hiểu được độ chính xác liên quan đến ước tính được vẽ. Bạn có thể thử nó.

descdist(time_to_repair, boot=1000)

Tôi đoán là dữ liệu của bạn phù hợp với nhiều hơn là chỉ phân phối beta.

Nói chung, phân phối beta là phân phối tỷ lệ hoặc xác suất liên tục. Ví dụ: phân phối giá trị p từ kiểm tra t sẽ là một số trường hợp cụ thể của phân phối beta tùy thuộc vào giả thuyết null có đúng không và mức năng lượng mà phân tích của bạn có.

Tôi thấy rất khó có khả năng phân phối thời gian của bạn để sửa chữa sẽ thực sự là beta. Lưu ý rằng biểu đồ đó chỉ so sánh độ lệch và độ nhiễu của dữ liệu của bạn với phân phối đã chỉ định. Bản beta bị ràng buộc bởi 0 và 1; Tôi sẽ đặt cược dữ liệu của bạn không, nhưng biểu đồ đó không kiểm tra thực tế đó.

Mặt khác, phân phối Weibull là phổ biến cho thời gian trễ. Từ việc đánh dấu con số (không có bốt được vẽ để đánh giá độ không chắc chắn), tôi nghi ngờ dữ liệu của bạn phù hợp với Weibull.

Bạn cũng có thể kiểm tra xem dữ liệu của bạn có phải là Weibull không, tôi tin rằng, sử dụng qqPlot từ gói xe hơi để tạo ra một âm mưu qq .


2
+1 Cảm ơn bạn. Trong thời gian tôi hiểu câu trả lời của bạn, tôi chỉ cập nhật câu hỏi của mình với bootstraptham số được đặt thành 500 trong descdisthàm. Và vâng, bạn đúng rằng các giá trị của tôi không nằm trong [0,1]. Có cách nào tôi có thể chỉ ra thực tế đó (thuộc về weibull) bằng biểu đồ này không? Tôi sẽ cố gắng cập nhật câu hỏi của mình với QQPlot ngay sau đây.
Truyền thuyết

Chỉ cần cập nhật câu hỏi của tôi với một qqPlottừ cargói.
Truyền thuyết

Hừm. Chà, cốt truyện qq không làm cho nó giống như bản phân phối Weibull là phù hợp.
gung - Phục hồi Monica

1
Và một trong những phân phối hợp lý. Bạn có đề nghị xử lý trước mà tôi nên làm với dữ liệu không? Hoặc có cách nào tốt hơn để ước tính phù hợp nhất? Tôi vẫn đang tự hỏi làm thế nào tôi có thể sử dụng biểu đồ Cullen / Frey trong ngữ cảnh của mình.
Truyền thuyết

Ngoài ra, đã cập nhật câu hỏi của tôi với dữ liệu tôi đang sử dụng ở cuối trong trường hợp nó giúp.
Truyền thuyết

3

Đối với giá trị của nó, sử dụng thói quen FindDistribution của Mathicala, logarit rất gần bằng một hỗn hợp của hai phân phối bình thường,

nhập mô tả hình ảnh ở đây

x= =ln(dữ liệu)

f(x)= =0,0585522e-0,33781(x-11,7025)2+0.229776e-0,245814(x-6,66864)2

Sử dụng 3 phân phối để thực hiện phân phối hỗn hợp, đây có thể là

nhập mô tả hình ảnh ở đây

f(x)= =0,560456 Laplace(5,85532,0,59296)+0,312384 LogN normal(2.08338,0.122309)+0.12716 Bình thường(11.6327,1.02011),
{0,472592e-1.68646(5,85532-x)+0,0497292e-0,480476(x-11.6327)2x00,472592e-1.68646(5,85532-x)+0,0497292e-0,480476(x-11.6327)2+1.01893xe-33,4238(ln(x)-2.08338)20<x<5,855320,472592e-1.68646(x-5,85532)+0,0497292e-0,480476(x-11.6327)2+1.01893xe-33,4238(ln(x)-2.08338)2Nếu không thì

thứ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.