Tên của hiện tượng trên các lô CDF ước tính của dữ liệu bị kiểm duyệt


8

Tập dữ liệu của tôi chứa hai biến (tương quan mạnh) (thời gian chạy của thuật toán) và (số nút được kiểm tra, bất cứ điều gì). Cả hai đều có mối tương quan mạnh mẽ bởi thiết kế, bởi vì thuật toán có thể quản lý khoảng nút mỗi giây.n ctnc

Thuật toán được chạy trên một số vấn đề, nhưng nó đã bị chấm dứt nếu một giải pháp chưa được tìm thấy sau khi một số thời gian chờ . Vì vậy, dữ liệu được kiểm duyệt đúng về biến thời gian.T

Tôi vẽ hàm mật độ tích lũy ước tính (hoặc số tích lũy) của biến cho các trường hợp thuật toán đã chấm dứt với . Điều này cho thấy có bao nhiêu vấn đề có thể được giải quyết bằng cách mở rộng tại hầu hết nút và rất hữu ích để so sánh các cấu hình khác nhau của thuật toán. Nhưng trong cốt truyện cho , có những cái đuôi ngộ nghĩnh ở phía trên sẽ rất sắc nét, như có thể thấy trong hình ảnh dưới đây. So sánh ecdf cho biến , trên đó kiểm duyệt đã được thực hiện.t < T n n tnt<Tnnt

Số lượng tích lũy củan

ecdf của n

Số lượng tích lũy củat

ecdf của t

Mô phỏng

Tôi hiểu tại sao điều này xảy ra và có thể tái tạo hiệu ứng trong một mô phỏng bằng mã R sau đây . Nó gây ra bởi sự kiểm duyệt đối với một biến tương quan mạnh dưới sự bổ sung của một số nhiễu.

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

dữ liệu tổng hợp

Hiện tượng này được gọi như thế nào? Tôi cần nêu trong một ấn phẩm rằng những người hâm mộ này là hiện vật của thí nghiệm và không phản ánh sự phân phối thực sự.


Đây có phải là do chấm dứt sớm?
lcrmorin

Bạn có thể mô hình hóa dữ liệu của bạn với một phân phối tham số? Bạn có thể thử chỉ sử dụng dữ liệu không bị kiểm duyệt. Nếu nó hoạt động, thì bạn có thể sử dụng khả năng tối đa trên toàn bộ tập dữ liệu để có được ước tính về CDF thực sự và loại bỏ hành vi trong biểu đồ của bạn.
soakley

@soakly Các mẫu không phải là iis. Thuật toán chạy trên một tập hợp các vấn đề điểm chuẩn và về cơ bản xác định hình dạng của đường cong (cùng với các đặc điểm của cấu hình thuật toán).
ziggystar

@lmorin Tôi không biết chính xác ý nghĩa của việc chấm dứt sớm là gì, nhưng dữ liệu được kiểm duyệt hoàn toàn đúng về biến thời gian.
ziggystar

1
Các đại lượng trong hai màn hình đầu tiên không thực sự là ECDF, vì các giá trị được thực hiện bởi ECDF nằm trên [0,1]. Sẽ là tốt hơn để gắn nhãn cho họ với một tiêu đề chính xác hơn.
Glen_b -Reinstate Monica

Câu trả lời:


1

Tôi không phải là một chuyên gia, nhưng tôi tin rằng những gì bạn nhìn thấy tương tự như cắt mềm .

Sắp xếp cắt (nén nén)

Có một chút khác biệt, bởi vì việc cắt của bạn là do quá trình không xác định, trong đó tín hiệu của bạn bị cắt khi cộng với nhiễu ngẫu nhiên vượt quá ngưỡng, thay vì một thiết bị làm giảm tín hiệu tương tự. Tôi có một cây đàn guitar làm điều này, nó làm dịu "cú đấm" khi chơi guitar điện:

Bản demo máy nén Keeyley

Có vẻ như một sự tương tự tốt. Tôi không chắc chắn nếu có một tên trong cộng đồng thống kê.


0

Tôi nghi ngờ bạn chạy vào gia đình phân phối không đối xứng ổn định.
Đầu tiên, vẽ biểu đồ ecdf của bạn trong một biểu đồ log-log. Áp dụng cách tiếp cận tham số, giả sử Phân phối Pareto, nhập mô tả hình ảnh ở đây

Ft(t)=1(tmint)a for t>tmintmin
α^


αα^=α^(T)T

Hiện tượng đuôi nặng là phổ biến trong khoa học máy tính, đặc biệt là khi các nút cạnh tranh với các tài nguyên được chia sẻ theo kiểu ngẫu nhiên, ví dụ như mạng máy tính.


2
Tôi không nghĩ vấn đề của tôi nằm ở việc tìm ra mô hình chính xác. Bạn thấy cốt truyện thứ hai trong câu hỏi của tôi? Phân phối thực sự sẽ hiển thị dưới dạng một dòng, nhưng do hiệu ứng kiểm duyệt, nó trở thành một đường cong. Tôi muốn biết làm thế nào để gọi hiện tượng này.
ziggystar

Các nút của bạn chia sẻ một tài nguyên chung, cpu của bạn gián tiếp được phản ánh theo biến động hoàn thành thời gian và các chấm đỏ và hồng này nằm khá xa khối lượng chính của phân phối tương ứng là điều khiến tôi nghi ngờ. Các nút xử lý kéo dài sẽ ảnh hưởng đến các nút nghỉ, tôi suy đoán rằng cuối cùng chúng sẽ đẩy khối lượng ra khỏi trung tâm của nó.
aarsakian

2
Tôi không chắc liệu bạn có hiểu đúng tên miền hay không: Vấn đề là tìm kiếm. Thuật toán xem xét một nút tại một thời điểm để tìm một nút giải pháp. Một thuật toán tốt hơn phải xem xét ít nút hơn trước khi tìm ra giải pháp (vì nó chọn các nút thông minh hơn). Nhìn vào một nút đòi hỏi một chút thời gian và vì vậy số lượng nút được kiểm tra và thời gian sử dụng sẽ tương quan khá mạnh.
ziggystar

-1

nói rằng phân phối của bạn bị cắt ngắn , giống như cắt ngắn bình thường

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.