tìm các phần tử k nhỏ nhất trong mảng trong O (k)

12

Đây là một câu hỏi thú vị tôi đã tìm thấy trên web. Cho một mảng chứa n số (không có thông tin về chúng), chúng ta nên xử lý trước mảng theo thời gian tuyến tính để có thể trả về k phần tử nhỏ nhất trong thời gian O (k), khi chúng ta được cấp số 1 <= k <= n

Tôi đã thảo luận vấn đề này với một số người bạn nhưng không ai có thể tìm ra giải pháp; Bất kỳ trợ giúp sẽ được đánh giá cao!

ghi chú nhanh: - thứ tự của các phần tử k nhỏ nhất không quan trọng - các phần tử trong mảng là số, có thể là số nguyên và có thể không (vì vậy không có sắp xếp cơ số) - số k không biết trong giai đoạn tiền xử lý. tiền xử lý là thời gian O (n). hàm (tìm k phần tử nhỏ nhất) trên thời gian O (k).

sorting

— Idan
nguồn

4

Làm thế nào về việc sử dụng một đống nhỏ?

— Shir

1

Nhìn vào tính toán k-skyband và top-k. Bài viết cs.sfu.ca/~jpei/publications/subsky_tkde07.pdf có một đánh giá tốt về các tài liệu liên quan.

— András Salamon

1

Shir-Tôi đã xem xét ý tưởng đống nhỏ. tuy nhiên, để in k số nhỏ nhất trong heap tối thiểu là trong thời gian O (klogn) và không phải O (k) như yêu cầu

— Idan

4

@idannik: Tại sao bạn nghĩ phải mất

thời gian để tìm

yếu tố nhỏ nhất trong một min-heap?

Ω (k \log n)

$\Omega(k \log n)$

k

$k$

— Kristoffer Arnsfelt Hansen

8

Tôi không nghĩ đây là cấp độ nghiên cứu. Nó trông giống như một nhiệm vụ. Bạn đã tìm nó ở đâu?

— Kaveh

24

Tiền xử lý mảng giá trị trong thời gian : $n$ $O(n)$

$i\leftarrow n$
trong khi
- Tính trung vị của trong thời gian $m$ $A[1..i]$ $O(i)$
- phân vùng vào và trong cùng một lúc. $A[1..i]$ $A[1..i/2-1] \leq m$ $A[i/2+1..i]\geq m$
- $i \leftarrow \lfloor i/2 \rfloor$

Tổng thời gian tính toán trước là trong $O(1+2+4+...+n)\subseteq O(n)$

Trả lời truy vấn cho phần tử nhỏ nhất trong trong thời gian : $k$ $A$ $O(k)$

$l\leftarrow \lfloor \log_2 k \rfloor$
chọn thứ nguyên tố của trong thời gian $(k-2^l)$ $x$ $A[2^l..2^{l+1}]$ $O(2^l)\subseteq O(k)$
phân vùng bởi cùng một lúc $A[2^l..2^{l+1}]$ $x$

chứa phần tử nhỏ nhất. $A[1..k]$ $k$

Người giới thiệu:

Năm 1999, Dor và Zwick đã đưa ra một thuật toán để tính trung bình của phần tử theo thời gian trong các so sánh , đưa ra thuật toán để chọn phần tử thứ từ phần tử không có thứ tự trong ít hơn so sánh. $n$ $2.942 n + o(n)$ $k$ $n$ $6n$

— Jeremy
nguồn

1

Tôi đoán các vòng ngoài được coi là 'for i in

'. Thuật toán của bạn có khác với câu trả lời của Yuval Filmus không?

{2^{⌈ \lg n ⌉}, \dots, 4, 2, 1}

$\{2^{\lceil\lg n\rceil},\dots,4,2,1\}$

— Radu GRIGore

2

Đây là một khái quát của thuật toán của tôi để

tùy ý . Nó cũng đánh vần một số chi tiết thực hiện (cố tình) bỏ qua câu trả lời của tôi.

n

$n$

— Yuval Filmus

3

@YuvalFilmus Bạn có muốn ám chỉ bởi nhận xét của bạn rằng câu trả lời của tôi gần với bạn không? Đây là giải pháp mà tôi nghĩ đến khi tôi xem xét câu hỏi. Tôi thấy rằng bạn đã đăng một cái tương tự, nhưng thấy nó không rõ ràng, vì vậy tôi đã viết riêng của tôi (trái ngược với việc thực hiện một chỉnh sửa lớn của bạn). Điều quan trọng cuối cùng là chất lượng của các câu trả lời trên các hệ thống, chứ không thực sự ai đã viết chúng: các huy hiệu và danh tiếng chỉ là sự khuyến khích, không phải là mục tiêu trong chính chúng.

— Jeremy

4

@Jeremy Không hề; Chỉ là hai giải pháp là như nhau (nhưng giải pháp của bạn hoạt động cho

tùy ý

n

$n$ ) và tôi không đưa ra chi tiết trong trường hợp đó thực sự là một câu hỏi bài tập về nhà.

— Yuval Filmus

2

Oh :( Xin lỗi về điều đó sau đó. (Mặc dù tôi vẫn nghĩ rằng việc đưa ra câu trả lời đầy đủ là ưu tiên hơn những nghi ngờ chuyển nhượng)

— Jeremy

14

Giả sử cho đơn giản rằng . Sử dụng thuật toán chọn thời gian tuyến tính để tìm các phần tử tại các vị trí ; điều này cần thời gian tuyến tính. Với , tìm mà ; lưu ý rằng . Lọc ra tất cả các yếu tố xếp hạng tối đa $n = 2^m$ $2^{m-1},2^{m-2},2^{m-3},\ldots,1$ $k$ $t$ $2^{t-1} \leq k \leq 2^t$ $2^t \leq 2k$ $2^t$ và hiện sử dụng thuật toán chọn thời gian tuyến tính để tìm phần tử tại vị trí trong thời gian $k$ . $O(2^t) = O(k)$

Làm rõ: Nó có vẻ rằng tiền xử lý mất nhiều thời gian , và đó thực sự là trường hợp nếu bạn không cẩn thận. Đây là cách thực hiện tiền xử lý trong thời gian tuyến tính: $\Theta(n\log n)$

while n > 0:
  find the (lower) median m of A[0..n-1]
  partition A in-place so that A[n/2-1] = m
  n = n/2

Phân vùng tại chỗ được thực hiện như trong quicksort. Thời gian chạy là tuyến tính trong , và do đó tuyến tính. Cuối cùng, mảng thỏa mãn tính chất sau: với mỗi , bao gồm các phần tử nhỏ nhất . $n + n/2 + n/4 + \cdots + 1 < 2n$ $A$ $k$ $A[0..n/2^k-1]$ $n/2^k$

— Yuval Filmus
nguồn

1

Một cách tự nhiên. Nếu mảng được sắp xếp mà bạn có thể giải quyết điều này trong

mà không cần tiền xử lý. Có lẽ bạn không biết về thuật toán chọn thời gian tuyến tính có thể tìm thấy phần tử lớn thứ

trong thời gian

?

O (1)

$O(1)$

k

$k$

O (n)

$O(n)$

— Yuval Filmus

4

@Yuval Filmus: Bạn không chạy thuật toán

lần, với tổng số

bước? Hay bạn đã có một số loại xen kẽ trong tâm trí?

\log n

$\log n$

n \log n

$n \log n$

— András Salamon

3

@ AndrásSalamon: Nếu bạn đọc câu trả lời được đưa ra bởi Jeremy (trông giống như câu này), bạn sẽ thấy rằng trước tiên bạn xử lý toàn bộ mảng, sau đó là nửa đầu, v.v.

— Radu GRIGore

3

@ AndrásSalamon Radu là chính xác. Sau khi bạn tìm thấy trung vị, bạn phân vùng mảng (tại chỗ) thành nửa dưới và trên của nó, sau đó lặp lại ở nửa dưới. Thời gian chạy sau đó tỷ lệ thuận với

.

n + n / 2 + n / 4 + \dots + 1 < 2 n

$n+n/2+n/4+\cdots+1 < 2n$

— Yuval Filmus

5

Ngẫu nhiên thuật toán này xuất hiện dưới dạng chương trình con trong câu trả lời của tôi cho một câu hỏi trước đó: cstheory.stackexchange.com/questions/17378/ phỏng

— David Eppstein

2

Đầu tiên sử dụng $O(n)$ để xây dựng một đống nhỏ. Được biết, chúng ta có thể sử dụng $O(k)$ để tìm $k$

Frederickson, Greg N. , Một thuật toán tối ưu để lựa chọn trong một heap , Inf. Tính toán. 104, số 2, 197-214 (1993).ZBL0818.68065 ..

— hqztrue
nguồn

1

Tôi không thấy làm thế nào chúng ta có thể trích xuất các phần tử

nhỏ nhất từ một heap trong thời gian

, vì việc loại bỏ từng phần tử mất thời gian logarit theo kích thước của heap. Bạn có thể làm rõ những gì bạn đã nghĩ trong đây? Cảm ơn!

k

$k$

O (k)

$O(k)$

— a3nm

@ a3nm Đây thực sự không phải là một thuật toán đơn giản, nhưng tôi đã cập nhật tài liệu tham khảo.

— hqztrue

k

$k$

k

$k$

O (k)

$O(k)$

k

$k$

k

$k$ -th smallest element

x

$x$ . However after knowing that, you can just perform a dfs in the heap to find all elements

< x

$<x$ in

O (k)

$O(k)$ .

— hqztrue

Sorry I don't see which DFS you would perform to find these elements? (Some of them may not be ancestors of the

k

$k$ -th smallest element in the heap, i.e., as far as I can tell locating, e.g., the

k / 2

$k/2$ -th element knowing the position of the

k

$k$ -th element is not trivial.)

— a3nm

0

Use linear time selection to find the $k$ th largest element, then do a partition step from quicksort using the $k$ th largest element as the pivot.

— jbapple
nguồn

1

The original question mentions that

k

$k$ is not known at preprocessing time....

— Jeremy

2

I see. My mistake.

— jbapple

tìm các phần tử k nhỏ nhất trong mảng trong O (k)

Tiền xử lý mảng giá trị trong thời gian O ( n ) :nnnO(n)O(n)O(n)

Trả lời truy vấn cho phần tử nhỏ nhất trong A trong thời gian O ( k ) :kkkAAAO(k)O(k)O(k)

Người giới thiệu:

Tiền xử lý mảng giá trị trong thời gian : $n$ $O(n)$

Trả lời truy vấn cho phần tử nhỏ nhất trong trong thời gian : $k$ $A$ $O(k)$