Làm cách nào để nhận các giá trị duy nhất từ một mảng trong Bash?

Question 1

Tôi có câu hỏi gần giống như ở đây .

Tôi có một mảng chứa aa ab aa ac aa ad, v.v. Bây giờ tôi muốn chọn tất cả các phần tử duy nhất từ mảng này. Tôi nghĩ, điều này sẽ đơn giản với sort | uniqhoặc với sort -unhư họ đã đề cập trong câu hỏi khác, nhưng không có gì thay đổi trong mảng ... Mã là:

echo `echo "${ids[@]}" | sort | uniq`

Tôi đang làm gì sai?

Question 2

Một chút hacky, nhưng điều này sẽ làm được:

echo "${ids[@]}" | tr ' ' '\n' | sort -u | tr '\n' ' '

Để lưu các kết quả duy nhất đã được sắp xếp trở lại vào một mảng, hãy thực hiện phép gán Mảng :

sorted_unique_ids=($(echo "${ids[@]}" | tr ' ' '\n' | sort -u | tr '\n' ' '))

Nếu trình bao của bạn hỗ trợ các chuỗi này ( bashnên), bạn có thể dự phòng một echoquy trình bằng cách thay đổi nó thành:

tr ' ' '\n' <<< "${ids[@]}" | sort -u | tr '\n' ' '

Đầu vào:

ids=(aa ab aa ac aa ad)

Đầu ra:

aa ab ac ad

Giải trình:

"${ids[@]}"- Cú pháp để làm việc với mảng shell, cho dù được sử dụng như một phần của chuỗi này echohay một chuỗi. Phần @có nghĩa là "tất cả các phần tử trong mảng"
tr ' ' '\n'- Chuyển đổi tất cả các khoảng trắng sang dòng mới. Bởi vì mảng của bạn được shell xem như các phần tử trên một dòng, được phân tách bằng dấu cách; và vì sắp xếp yêu cầu đầu vào nằm trên các dòng riêng biệt.
sort -u - sắp xếp và chỉ giữ lại các phần tử duy nhất
tr '\n' ' ' - chuyển đổi các dòng mới mà chúng tôi đã thêm vào trước đó trở lại dấu cách.
$(...)- Thay thế lệnh
Ngoài ra: tr ' ' '\n' <<< "${ids[@]}"là một cách hiệu quả hơn để làm:echo "${ids[@]}" | tr ' ' '\n'

Question 3

Nếu bạn đang chạy phiên bản Bash 4 trở lên (trường hợp này xảy ra trong bất kỳ phiên bản Linux hiện đại nào), bạn có thể nhận các giá trị mảng duy nhất trong bash bằng cách tạo một mảng kết hợp mới chứa từng giá trị của mảng ban đầu. Một cái gì đó như thế này:

$ a=(aa ac aa ad "ac ad")
$ declare -A b
$ for i in "${a[@]}"; do b["$i"]=1; done
$ printf '%s\n' "${!b[@]}"
ac ad
ac
aa
ad

Điều này hoạt động vì trong bất kỳ mảng nào (liên kết hoặc truyền thống, bằng bất kỳ ngôn ngữ nào), mỗi khóa chỉ có thể xuất hiện một lần. Khi forvòng lặp đến giá trị thứ hai của aain a[2], nó sẽ ghi đè giá trị b[aa]được đặt ban đầu cho a[0].

Thực hiện mọi thứ trong native bash có thể nhanh hơn so với việc sử dụng các đường dẫn và các công cụ bên ngoài như sortvà uniq, mặc dù đối với các bộ dữ liệu lớn hơn, bạn có thể sẽ thấy hiệu suất tốt hơn nếu bạn sử dụng một ngôn ngữ mạnh mẽ hơn như awk, python, v.v.

Nếu bạn cảm thấy tự tin, bạn có thể tránh forvòng lặp bằng cách sử dụng printfkhả năng tái chế định dạng của nó cho nhiều đối số, mặc dù điều này dường như yêu cầu eval. (Ngừng đọc ngay bây giờ nếu bạn thấy ổn với điều đó.)

$ eval b=( $(printf ' ["%s"]=1' "${a[@]}") )
$ declare -p b
declare -A b=(["ac ad"]="1" [ac]="1" [aa]="1" [ad]="1" )

Lý do giải pháp này yêu cầu evallà các giá trị mảng được xác định trước khi tách từ. Điều đó có nghĩa là đầu ra của lệnh thay thế được coi là một từ duy nhất chứ không phải là một tập hợp các cặp key = value.

Trong khi điều này sử dụng một vỏ con, nó chỉ sử dụng nội trang cơ sở để xử lý các giá trị mảng. Hãy chắc chắn để đánh giá việc sử dụng của bạn evalvới một con mắt quan trọng. Nếu bạn không chắc chắn 100% rằng chepner hoặc glenn jackman hoặc greycat sẽ không tìm thấy lỗi nào với mã của bạn, hãy sử dụng vòng lặp for.

Question 4

Tôi nhận ra điều này đã được trả lời, nhưng nó hiển thị khá cao trong kết quả tìm kiếm và nó có thể giúp ích cho ai đó.

printf "%s\n" "${IDS[@]}" | sort -u

Thí dụ:

~> IDS=( "aa" "ab" "aa" "ac" "aa" "ad" )
~> echo  "${IDS[@]}"
aa ab aa ac aa ad
~>
~> printf "%s\n" "${IDS[@]}" | sort -u
aa
ab
ac
ad
~> UNIQ_IDS=($(printf "%s\n" "${IDS[@]}" | sort -u))
~> echo "${UNIQ_IDS[@]}"
aa ab ac ad
~>

Question 5

Nếu các phần tử mảng của bạn có khoảng trắng hoặc bất kỳ ký tự đặc biệt nào khác (và bạn có thể chắc chắn là không?) Thì trước hết, để nắm bắt những phần tử đó (và bạn chỉ nên làm điều này), hãy diễn đạt mảng của bạn trong dấu ngoặc kép! vd "${a[@]}". Bash sẽ hiểu theo nghĩa đen điều này là "mỗi phần tử mảng trong một đối số riêng biệt ". Trong phạm vi bash, điều này đơn giản luôn luôn hoạt động, luôn luôn.

Sau đó, để có được một mảng được sắp xếp (và duy nhất), chúng ta phải chuyển đổi nó sang một định dạng sắp xếp có thể hiểu được và có thể chuyển nó trở lại thành các phần tử của mảng bash. Đây là điều tốt nhất mà tôi nghĩ ra:

eval a=($(printf "%q\n" "${a[@]}" | sort -u))

Thật không may, điều này không thành công trong trường hợp đặc biệt của mảng trống, biến mảng trống thành mảng có 1 phần tử trống (vì printf có 0 đối số nhưng vẫn in ra như thể nó có một đối số trống - xem giải thích). Vì vậy, bạn phải nắm bắt điều đó trong if hoặc something.

Giải thích: Định dạng% q cho printf "shell thoát" đối số được in, theo cách mà bash có thể khôi phục trong một cái gì đó như eval! Bởi vì mỗi phần tử được in shell thoát trên dòng riêng của nó, dấu phân tách duy nhất giữa các phần tử là dòng mới và phép gán mảng nhận mỗi dòng làm phần tử, phân tích cú pháp các giá trị đã thoát thành văn bản chữ.

ví dụ

> a=("foo bar" baz)
> printf "%q\n" "${a[@]}"
'foo bar'
baz
> printf "%q\n"
''

Đánh giá là cần thiết để loại bỏ thoát khỏi mỗi giá trị quay trở lại mảng.

Question 6

'sort' có thể được sử dụng để sắp xếp đầu ra của vòng lặp for:

for i in ${ids[@]}; do echo $i; done | sort

và loại bỏ các bản sao bằng "-u":

for i in ${ids[@]}; do echo $i; done | sort -u

Cuối cùng, bạn chỉ có thể ghi đè mảng của mình bằng các phần tử duy nhất:

ids=( `for i in ${ids[@]}; do echo $i; done | sort -u` )

Question 7

cái này cũng sẽ duy trì thứ tự:

echo ${ARRAY[@]} | tr [:space:] '\n' | awk '!a[$0]++'

và để sửa đổi mảng ban đầu với các giá trị duy nhất:

ARRAY=($(echo ${ARRAY[@]} | tr [:space:] '\n' | awk '!a[$0]++'))

Question 8

Để tạo một mảng mới bao gồm các giá trị duy nhất, hãy đảm bảo mảng của bạn không trống, sau đó thực hiện một trong các thao tác sau:

Loại bỏ các mục nhập trùng lặp (có sắp xếp)

readarray -t NewArray < <(printf '%s\n' "${OriginalArray[@]}" | sort -u)

Xóa các mục nhập trùng lặp (không cần sắp xếp)

readarray -t NewArray < <(printf '%s\n' "${OriginalArray[@]}" | awk '!x[$0]++')

Cảnh báo: Đừng cố gắng làm điều gì đó giống như NewArray=( $(printf '%s\n' "${OriginalArray[@]}" | sort -u) ). Nó sẽ vỡ trên khoảng trống.

Question 9

cat number.txt

1 2 3 4 4 3 2 5 6

in dòng thành cột: cat number.txt | awk '{for(i=1;i<=NF;i++) print $i}'

tìm các bản ghi trùng lặp: cat number.txt | awk '{for(i=1;i<=NF;i++) print $i}' |awk 'x[$0]++'

4
3
2

Thay thế các bản ghi trùng lặp: cat number.txt | awk '{for(i=1;i<=NF;i++) print $i}' |awk '!x[$0]++'

Chỉ tìm các bản ghi Uniq: cat number.txt | awk '{for(i=1;i<=NF;i++) print $i|"sort|uniq -u"}

1
5
6

Question 10

Không làm mất thứ tự ban đầu:

uniques=($(tr ' ' '\n' <<<"${original[@]}" | awk '!u[$0]++' | tr '\n' ' '))

Question 11

Nếu bạn muốn một giải pháp chỉ sử dụng nội bộ bash, bạn có thể đặt các giá trị làm khóa trong một mảng kết hợp, sau đó trích xuất các khóa:

declare -A uniqs
list=(foo bar bar "bar none")
for f in "${list[@]}"; do 
  uniqs["${f}"]=""
done

for thing in "${!uniqs[@]}"; do
  echo "${thing}"
done

Điều này sẽ xuất ra

bar
foo
bar none

Question 12

Một tùy chọn khác để xử lý khoảng trắng được nhúng, là phân printftách bằng null , phân biệt với sort, sau đó sử dụng một vòng lặp để đóng gói nó lại thành một mảng:

input=(a b c "$(printf "d\ne")" b c "$(printf "d\ne")")
output=()

while read -rd $'' element
do 
  output+=("$element")
done < <(printf "%s\0" "${input[@]}" | sort -uz)

Ở cuối phần này inputvà outputchứa các giá trị mong muốn (thứ tự được cung cấp không quan trọng):

$ printf "%q\n" "${input[@]}"
a
b
c
$'d\ne'
b
c
$'d\ne'

$ printf "%q\n" "${output[@]}"
a
b
c
$'d\ne'

Question 13

Làm thế nào về biến thể này?

printf '%s\n' "${ids[@]}" | sort -u

Question 14

Hãy thử điều này để nhận các giá trị uniq cho cột đầu tiên trong tệp

awk -F, '{a[$1];}END{for (i in a)print i;}'

Question 15

# Read a file into variable
lines=$(cat /path/to/my/file)

# Go through each line the file put in the variable, and assign it a variable called $line
for line in $lines; do
  # Print the line
  echo $line
# End the loop, then sort it (add -u to have unique lines)
done | sort -u

Làm cách nào để nhận các giá trị duy nhất từ ​​một mảng trong Bash?

Loại bỏ các mục nhập trùng lặp (có sắp xếp)

Xóa các mục nhập trùng lặp (không cần sắp xếp)

Làm cách nào để nhận các giá trị duy nhất từ một mảng trong Bash?