Làm cách nào để xuất kết quả của truy vấn HiveQL sang CSV?

Question 1

chúng tôi muốn đưa kết quả của truy vấn Hive vào tệp CSV. Tôi nghĩ lệnh sẽ trông như thế này:

insert overwrite directory '/home/output.csv' select books from table;

Khi tôi chạy nó, nó nói rằng nó hoàn thành thành công nhưng tôi không bao giờ có thể tìm thấy tệp. Làm cách nào để tìm tệp này hoặc tôi nên trích xuất dữ liệu theo một cách khác?

Question 2

Mặc dù có thể sử dụng INSERT OVERWRITEđể lấy dữ liệu ra khỏi Hive, nhưng nó có thể không phải là phương pháp tốt nhất cho trường hợp cụ thể của bạn. Đầu tiên hãy để tôi giải thích những gì INSERT OVERWRITElàm được, sau đó tôi sẽ mô tả phương pháp tôi sử dụng để lấy tệp tsv từ bảng Hive.

Theo hướng dẫn , truy vấn của bạn sẽ lưu trữ dữ liệu trong một thư mục trong HDFS. Định dạng sẽ không phải là csv.

Dữ liệu được ghi vào hệ thống tệp được tuần tự hóa dưới dạng văn bản với các cột được phân tách bằng ^ A và các hàng được phân tách bằng dòng mới. Nếu bất kỳ cột nào không thuộc kiểu nguyên thủy, thì các cột đó được tuần tự hóa thành định dạng JSON.

Một sửa đổi nhỏ (thêm LOCALtừ khóa) sẽ lưu trữ dữ liệu trong một thư mục cục bộ.

INSERT OVERWRITE LOCAL DIRECTORY '/home/lvermeer/temp' select books from table;

Khi tôi chạy một truy vấn tương tự, đây là kết quả đầu ra.

[lvermeer@hadoop temp]$ ll
total 4
-rwxr-xr-x 1 lvermeer users 811 Aug  9 09:21 000000_0
[lvermeer@hadoop temp]$ head 000000_0 
"row1""col1"1234"col3"1234FALSE
"row2""col1"5678"col3"5678TRUE

Cá nhân tôi thường chạy truy vấn của mình trực tiếp thông qua Hive trên dòng lệnh cho loại điều này và chuyển nó vào tệp cục bộ như sau:

hive -e 'select books from table' > /home/lvermeer/temp.tsv

Điều đó cung cấp cho tôi một tệp được phân tách bằng tab mà tôi có thể sử dụng. Hy vọng điều đó cũng hữu ích cho bạn.

Dựa trên bản vá-3682 này , tôi nghi ngờ có giải pháp tốt hơn khi sử dụng Hive 0.11, nhưng tôi không thể tự mình kiểm tra điều này. Cú pháp mới sẽ cho phép những điều sau.

INSERT OVERWRITE LOCAL DIRECTORY '/home/lvermeer/temp' 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ',' 
select books from table;

Hy vọng rằng sẽ giúp.

Question 3

Nếu bạn muốn có tệp CSV thì bạn có thể sửa đổi các giải pháp của Lukas như sau (giả sử bạn đang sử dụng hộp linux):

hive -e 'select books from table' | sed 's/[[:space:]]\+/,/g' > /home/lvermeer/temp.csv

Question 4

Bạn nên sử dụng câu lệnh CREATE TABLE AS SELECT (CTAS) để tạo một thư mục trong HDFS với các tệp chứa kết quả của truy vấn. Sau đó, bạn sẽ phải xuất các tệp đó từ HDFS sang đĩa thông thường của mình và hợp nhất chúng thành một tệp duy nhất.

Bạn cũng có thể phải thực hiện một số thủ thuật để chuyển đổi các tệp từ '\ 001' - được phân tách thành CSV. Bạn có thể sử dụng SerDe CSV tùy chỉnh hoặc xử lý hậu kỳ tệp đã trích xuất.

Question 5

Bạn có thể sử dụng INSERT…… DIRECTORY, như trong ví dụ này:

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees'
SELECT name, salary, address
FROM employees
WHERE se.state = 'CA';

OVERWRITEvà LOCALcó các cách diễn giải giống như trước và các đường dẫn được diễn giải theo các quy tắc thông thường. Một hoặc nhiều tệp sẽ được ghi vào /tmp/ca_employees, tùy thuộc vào số lượng bộ giảm được gọi.

Question 6

Nếu bạn đang sử dụng HUE, điều này cũng khá đơn giản. Chỉ cần truy cập trình chỉnh sửa Hive trong HUE, thực hiện truy vấn hive của bạn, sau đó lưu tệp kết quả cục bộ dưới dạng XLS hoặc CSV hoặc bạn có thể lưu tệp kết quả vào HDFS.

Question 7

Tôi đã tìm kiếm một giải pháp tương tự, nhưng những giải pháp được đề cập ở đây sẽ không hoạt động. Dữ liệu của tôi có tất cả các biến thể của ký tự khoảng trắng (dấu cách, dòng mới, tab) và dấu phẩy.

Để làm cho dữ liệu cột tsv an toàn, tôi đã thay thế tất cả các ký tự trong dữ liệu cột bằng một khoảng trắng và thực thi mã python trên dòng lệnh để tạo tệp csv, như được hiển thị bên dưới:

hive -e 'tab_replaced_hql_query' |  python -c 'exec("import sys;import csv;reader = csv.reader(sys.stdin, dialect=csv.excel_tab);writer = csv.writer(sys.stdout, dialect=csv.excel)\nfor row in reader: writer.writerow(row)")'

Điều này đã tạo ra một csv hoàn toàn hợp lệ. Hy vọng điều này sẽ giúp những người tìm kiếm giải pháp này.

Question 8

Bạn có thể sử dụng hàm chuỗi tổ ong CONCAT_WS( string delimiter, string str1, string str2...strn )

cho người yêu cũ:

hive -e 'select CONCAT_WS(',',cola,colb,colc...,coln) from Mytable' > /home/user/Mycsv.csv

Question 9

Đây là cách thân thiện nhất với csv mà tôi tìm thấy để xuất ra kết quả của HiveQL.
Bạn không cần bất kỳ lệnh grep hoặc sed nào để định dạng dữ liệu, thay vào đó, hive hỗ trợ nó, chỉ cần thêm thẻ phụ của outputformat.

hive --outputformat=csv2 -e 'select * from <table_name> limit 20' > /path/toStore/data/results.csv

Question 10

Tôi đã gặp vấn đề tương tự và đây là cách tôi có thể giải quyết nó.

Bước 1 - Đã tải dữ liệu từ bảng Hive vào một bảng khác như sau

DROP TABLE IF EXISTS TestHiveTableCSV;
CREATE TABLE TestHiveTableCSV 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n' AS
SELECT Column List FROM TestHiveTable;

Bước 2 - Sao chép đốm màu từ kho Hive sang vị trí mới với phần mở rộng thích hợp

Start-AzureStorageBlobCopy
-DestContext $destContext 
-SrcContainer "Source Container"
-SrcBlob "hive/warehouse/TestHiveTableCSV/000000_0"
-DestContainer "Destination Container"
-DestBlob "CSV/TestHiveTable.csv"

Question 11

hive  --outputformat=csv2 -e "select * from yourtable" > my_file.csv

hoặc là

hive  --outputformat=csv2 -e "select * from yourtable" > [your_path]/file_name.csv

Đối với tsv, chỉ cần thay đổi csv thành tsv trong các truy vấn ở trên và chạy các truy vấn của bạn

Question 12

Dấu phân tách mặc định là " ^A". Trong ngôn ngữ python, nó là " \x01".

Khi tôi muốn thay đổi dấu phân cách, tôi sử dụng SQL như:

SELECT col1, delimiter, col2, delimiter, col3, ..., FROM table

Sau đó, coi dấu phân tách + " ^A" là dấu phân cách mới.

Question 13

Tôi đã thử các tùy chọn khác nhau, nhưng đây sẽ là một trong những giải pháp đơn giản nhất cho Python Pandas:

hive -e 'select books from table' | grep "|" ' > temp.csv

df=pd.read_csv("temp.csv",sep='|')

Bạn cũng có thể sử dụng tr "|" ","để chuyển đổi "|" đến ","

Question 14

Tương tự như câu trả lời của Ray ở trên, Hive View 2.0 trong Nền tảng dữ liệu Hortonworks cũng cho phép bạn chạy một truy vấn Hive và sau đó lưu đầu ra dưới dạng csv.

Question 15

Trong trường hợp bạn đang làm điều đó từ Windows, bạn có thể sử dụng tập lệnh Python hivehoney để trích xuất dữ liệu bảng sang tệp CSV cục bộ.

Nó sẽ:

Đăng nhập vào máy chủ pháo đài.
pbrun.
kim loại.
beeline (với truy vấn của bạn).
Lưu tiếng vọng từ beeline vào một tệp trên Windows.

Thực thi nó như thế này:

set PROXY_HOST=your_bastion_host

set SERVICE_USER=you_func_user

set LINUX_USER=your_SOID

set LINUX_PWD=your_pwd

python hh.py --query_file=query.sql

Question 16

Chỉ để trình bày thêm các bước sau sau khi bắt đầu truy vấn: INSERT OVERWRITE LOCAL DIRECTORY '/home/lvermeer/temp' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select books from table;

Trong trường hợp của tôi, dữ liệu được tạo trong thư mục tạm thời có deflateđịnh dạng và có dạng như sau:

$ ls
000000_0.deflate  
000001_0.deflate  
000002_0.deflate  
000003_0.deflate  
000004_0.deflate  
000005_0.deflate  
000006_0.deflate  
000007_0.deflate

Đây là lệnh để giải nén các tệp deflate và đưa mọi thứ vào một tệp csv:

hadoop fs -text "file:///home/lvermeer/temp/*" > /home/lvermeer/result.csv

Question 17

Tôi có thể đến muộn với câu hỏi này, nhưng sẽ giúp trả lời:

Question 18

Lệnh shell này in định dạng đầu ra trong csv output.txtmà không có tiêu đề cột.

$ hive --outputformat=csv2 -f 'hivedatascript.hql' --hiveconf hive.cli.print.header=false > output.txt

Question 19

Sử dụng lệnh:

hive -e "sử dụng [tên_cơ_liệu]; chọn * từ [tên_bảng] LIMIT 10;" > /path/to/file/my_file_name.csv

Tôi đã có một tập dữ liệu khổng lồ với chi tiết mà tôi đang cố gắng tổ chức và xác định các loại tấn công và số lượng của từng loại. Một ví dụ mà tôi đã sử dụng trong thực tế của mình đã hoạt động (và có thêm một chút chi tiết) như sau:

hive -e "use DataAnalysis;
select attack_cat, 
case when attack_cat == 'Backdoor' then 'Backdoors' 
when length(attack_cat) == 0 then 'Normal' 
when attack_cat == 'Backdoors' then 'Backdoors' 
when attack_cat == 'Fuzzers' then 'Fuzzers' 
when attack_cat == 'Generic' then 'Generic' 
when attack_cat == 'Reconnaissance' then 'Reconnaissance' 
when attack_cat == 'Shellcode' then 'Shellcode' 
when attack_cat == 'Worms' then 'Worms' 
when attack_cat == 'Analysis' then 'Analysis' 
when attack_cat == 'DoS' then 'DoS' 
when attack_cat == 'Exploits' then 'Exploits' 
when trim(attack_cat) == 'Fuzzers' then 'Fuzzers' 
when trim(attack_cat) == 'Shellcode' then 'Shellcode' 
when trim(attack_cat) == 'Reconnaissance' then 'Reconnaissance' end,
count(*) from actualattacks group by attack_cat;">/root/data/output/results2.csv