Làm cách nào để đọc tệp .xlsx bằng Thư viện gấu trúc trong iPython?


Tôi muốn đọc tệp .xlsx bằng Thư viện Pandas của python và chuyển dữ liệu vào bảng postgreSQL.

Tất cả những gì tôi có thể làm cho đến bây giờ là:

import pandas as pd
data = pd.ExcelFile("*File Name*")

Bây giờ tôi biết rằng bước này đã được thực thi thành công, nhưng tôi muốn biết cách tôi có thể phân tích cú pháp tệp excel đã được đọc để tôi có thể hiểu cách dữ liệu trong excel ánh xạ với dữ liệu trong dữ liệu biến.
Tôi đã biết rằng dữ liệu là một đối tượng Dataframe nếu tôi không nhầm. Vì vậy, làm cách nào để phân tích cú pháp đối tượng khung dữ liệu này để trích xuất từng dòng từng hàng.

df = pd.ExcelFile ('Tên tệp'). phân tích cú pháp ('trang 1'); xem docs pandas.pydata.org/pandas-docs/dev/io.html#excel-files

Câu trả lời:


Tôi thường tạo một từ điển chứa một DataFramecho mỗi trang tính:

xl_file = pd.ExcelFile(file_name)

dfs = {sheet_name: xl_file.parse(sheet_name) 
          for sheet_name in xl_file.sheet_names}

Cập nhật: Trong phiên bản gấu trúc 0.21.0+, bạn sẽ nhận được hành vi này rõ ràng hơn bằng cách chuyển sheet_name=Noneđến read_excel:

dfs = pd.read_excel(file_name, sheet_name=None)

Trong 0,20 và trước đó, điều này sheetnamethay vì sheet_name(điều này hiện không được chấp nhận thay vì điều trên):

dfs = pd.read_excel(file_name, sheetname=None)

from pandas import read_excel
# find your sheet name at the bottom left of your excel file and assign 
# it to my_sheet 
my_sheet = 'Sheet1' # change it to your sheet name
file_name = 'products_and_categories.xlsx' # change it to the name of your excel file
df = read_excel(file_name, sheet_name = my_sheet)
print(df.head()) # shows headers with top 5 rows


read_excelPhương thức của DataFrame giống như read_csvphương thức:

dfs = pd.read_excel(xlsx_file, sheetname="sheet1")

Thay vì sử dụng tên trang tính, trong trường hợp bạn không biết hoặc không thể mở tệp excel để kiểm tra trong ubuntu (trong trường hợp của tôi là Python 3.6.7, ubuntu 18.04), tôi sử dụng tham số index_col (index_col = 0 cho tờ đầu tiên)

import pandas as pd
file_name = 'some_data_file.xlsx' 
df = pd.read_excel(file_name, index_col=0)
print(df.head()) # print the first 5 rows

Bạn cũng có thể sử dụng sheet_name=0hoặc đặt tên cho trang tính thay vì 0.

Đúng nó hoạt động. Nó cần xlrd phụ thuộc mặc dù. (pip3.7.4.exe cài đặt xlrd trên Windows)


Gán tên tệp bảng tính cho file

Tải bảng tính

In tên trang tính

Tải trang tính vào DataFrame theo tên: df1

file = 'example.xlsx'
xl = pd.ExcelFile(file)
df1 = xl.parse('Sheet1')


Nếu bạn sử dụng read_excel()trên tệp được mở bằng hàm open(), hãy đảm bảo thêm rbvào hàm đang mở để tránh lỗi mã hóa

