Cách dễ nhất để xóa các cột trùng lặp khỏi khung dữ liệu là gì?
Tôi đang đọc một tệp văn bản có các cột trùng lặp qua:
import pandas as pd
df=pd.read_table(fname)
Tên cột là:
Time, Time Relative, N2, Time, Time Relative, H2, etc...
Tất cả các cột Thời gian và Thời gian Tương đối đều chứa cùng một dữ liệu. Tôi muốn:
Time, Time Relative, N2, H2
Tất cả những nỗ lực của tôi trong việc xóa, xóa, v.v. chẳng hạn như:
df=df.T.drop_duplicates().T
Dẫn đến lỗi chỉ mục có giá trị duy nhất:
Reindexing only valid with uniquely valued index objects
Xin lỗi vì đã là một con gấu trúc. Mọi lơi đê nghị đêu nên được đanh gia cao.
Chi tiết bổ sung
Phiên bản Pandas: 0.9.0
Phiên bản Python: 2.7.3
Windows 7
(cài đặt qua Pythonxy 2.7.3.0)
tệp dữ liệu (lưu ý: trong tệp thực, các cột được phân tách bằng tab, ở đây chúng được phân tách bằng 4 dấu cách):
Time Time Relative [s] N2[%] Time Time Relative [s] H2[ppm]
2/12/2013 9:20:55 AM 6.177 9.99268e+001 2/12/2013 9:20:55 AM 6.177 3.216293e-005
2/12/2013 9:21:06 AM 17.689 9.99296e+001 2/12/2013 9:21:06 AM 17.689 3.841667e-005
2/12/2013 9:21:18 AM 29.186 9.992954e+001 2/12/2013 9:21:18 AM 29.186 3.880365e-005
... etc ...
2/12/2013 2:12:44 PM 17515.269 9.991756+001 2/12/2013 2:12:44 PM 17515.269 2.800279e-005
2/12/2013 2:12:55 PM 17526.769 9.991754e+001 2/12/2013 2:12:55 PM 17526.769 2.880386e-005
2/12/2013 2:13:07 PM 17538.273 9.991797e+001 2/12/2013 2:13:07 PM 17538.273 3.131447e-005
read_table
ví dụ mà tôi đã tạo.
import pandas as pd; pd.__version__
)