Tổng số gấu trúc theo nhóm, nhưng loại trừ các cột nhất định

Question 1

Cách tốt nhất để thực hiện phân nhóm trên khung dữ liệu Pandas, nhưng loại trừ một số cột khỏi nhóm đó là gì? ví dụ: tôi có khung dữ liệu sau:

Code   Country      Item_Code   Item    Ele_Code    Unit    Y1961    Y1962   Y1963
2      Afghanistan  15          Wheat   5312        Ha      10       20      30
2      Afghanistan  25          Maize   5312        Ha      10       20      30
4      Angola       15          Wheat   7312        Ha      30       40      50
4      Angola       25          Maize   7312        Ha      30       40      50

Tôi muốn nhóm theo cột Quốc gia và Mã hàng và chỉ tính tổng các hàng nằm dưới các cột Y1961, Y1962 và Y1963. Khung dữ liệu kết quả sẽ trông như thế này:

Code   Country      Item_Code   Item    Ele_Code    Unit    Y1961    Y1962   Y1963
2      Afghanistan  15          C3      5312        Ha      20       40       60
4      Angola       25          C4      7312        Ha      60       80      100

Ngay bây giờ tôi đang làm điều này:

df.groupby('Country').sum()

Tuy nhiên, điều này cũng làm tăng các giá trị trong cột Mã hàng. Có cách nào để tôi có thể chỉ định cột nào cần đưa vào sum()hoạt động và loại trừ cột nào không?

Question 2

Bạn có thể chọn các cột của một nhóm theo:

In [11]: df.groupby(['Country', 'Item_Code'])[["Y1961", "Y1962", "Y1963"]].sum()
Out[11]:
                       Y1961  Y1962  Y1963
Country     Item_Code
Afghanistan 15            10     20     30
            25            10     20     30
Angola      15            30     40     50
            25            30     40     50

Lưu ý rằng danh sách được truyền phải là một tập hợp con của các cột, nếu không bạn sẽ thấy KeyError.

Question 3

Các aggchức năng sẽ làm việc này cho bạn. Chuyển các cột và hoạt động như một dict với cột, đầu ra:

df.groupby(['Country', 'Item_Code']).agg({'Y1961': np.sum, 'Y1962': [np.sum, np.mean]})  # Added example for two output columns from a single input column

Điều này sẽ chỉ hiển thị nhóm theo cột và các cột tổng hợp được chỉ định. Trong ví dụ này, tôi bao gồm hai hàm tổng hợp được áp dụng cho 'Y1962'.

Để có được chính xác những gì bạn hy vọng sẽ thấy, hãy bao gồm các cột khác trong nhóm theo và áp dụng tổng cho các biến Y trong khung:

df.groupby(['Code', 'Country', 'Item_Code', 'Item', 'Ele_Code', 'Unit']).agg({'Y1961': np.sum, 'Y1962': np.sum, 'Y1963': np.sum})

Question 4

Nếu bạn đang tìm kiếm một cách tổng quát hơn để áp dụng cho nhiều cột, những gì bạn có thể làm là xây dựng danh sách tên cột và chuyển nó làm chỉ mục của khung dữ liệu được nhóm. Trong trường hợp của bạn, ví dụ:

columns = ['Y'+str(i) for year in range(1967, 2011)]

df.groupby('Country')[columns].agg('sum')