Tôi có một danh sách các mặt hàng có thể có một số vấn đề xuất khẩu. Tôi muốn nhận danh sách các mục trùng lặp để tôi có thể so sánh chúng theo cách thủ công. Khi tôi cố gắng sử dụng phương pháp nhân bản gấu trúc , nó chỉ trả về bản sao đầu tiên. Có cách nào để lấy tất cả các bản sao và không chỉ cái đầu tiên không?
Một phần nhỏ trong tập dữ liệu của tôi trông như thế này:
ID,ENROLLMENT_DATE,TRAINER_MANAGING,TRAINER_OPERATOR,FIRST_VISIT_DATE
1536D,12-Feb-12,"06DA1B3-Lebanon NH",,15-Feb-12
F15D,18-May-12,"06405B2-Lebanon NH",,25-Jul-12
8096,8-Aug-12,"0643D38-Hanover NH","0643D38-Hanover NH",25-Jun-12
A036,1-Apr-12,"06CB8CF-Hanover NH","06CB8CF-Hanover NH",9-Aug-12
8944,19-Feb-12,"06D26AD-Hanover NH",,4-Feb-12
1004E,8-Jun-12,"06388B2-Lebanon NH",,24-Dec-11
11795,3-Jul-12,"0649597-White River VT","0649597-White River VT",30-Mar-12
30D7,11-Nov-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",30-Nov-11
3AE2,21-Feb-12,"06405B2-Lebanon NH",,26-Oct-12
B0FE,17-Feb-12,"06D1B9D-Hartland VT",,16-Feb-12
127A1,11-Dec-11,"064456E-Hanover NH","064456E-Hanover NH",11-Nov-12
161FF,20-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",3-Jul-12
A036,30-Nov-11,"063B208-Randolph VT","063B208-Randolph VT",
475B,25-Sep-12,"06D26AD-Hanover NH",,5-Nov-12
151A3,7-Mar-12,"06388B2-Lebanon NH",,16-Nov-12
CA62,3-Jan-12,,,
D31B,18-Dec-11,"06405B2-Lebanon NH",,9-Jan-12
20F5,8-Jul-12,"0669C50-Randolph VT",,3-Feb-12
8096,19-Dec-11,"0649597-White River VT","0649597-White River VT",9-Apr-12
14E48,1-Aug-12,"06D3206-Hanover NH",,
177F8,20-Aug-12,"063B208-Randolph VT","063B208-Randolph VT",5-May-12
553E,11-Oct-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",8-Mar-12
12D5F,18-Jul-12,"0649597-White River VT","0649597-White River VT",2-Nov-12
C6DC,13-Apr-12,"06388B2-Lebanon NH",,
11795,27-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",19-Jun-12
17B43,11-Aug-12,,,22-Oct-12
A036,11-Aug-12,"06D3206-Hanover NH",,19-Jun-12
Mã của tôi hiện tại trông như thế này:
df_bigdata_duplicates = df_bigdata[df_bigdata.duplicated(cols='ID')]
Có một vài mục trùng lặp. Nhưng, khi tôi sử dụng mã trên, tôi chỉ nhận được mục đầu tiên. Trong tài liệu tham khảo API, tôi thấy cách tôi có thể nhận được mục cuối cùng, nhưng tôi muốn có tất cả chúng để tôi có thể kiểm tra trực quan chúng để xem tại sao tôi nhận được sự khác biệt. Vì vậy, trong ví dụ này, tôi muốn lấy tất cả ba mục nhập A036 và cả 11795 mục nhập và bất kỳ mục nhập trùng lặp nào khác, thay vì chỉ một mục đầu tiên. Bất cứ sự giúp đỡ nào đều được đánh giá cao.
ID
, không phải" các hàng giống hệt nhau trong nhiều hoặc tất cả các cột ".