Câu hỏi được gắn thẻ «pandas»

Pandas là một thư viện Python để thao tác và phân tích dữ liệu, ví dụ như các bảng dữ liệu, chuỗi thời gian đa chiều và các bộ dữ liệu cắt ngang thường thấy trong các số liệu thống kê, kết quả khoa học thực nghiệm, kinh tế lượng hoặc tài chính. Pandas là một trong những thư viện khoa học dữ liệu chính trong Python.

3
Cách chuyển đổi khung dữ liệu gấu trúc sang từ điển phân cấp
Tôi có khung dữ liệu gấu trúc sau đây: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Tôi đang cố gắng tạo một từ điển phân cấp, với các giá trị của từ điển được nhúng dưới dạng danh sách, trông giống như sau: {200101: {1:[350, 400], 2:[200, 250]}, 200102: {1:[100, 300], …
16 python  pandas 



6
Tìm cặp đối xứng nhanh chóng trong numpy
from itertools import product import pandas as pd df = pd.DataFrame.from_records(product(range(10), range(10))) df = df.sample(90) df.columns = "c1 c2".split() df = df.sort_values(df.columns.tolist()).reset_index(drop=True) # c1 c2 # 0 0 0 # 1 0 1 # 2 0 2 # 3 0 3 # 4 0 4 # .. .. .. # …
15 python  pandas  numpy 

3
Nhận khoảng cách gần nhất với hai geodataframe trong gấu trúc
Đây là geodatframe đầu tiên của tôi: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, …


2
Suy ra cột nào là datetime
Tôi có một khung dữ liệu khổng lồ với nhiều cột, nhiều cột có kiểu datetime.datetime. Vấn đề là nhiều người cũng có các loại hỗn hợp, bao gồm các datetime.datetimegiá trị và giá trị ví dụ None(và có thể có các giá trị không hợp lệ khác): 0 2017-07-06 …
14 python  pandas 


1
Hàm to_excel của gấu trúc tạo ra một TypeError bất ngờ
Tôi đã tạo một từ điển của dataframe gấu trúc: d[k] = pd.DataFrame(data=data[i]) Vì vậy, tôi cho rằng đó d[k]là một dataframe chính xác. Sau đó for k in d.keys(): d[k].to_excel (file_name) Sau đó, tôi có lỗi: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element …

3
Gấu trúc chậm DataFrame Multi Index reindex
Tôi có một DataFrame gấu trúc có dạng: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 …

2
Tạo các sản phẩm nhị phân được lọc
Báo cáo vấn đề Tôi đang tìm kiếm một cách hiệu quả để tạo ra các sản phẩm cartesian nhị phân đầy đủ (các bảng có tất cả kết hợp Đúng và Sai với một số cột nhất định), được lọc theo các điều kiện độc quyền nhất định. Ví …

1
gấu trúc và pyarrow 0.15.0
Gần đây tôi đã bắt đầu nhận được một loạt lỗi về một số pysparkcông việc đang chạy trên các cụm EMR. Các erro là java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) …


9
tạo ma trận NxN từ một cột gấu trúc
tôi có dataframe với mỗi hàng có giá trị danh sách. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] tôi phải tính điểm với một hàng và so với tất cả các hàng khác Ví dụ: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the …
11 python  pandas  numpy 


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.