Câu hỏi được gắn thẻ «dataframe»

Khung dữ liệu là cấu trúc dữ liệu dạng bảng. Thông thường, nó chứa dữ liệu trong đó các hàng là các quan sát và các cột là các biến có nhiều loại khác nhau. Trong khi "khung dữ liệu" hoặc "khung dữ liệu" là thuật ngữ được sử dụng cho khái niệm này trong một số ngôn ngữ (R, Apache Spark, deedle, Maple, thư viện gấu trúc trong Python và thư viện DataFrames ở Julia), "bảng" là thuật ngữ được sử dụng trong MATLAB và SQL.


8
gấu trúc giá trị duy nhất nhiều cột
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Cách tốt nhất để trả về các giá trị duy nhất của 'Col1' và 'Col2' là gì? Đầu ra mong muốn là 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'




8
Bỏ qua các hàng chứa cột cụ thể của NA
Tôi muốn biết cách bỏ qua NAcác giá trị trong khung dữ liệu, nhưng chỉ trong một số cột tôi quan tâm. Ví dụ, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) nhưng tôi chỉ muốn bỏ qua các dữ liệu mà ylà …
129 r  dataframe  na 

5
R - Nối hai dataframes?
Cho hai datafram avà b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 Có …






9
Làm cách nào để thêm một cột mới vào Spark DataFrame (sử dụng PySpark)?
Tôi có Spark DataFrame (sử dụng PySpark 1.5.1) và muốn thêm một cột mới. Tôi đã thử những cách sau mà không thành công: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Cũng có một lỗi sử …


14
Làm cách nào để hiển thị tên tất cả các cột trên khung dữ liệu gấu trúc?
Tôi có một khung dữ liệu bao gồm hàng trăm cột và tôi cần xem tất cả các tên cột. Tôi đã làm gì: In[37]: data_all2.columns Đầu ra là: Out[37]: Index(['customer_id', 'incoming', 'outgoing', 'awan', 'bank', 'family', 'food', 'government', 'internet', 'isipulsa', ... 'overdue_3months_feature78', 'overdue_3months_feature79', 'overdue_3months_feature80', 'overdue_3months_feature81', 'overdue_3months_feature82', 'overdue_3months_feature83', 'overdue_3months_feature84', 'overdue_3months_feature85', 'overdue_3months_feature86', …
127 python  pandas  dataframe  show 

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.