Câu hỏi được gắn thẻ «dataframe»

Khung dữ liệu là cấu trúc dữ liệu dạng bảng. Thông thường, nó chứa dữ liệu trong đó các hàng là các quan sát và các cột là các biến có nhiều loại khác nhau. Trong khi "khung dữ liệu" hoặc "khung dữ liệu" là thuật ngữ được sử dụng cho khái niệm này trong một số ngôn ngữ (R, Apache Spark, deedle, Maple, thư viện gấu trúc trong Python và thư viện DataFrames ở Julia), "bảng" là thuật ngữ được sử dụng trong MATLAB và SQL.



7
Pandas dataframe fillna () chỉ một số cột tại chỗ
Tôi đang cố gắng điền vào bất kỳ giá trị nào trong khung dữ liệu Pandas bằng 0 chỉ cho một số tập hợp con của các cột. Khi tôi làm: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Đầu ra: a b c 0 …
144 python  pandas  dataframe 


8
Làm thế nào để chọn hàng đầu tiên của mỗi nhóm?
Tôi có một DataFrame được tạo như sau: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Kết quả trông như sau: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …


14
Xác định số lượng giá trị NA trong một cột
Tôi muốn đếm số lượng NAgiá trị trong một cột khung dữ liệu. Nói khung dữ liệu của tôi được gọi dfvà tên của cột tôi đang xem xét là col. Cách tôi đã đưa ra là như sau: sapply(df$col, function(x) sum(length(which(is.na(x))))) Đây có phải là một cách tốt / …
142 r  dataframe 

8
Đổi tên chỉ mục dữ liệu Pandas
Tôi có tệp csv không có tiêu đề, với chỉ mục DateTime. Tôi muốn đổi tên chỉ mục và tên cột, nhưng với df.rename () chỉ tên được đổi tên. Bọ cánh cứng? Tôi đang dùng phiên bản 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: …
141 python  pandas  dataframe 



2
Làm cách nào để thêm một cột không đổi trong Spark DataFrame?
Tôi muốn thêm một cột trong một DataFramegiá trị tùy ý (tương tự cho mỗi hàng). Tôi gặp lỗi khi sử dụng withColumnnhư sau: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in …

7
Tìm cột có tên chứa một chuỗi cụ thể
Tôi có một khung dữ liệu với các tên cột và tôi muốn tìm một chuỗi chứa một chuỗi nhất định, nhưng không khớp chính xác với nó. Tôi đang tìm kiếm 'spike'trong tên cột thích 'spike-2', 'hey spike', 'spiked-in'(các 'spike'phần luôn luôn là liên tục). Tôi muốn tên cột …

5
Pandasrame lấy hàng đầu tiên của mỗi nhóm
Tôi có một con gấu trúc DataFramenhư sau. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Tôi muốn nhóm nhóm này theo ["id", "value"] và nhận hàng đầu tiên của mỗi nhóm. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 …
137 python  pandas  dataframe 

6
cột dataframe pandas mở rộng với sklearn
Tôi có một khung dữ liệu gấu trúc với các cột loại hỗn hợp và tôi muốn áp dụng min_max_scaler của sklearn cho một số cột. Lý tưởng nhất là tôi muốn thực hiện những biến đổi này tại chỗ, nhưng vẫn chưa tìm ra cách để làm điều đó. …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.