Lập trình dataframe

10

Tách từ điển / danh sách bên trong Cột Pandas thành các Cột riêng biệt

Tôi có dữ liệu được lưu trong cơ sở dữ liệu postgreSQL. Tôi đang truy vấn dữ liệu này bằng Python2.7 và biến nó thành Pandas DataFrame. Tuy nhiên, cột cuối cùng của khung dữ liệu này có một từ điển (hoặc danh sách?) Các giá trị bên trong nó. …

146 python pandas dictionary dataframe

5

Làm thế nào để chia dữ liệu thành 3 bộ (đào tạo, xác nhận và kiểm tra)?

Tôi có một khung dữ liệu gấu trúc và tôi muốn chia nó thành 3 bộ riêng biệt. Tôi biết rằng bằng cách sử dụng train_test_split từ sklearn.cross_validation, người ta có thể chia dữ liệu thành hai bộ (tàu và kiểm tra). Tuy nhiên, tôi không thể tìm thấy bất …

145 pandas numpy dataframe machine-learning scikit-learn

7

Pandas dataframe fillna () chỉ một số cột tại chỗ

Tôi đang cố gắng điền vào bất kỳ giá trị nào trong khung dữ liệu Pandas bằng 0 chỉ cho một số tập hợp con của các cột. Khi tôi làm: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Đầu ra: a b c 0 …

144 python pandas dataframe

7

Cách tìm cột nào chứa bất kỳ giá trị NaN nào trong khung dữ liệu Pandas

Đưa ra một khung dữ liệu gấu trúc chứa các giá trị NaN có thể nằm rải rác ở đây và đó: Câu hỏi: Làm cách nào để xác định cột nào chứa giá trị NaN? Cụ thể, tôi có thể nhận danh sách các tên cột chứa NaN không?

144 python pandas dataframe nan

8

Làm thế nào để chọn hàng đầu tiên của mỗi nhóm?

Tôi có một DataFrame được tạo như sau: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Kết quả trông như sau: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

143 sql scala apache-spark dataframe apache-spark-sql

6

Làm cách nào để lấy cột đầu tiên của DataFrame dưới dạng Sê-ri?

Tôi đã thử: x=pandas.DataFrame(...) s = x.take([0], axis=1) Và snhận được một DataFrame, không phải là Series.

142 python dataframe pandas series

14

Xác định số lượng giá trị NA trong một cột

Tôi muốn đếm số lượng NAgiá trị trong một cột khung dữ liệu. Nói khung dữ liệu của tôi được gọi dfvà tên của cột tôi đang xem xét là col. Cách tôi đã đưa ra là như sau: sapply(df$col, function(x) sum(length(which(is.na(x))))) Đây có phải là một cách tốt / …

142 r dataframe

8

Đổi tên chỉ mục dữ liệu Pandas

Tôi có tệp csv không có tiêu đề, với chỉ mục DateTime. Tôi muốn đổi tên chỉ mục và tên cột, nhưng với df.rename () chỉ tên được đổi tên. Bọ cánh cứng? Tôi đang dùng phiên bản 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: …

141 python pandas dataframe

9

Làm cách nào để thay thế NaN bằng các giá trị trước trong DataFrame của gấu trúc?

Giả sử tôi có DataFrame với một số NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Những gì tôi cần làm là thay …

140 python python-3.x pandas dataframe nan

3

Làm thế nào để lưu một data.frame trong R?

Tôi đã tạo một data.frame trong R không lớn lắm, nhưng phải mất khá nhiều thời gian để xây dựng. Tôi có thể lưu nó dưới dạng một tệp mà tôi có thể mở lại trong R không?

137 r dataframe

2

Làm cách nào để thêm một cột không đổi trong Spark DataFrame?

Tôi muốn thêm một cột trong một DataFramegiá trị tùy ý (tương tự cho mỗi hàng). Tôi gặp lỗi khi sử dụng withColumnnhư sau: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in …

137 python apache-spark dataframe pyspark apache-spark-sql

7

Tìm cột có tên chứa một chuỗi cụ thể

Tôi có một khung dữ liệu với các tên cột và tôi muốn tìm một chuỗi chứa một chuỗi nhất định, nhưng không khớp chính xác với nó. Tôi đang tìm kiếm 'spike'trong tên cột thích 'spike-2', 'hey spike', 'spiked-in'(các 'spike'phần luôn luôn là liên tục). Tôi muốn tên cột …

137 python python-3.x string pandas dataframe

5

Pandasrame lấy hàng đầu tiên của mỗi nhóm

Tôi có một con gấu trúc DataFramenhư sau. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Tôi muốn nhóm nhóm này theo ["id", "value"] và nhận hàng đầu tiên của mỗi nhóm. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 …

137 python pandas dataframe

6

cột dataframe pandas mở rộng với sklearn

Tôi có một khung dữ liệu gấu trúc với các cột loại hỗn hợp và tôi muốn áp dụng min_max_scaler của sklearn cho một số cột. Lý tưởng nhất là tôi muốn thực hiện những biến đổi này tại chỗ, nhưng vẫn chưa tìm ra cách để làm điều đó. …

137 python pandas scikit-learn dataframe

4

Cách hiệu quả nhất để tạo một từ điển của hai cột Dataframe gấu trúc là gì?

Cách hiệu quả nhất để tổ chức Dataframe sau đây là gì: dữ liệu = Position Letter 1 a 2 b 3 c 4 d 5 e vào từ điển như thế alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']nào?

136 python dictionary pandas dataframe

Câu hỏi được gắn thẻ «dataframe»