Câu hỏi được gắn thẻ «pyspark»

API Spark Python (PySpark) đưa ra mô hình lập trình apache-spark cho Python.


2
Hiệu suất Spark cho Scala vs Python
Tôi thích Python hơn Scala. Nhưng, vì Spark được viết bằng Scala, tôi đã hy vọng mã của mình chạy nhanh hơn trong Scala so với phiên bản Python vì những lý do rõ ràng. Với giả định đó, tôi nghĩ sẽ học và viết phiên bản Scala của một …


2
Làm cách nào để thêm một cột không đổi trong Spark DataFrame?
Tôi muốn thêm một cột trong một DataFramegiá trị tùy ý (tương tự cho mỗi hàng). Tôi gặp lỗi khi sử dụng withColumnnhư sau: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in …

9
Làm cách nào để thêm một cột mới vào Spark DataFrame (sử dụng PySpark)?
Tôi có Spark DataFrame (sử dụng PySpark 1.5.1) và muốn thêm một cột mới. Tôi đã thử những cách sau mà không thành công: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Cũng có một lỗi sử …

19
nhập pyspark trong vỏ trăn
Đây là bản sao câu hỏi của người khác trên một diễn đàn khác mà chưa bao giờ được trả lời, vì vậy tôi nghĩ tôi nên hỏi lại nó ở đây, vì tôi có cùng một vấn đề. (Xem http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Tôi đã cài đặt Spark đúng cách trên …

12
Tải tệp CSV bằng Spark
Tôi mới sử dụng Spark và tôi đang cố đọc dữ liệu CSV từ một tệp với Spark. Đây là những gì tôi đang làm: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Tôi mong đợi cuộc gọi này cung cấp cho tôi danh sách hai cột đầu tiên trong tệp của …


4
Ứng dụng chạy Spark Kill
Tôi có một ứng dụng Spark đang chạy trong đó nó chiếm tất cả các lõi mà các ứng dụng khác của tôi sẽ không được phân bổ bất kỳ tài nguyên nào. Tôi đã thực hiện một số nghiên cứu nhanh và mọi người đề xuất sử dụng YARN …

10
Lọc cột khung dữ liệu Pyspark không có giá trị nào
Tôi đang cố gắng lọc khung dữ liệu PySpark có Nonegiá trị hàng: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] và tôi có thể lọc chính xác với một giá trị chuỗi: df[df.dt_mvmt == '2016-03-31'] # some results here nhưng điều này không thành công: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt …

5
cách thay đổi cột Dataframe từ kiểu String thành Double type trong pyspark
Tôi có một khung dữ liệu với cột là Chuỗi. Tôi muốn thay đổi loại cột thành Loại kép trong PySpark. Sau đây là cách, tôi đã làm: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Tôi chỉ muốn biết, đây có phải là cách đúng đắn để làm điều …

5
Spark DataFrame groupBằng cách sắp xếp theo thứ tự giảm dần (pyspark)
Tôi đang sử dụng pyspark (Python 2.7.9 / Spark 1.3.1) và có GroupObject khung dữ liệu mà tôi cần lọc & sắp xếp theo thứ tự giảm dần. Cố gắng đạt được nó thông qua đoạn mã này. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Nhưng nó ném ra lỗi sau. sort() got …




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.