Làm cách nào tôi có thể nhập tệp .csv vào tệp dữ liệu pyspark? Tôi thậm chí đã cố gắng đọc tệp csv trong Pandas và sau đó chuyển đổi nó thành một cơ sở dữ liệu tia lửa bằng cách sử dụng createDataFrame, nhưng nó vẫn hiển thị một số lỗi. Ai đó có thể hướng dẫn tôi thông qua điều này? Ngoài ra, vui lòng cho tôi biết làm thế nào tôi có thể nhập tệp xlsx? Tôi đang cố gắng nhập nội dung csv vào các tệp dữ liệu gấu trúc và sau đó chuyển đổi nó thành các khung dữ liệu tia lửa, nhưng nó đang hiển thị lỗi:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Mã của tôi là:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)