Không có lý do để xem toàn bộ đầu ra của một khung dữ liệu lớn. Xem hoặc thao tác các tệp dữ liệu lớn sẽ không cần thiết sử dụng một lượng lớn tài nguyên máy tính của bạn.
Bất cứ điều gì bạn đang làm có thể được thực hiện trong thu nhỏ. Nó dễ dàng hơn nhiều khi làm việc về mã hóa và thao tác dữ liệu khi khung dữ liệu nhỏ. Cách tốt nhất để làm việc với dữ liệu lớn là tạo một khung dữ liệu mới chỉ chiếm một phần nhỏ hoặc một mẫu nhỏ của khung dữ liệu lớn. Sau đó, bạn có thể khám phá dữ liệu và thực hiện mã hóa trên khung dữ liệu nhỏ hơn. Khi bạn đã khám phá dữ liệu và làm cho mã của bạn hoạt động, sau đó chỉ cần sử dụng mã đó trên khung dữ liệu lớn hơn.
Cách dễ nhất chỉ đơn giản là lấy n, số hàng đầu tiên từ khung dữ liệu bằng hàm head (). Hàm đầu chỉ in n, số hàng. Bạn có thể tạo khung dữ liệu nhỏ bằng cách sử dụng chức năng đầu trên khung dữ liệu lớn. Dưới đây tôi đã chọn chọn 50 hàng đầu tiên và chuyển giá trị của chúng cho small_df. Điều này giả định BigData là một tệp dữ liệu đến từ thư viện bạn đã mở cho dự án này.
library(namedPackage)
df <- data.frame(BigData) # Assign big data to df
small_df <- head(df, 50) # Assign the first 50 rows to small_df
Điều này sẽ làm việc hầu hết thời gian, nhưng đôi khi khung dữ liệu lớn đi kèm với các biến được định sẵn hoặc với các biến đã được nhóm. Nếu dữ liệu lớn là như thế này, thì bạn sẽ cần lấy một mẫu ngẫu nhiên của các hàng từ dữ liệu lớn. Sau đó sử dụng mã sau:
df <- data.frame(BigData)
set.seed(1016) # set your own seed
df_small <- df[sample(nrow(df),replace=F,size=.03*nrow(df)),] # samples 3% rows
df_small # much smaller df