Câu hỏi được gắn thẻ «bigdata»

Dữ liệu lớn là thuật ngữ cho một tập hợp các tập dữ liệu lớn và phức tạp đến mức khó xử lý bằng các công cụ quản lý cơ sở dữ liệu trên tay hoặc các ứng dụng xử lý dữ liệu truyền thống. Các thách thức bao gồm nắm bắt, giám tuyển, lưu trữ, tìm kiếm, chia sẻ, chuyển giao, phân tích và trực quan hóa.

3
Xử lý một bộ tính năng tăng thường xuyên
Tôi đang làm việc trên một hệ thống phát hiện gian lận. Trong lĩnh vực này, các gian lận mới xuất hiện thường xuyên, do đó các tính năng mới phải được thêm vào mô hình trên cơ sở liên tục. Tôi tự hỏi cách tốt nhất để xử lý …



3

2
Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]
Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 





1
Lỗi xếp tầng trong Bão tố Apache
Xem qua phần trình bày và tài liệu về Summingbird của Twitter, một trong những lý do được đề cập đến khi sử dụng các cụm Storm và Hadoop cùng nhau trong Summingbird là việc xử lý thông qua Storm dẫn đến xếp tầng lỗi. Để tránh xếp tầng lỗi …


2
Lọc thư rác từ dữ liệu đã truy xuất
Tôi đã từng nghe rằng lọc thư rác bằng cách sử dụng danh sách đen không phải là một cách tiếp cận tốt, vì một số người dùng đang tìm kiếm các mục trong tập dữ liệu của bạn có thể đang tìm kiếm thông tin cụ thể từ các …

1
Người ta có thể xây dựng các mô hình tuyến tính trên các khối dữ liệu của bộ dữ liệu không, nếu một người không thể xây dựng chúng trên toàn bộ tập dữ liệu?
Người ta có thể xây dựng các mô hình tuyến tính trên "khối" của tập dữ liệu không, nếu người ta không thể xây dựng chúng trên toàn bộ tập dữ liệu? Đặc biệt, tôi vẫn còn hơn 88k biến (tính năng) và người ta không thể làm gì nhiều …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.