Khoa học dữ liệu bigdata

3

Xử lý một bộ tính năng tăng thường xuyên

Tôi đang làm việc trên một hệ thống phát hiện gian lận. Trong lĩnh vực này, các gian lận mới xuất hiện thường xuyên, do đó các tính năng mới phải được thêm vào mô hình trên cơ sở liên tục. Tôi tự hỏi cách tốt nhất để xử lý …

10 machine-learning bigdata

4

Tại sao khó có thể cấp hiệu quả trong khi sử dụng thư viện?

Bất kỳ xử lý cơ sở dữ liệu nhỏ nào cũng có thể được xử lý dễ dàng bằng các tập lệnh Python / Perl / ..., sử dụng các thư viện và / hoặc thậm chí các tiện ích từ chính ngôn ngữ. Tuy nhiên, khi nói đến hiệu …

10 bigdata efficiency performance

1

Tránh tải lại DataFrame giữa các nhân python khác nhau

Có cách nào để giữ một biến (bảng lớn / khung dữ liệu) trong bộ nhớ và chia sẻ nó trên nhiều sổ ghi chép ipython không? Tôi đang tìm kiếm một cái gì đó, tương tự về mặt khái niệm với các biến liên tục của MATLAB. Ở đó …

10 python bigdata matlab jupyter ipython

3

Làm thế nào để làm hàng loạt sản phẩm bên trong trong Tensorflow?

Tôi có hai tenor a:[batch_size, dim] b:[batch_size, dim]. Tôi muốn làm sản phẩm bên trong cho mỗi cặp trong lô, tạo c:[batch_size, 1], ở đâu c[i,0]=a[i,:].T*b[i,:]. Làm sao?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]

Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Nhận dạng hoạt động của con người sử dụng vấn đề thiết lập dữ liệu điện thoại thông minh

Tôi mới tham gia cộng đồng này và hy vọng câu hỏi của tôi sẽ phù hợp ở đây. Là một phần của khóa học phân tích dữ liệu đại học của tôi, tôi đã chọn thực hiện dự án về nhận dạng hoạt động của con người bằng cách …

9 bigdata machine-learning databases clustering data-mining

1

Sự khác biệt giữa nội suy () và fillna () trong gấu trúc

Vì phương pháp nội suy và fillna thực hiện cùng một công việc điền giá trị na. Sự khác biệt cơ bản giữa hai là gì. Tầm quan trọng của việc có hai phương pháp khác nhau này là gì ?? Bất cứ ai có thể giải thích cho tôi …

9 python bigdata pandas jupyter

2

Máy học thực tiễn tốt nhất cho bộ dữ liệu lớn

Tôi sắp tốt nghiệp Thạc sĩ và đã học về học máy cũng như thực hiện các dự án nghiên cứu với nó. Tôi tự hỏi về các thực tiễn tốt nhất trong ngành khi thực hiện các tác vụ học máy với Bộ dữ liệu lớn (như 100 GB …

9 machine-learning predictive-modeling bigdata

1

Ý nghĩa ban đầu của trí thông minh tinh ranh

Thuật ngữ "Thông minh" ban đầu có nghĩa là gì trong "Kinh doanh thông minh" ? Liệu nó có nghĩa là được sử dụng trong " Trí tuệ nhân tạo " hay được sử dụng trong " Cơ quan tình báo " ? Nói cách khác, " Business Intelligence " …

8 bigdata definitions terminology history

1

Lỗi xếp tầng trong Bão tố Apache

Xem qua phần trình bày và tài liệu về Summingbird của Twitter, một trong những lý do được đề cập đến khi sử dụng các cụm Storm và Hadoop cùng nhau trong Summingbird là việc xử lý thông qua Storm dẫn đến xếp tầng lỗi. Để tránh xếp tầng lỗi …

8 bigdata apache-hadoop

3

Làm thế nào để so sánh các thí nghiệm chạy trên các cơ sở hạ tầng khác nhau

Tôi đang phát triển một thuật toán phân tán và để cải thiện hiệu quả, nó phụ thuộc cả vào số lượng đĩa (mỗi đĩa trên một máy) và chiến lược cân bằng tải hiệu quả. Với nhiều đĩa hơn, chúng tôi có thể giảm thời gian sử dụng I …

8 bigdata efficiency performance scalability distributed

2

Lọc thư rác từ dữ liệu đã truy xuất

Tôi đã từng nghe rằng lọc thư rác bằng cách sử dụng danh sách đen không phải là một cách tiếp cận tốt, vì một số người dùng đang tìm kiếm các mục trong tập dữ liệu của bạn có thể đang tìm kiếm thông tin cụ thể từ các …

8 bigdata efficiency

1

Người ta có thể xây dựng các mô hình tuyến tính trên các khối dữ liệu của bộ dữ liệu không, nếu một người không thể xây dựng chúng trên toàn bộ tập dữ liệu?

Người ta có thể xây dựng các mô hình tuyến tính trên "khối" của tập dữ liệu không, nếu người ta không thể xây dựng chúng trên toàn bộ tập dữ liệu? Đặc biệt, tôi vẫn còn hơn 88k biến (tính năng) và người ta không thể làm gì nhiều …

7 bigdata linear-regression

2

Hiểu cách PCA phân phối hoạt động

Là một phần của dự án phân tích dữ liệu lớn, tôi đang làm việc, Tôi cần thực hiện PCA trên một số dữ liệu, sử dụng hệ thống điện toán đám mây. Trong trường hợp của tôi, tôi đang sử dụng Amazon EMR cho công việc và đặc biệt …

7 data-mining bigdata apache-spark pca distributed

2

Kiến trúc Lambda - Cách triển khai Lớp hợp nhất / Lớp truy vấn

Tôi đang đọc về kiến trúc lambda. Nó có ý nghĩa. chúng tôi có hàng đợi dựa trên dữ liệu nhập. chúng tôi có một kho lưu trữ trong bộ nhớ cho dữ liệu rất mới và chúng tôi có HDFS cho dữ liệu cũ. Vì vậy, chúng tôi có …

7 bigdata apache-hadoop

Câu hỏi được gắn thẻ «bigdata»