Khoa học dữ liệu reinforcement-learning

5

Hàm Q là gì và hàm V trong học tăng cường là gì?

Dường như với tôi rằng chức năng VVV có thể dễ dàng được biểu thị bằng chức năng QQQ và do đó chức năng VVV dường như là thừa đối với tôi. Tuy nhiên, tôi chưa quen với việc học tăng cường nên tôi đoán mình đã nhầm. Định nghĩa …

30 machine-learning reinforcement-learning

1

Tại sao xgboost nhanh hơn nhiều so với sklearn GradientBoostingClassifier?

Tôi đang cố gắng đào tạo một mô hình tăng cường độ dốc hơn 50 nghìn ví dụ với 100 tính năng số. XGBClassifierxử lý 500 cây trong vòng 43 giây trên máy của tôi, trong khi GradientBoostingClassifierchỉ xử lý 10 cây (!) trong 1 phút và 2 giây :( …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

Sự khác biệt giữa mạng chính sách và mạng giá trị của AlphaGo

Tôi đã đọc một bản tóm tắt cấp cao về AlphaGo của Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) và tôi đã tìm thấy các điều khoản "chính sách mạng "và" mạng giá trị ". Ở cấp độ cao, tôi hiểu rằng mạng chính sách được sử dụng để đề xuất di chuyển …

25 machine-learning reinforcement-learning

2

Chính xác thì bootstrapping trong học tập củng cố là gì?

Rõ ràng, trong học tập củng cố, phương pháp chênh lệch thời gian (TD) là một phương pháp bootstrapping. Mặt khác, các phương thức Monte Carlo không phải là phương thức bootstrapping. Chính xác thì bootstrapping trong RL là gì? Phương pháp bootstrapping trong RL là gì?

23 reinforcement-learning

1

Trải nghiệm trên mạng là gì

Tôi đã đọc DeepMind Atari của Google giấy và tôi đang cố gắng để hiểu được khái niệm "kinh nghiệm phát lại". Phát lại kinh nghiệm xuất hiện trong rất nhiều tài liệu học tập củng cố khác (đặc biệt là bài AlphaGo), vì vậy tôi muốn hiểu cách thức …

19 reinforcement-learning q-learning

4

AlphaGo (và các chương trình trò chơi khác sử dụng học tăng cường) mà không cần cơ sở dữ liệu của con người

Tôi không phải là một chuyên gia của chủ đề này, và câu hỏi của tôi có lẽ là rất ngây thơ. Nó bắt nguồn từ một bài tiểu luận để hiểu sức mạnh và giới hạn của việc học tăng cường như được sử dụng trong chương trình AlphaGo. …

14 reinforcement-learning

1

Học có giám sát và học tăng cường cho một chiếc xe RC tự lái đơn giản

Tôi đang chế tạo một chiếc xe tự lái điều khiển từ xa để giải trí. Tôi đang sử dụng Raspberry Pi làm máy tính trên máy bay; và tôi đang sử dụng nhiều plugin khác nhau, chẳng hạn như camera Raspberry Pi và cảm biến khoảng cách, để phản …

12 reinforcement-learning supervised-learning

4

Có mô hình ngôn ngữ ngoài luồng nào tốt cho python không?

Tôi đang tạo mẫu cho một ứng dụng và tôi cần một mô hình ngôn ngữ để tính toán sự bối rối trên một số câu được tạo. Có mô hình ngôn ngữ được đào tạo nào trong python tôi có thể dễ dàng sử dụng không? Một cái gì …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Tại sao chúng ta bình thường hóa phần thưởng giảm giá khi thực hiện học tập tăng cường chính sách?

Tôi đang cố gắng hiểu cách tiếp cận độ dốc chính sách để giải quyết vấn đề cartpole . Theo cách tiếp cận này, chúng tôi biểu thị độ dốc của tổn thất ghi từng tham số trong chính sách của chúng tôi như là một kỳ vọng về tổng …

11 reinforcement-learning

2

Học tập tăng cường hợp tác

Tôi đã có một triển khai cho một đại lý duy nhất làm việc về một vấn đề giá động với mục tiêu tối đa hóa doanh thu. Tuy nhiên, vấn đề mà tôi đang làm việc liên quan đến một số sản phẩm khác nhau thay thế cho nhau, …

10 machine-learning reinforcement-learning

2

thực hiện sự khác biệt theo thời gian trong cờ vua

Tôi đã phát triển một chương trình cờ vua sử dụng thuật toán cắt tỉa alpha-beta và chức năng đánh giá để đánh giá các vị trí bằng các tính năng sau đây là vật liệu, an toàn vua, di động, cấu trúc cầm đồ và các mảnh bị mắc …

10 machine-learning algorithms reinforcement-learning

1

Học tăng cường có thể được áp dụng cho dự báo chuỗi thời gian?

9 time-series reinforcement-learning forecasting

4

Sách về học tập tăng cường

Tôi đã cố gắng để hiểu học tăng cường trong một thời gian khá lâu, nhưng bằng cách nào đó tôi không thể hình dung được cách viết một chương trình học tăng cường để giải quyết vấn đề thế giới lưới. Bạn có thể gợi ý cho tôi một …

9 machine-learning books reinforcement-learning

2

Phát lại ưu tiên, Lấy mẫu quan trọng thực sự làm gì?

Tôi không thể hiểu mục đích của trọng số lấy mẫu quan trọng (IS) trong Phát lại ưu tiên (trang 5) . Một quá trình chuyển đổi có nhiều khả năng được lấy mẫu từ kinh nghiệm phát lại "chi phí" lớn hơn của nó. Sự hiểu biết của tôi …

9 reinforcement-learning

3

Tôi cần kiến thức gì để viết một chương trình AI đơn giản để chơi trò chơi?

Tôi tốt nghiệp B.Sc. Một trong những khóa học của tôi là 'Giới thiệu về Machine Learning' và tôi luôn muốn thực hiện một dự án cá nhân trong chủ đề này. Gần đây tôi đã nghe về việc đào tạo AI khác nhau để chơi các trò chơi như …

8 machine-learning algorithms beginner reinforcement-learning training

Câu hỏi được gắn thẻ «reinforcement-learning»