Phân biệt giữa hai nhóm trong thống kê và học máy: kiểm tra giả thuyết so với phân loại so với phân cụm


29

Giả sử tôi có hai nhóm dữ liệu, được gắn nhãn A và B (mỗi nhóm chứa 200 mẫu và 1 tính năng) và tôi muốn biết liệu chúng có khác nhau không. Tôi có thể:

  • a) thực hiện kiểm tra thống kê (ví dụ kiểm tra t) để xem chúng có khác nhau về mặt thống kê hay không.

  • b) sử dụng học máy có giám sát (ví dụ: phân loại véc tơ hỗ trợ hoặc phân loại rừng ngẫu nhiên). Tôi có thể huấn luyện điều này trên một phần dữ liệu của mình và xác minh nó trên phần còn lại. Nếu thuật toán học máy phân loại chính xác phần còn lại sau đó, tôi có thể chắc chắn rằng các mẫu là khác nhau.

  • c) sử dụng thuật toán không giám sát (ví dụ: K-Means) và để nó chia tất cả dữ liệu thành hai mẫu. Sau đó tôi có thể kiểm tra xem hai mẫu tìm thấy này có đồng ý với nhãn của tôi không, A và B.

Câu hỏi của tôi là:

  1. Làm thế nào là ba cách khác nhau chồng chéo / độc quyền?
  2. Là b) và c) hữu ích cho bất kỳ đối số khoa học?
  3. Làm thế nào tôi có thể nhận được một ý nghĩa quan trọng của người Viking về sự khác biệt giữa các mẫu A và B trong các phương pháp b) và c)?
  4. Điều gì sẽ thay đổi nếu dữ liệu có nhiều tính năng thay vì 1 tính năng?
  5. Điều gì xảy ra nếu chúng chứa một số lượng mẫu khác nhau, ví dụ 100 so với 300?

3
Tôi có thể nói rằng sự khác biệt giữa (a) và (b) là kiểm tra thống kê tập trung về việc liệu có một sự khác biệt, trong khi các phương pháp phân loại tập trung vào kích thước của sự khác biệt này. Khi bạn sử dụng rừng ngẫu nhiên, bạn muốn biết độ chính xác được xác thực chéo; có lẽ là 78%. Đó là con số bạn quan tâm và không đưa ra tuyên bố rằng nó không bằng 50% .
amip nói rằng Phục hồi lại

4
Các tình huống IMHO trong đó a / b / c có ý nghĩa khác nhau về tỷ lệ nhiễu tín hiệu điển hình và nó tăng từ (a) đến (b) đến (c). Trong ứng dụng điển hình của kiểm tra t, có độ ồn cao; chúng tôi muốn chỉ ra rằng các nhóm không bằng nhau. Nếu các nhóm rõ ràng là không bằng nhau (ít tiếng ồn hơn), chúng tôi thực sự không cần kiểm tra nữa; thay vào đó, chúng tôi muốn định lượng mức độ khác nhau của các nhóm và độ chính xác của phân loại ngoài mẫu có thể giúp ích ở đây. Nếu có độ ồn thậm chí ít hơn và độ chính xác phân loại là ~ 100%, chúng ta có thể hỏi xem các nhóm có quá khác biệt đến mức có thể được chọn bằng thuật toán phân cụm hay không.
amip nói rằng Phục hồi Monica

1
@amoeba, tôi đang giải quyết cho bạn vì bạn đã chỉnh sửa tiêu đề câu hỏi, v.v. Tôi sẽ đề nghị bạn xem xét lại một lần nữa. "Phân loại" và "phân cụm": không thuộc sở hữu (duy nhất) của máy học. Các tác vụ này đã xuất hiện và được thực hiện thường xuyên trong phân tích thống kê / dữ liệu trước m đầu tiên. người học đã ra đời. Nó chỉ đúng với một số kỹ thuật gần đây như SVM đã phát triển do và trong ML. Không đúng khi liên kết phân loại / phân cụm / cây với ML. ML, tuy nhiên, khác với phân tích dữ liệu thống kê ở khía cạnh nó sử dụng đào tạo / kiểm tra rất nhiều.
ttnphns

@ttnphns Chắc chắn, tất cả đều đúng, nhưng tiêu đề ban đầu là "Phân biệt mẫu: Machine Learning so với kiểm tra thống kê (ví dụ: kiểm tra t)" và tôi chỉ muốn thêm một số độ chính xác cho nó vì câu hỏi thực sự là về kiểm tra t vs phân loại so với phân cụm (cho mục đích khoa học cụ thể này). Tôi sẽ suy nghĩ về những cải tiến có thể cho tiêu đề.
amip nói rằng Phục hồi lại

@ttnphns Tôi đã chỉnh sửa tiêu đề, xem bạn có thích nó hơn không.
amip nói rằng Phục hồi Monica

Câu trả lời:


15

Câu hỏi tuyệt vời. Bất cứ điều gì có thể tốt hoặc xấu, hữu ích hay không, dựa trên mục tiêu của bạn là gì (và có lẽ dựa trên bản chất của tình huống của bạn). Đối với hầu hết các phần, các phương pháp này được thiết kế để đáp ứng các mục tiêu khác nhau.

  • tt
  • Các trình phân loại trong học máy, như một SVM, được thiết kế để phân loại các mẫu thuộc về một trong các nhóm lớp đã biết. Tình huống điển hình là bạn có một số trường hợp đã biết và bạn muốn huấn luyện trình phân loại bằng cách sử dụng chúng để có thể cung cấp các phân loại chính xác nhất trong tương lai khi bạn sẽ có các mẫu khác mà lớp thực sự chưa biết. Sự nhấn mạnh ở đây là về độ chính xác của mẫu ; bạn không kiểm tra bất kỳ giả thuyết nào Chắc chắn bạn hy vọng rằng việc phân phối các biến / tính năng dự đoán khác nhau giữa các lớp, bởi vì nếu không thì sẽ không có sự trợ giúp phân loại nào trong tương lai, nhưng bạn không cố gắng đánh giá niềm tin của mình rằng phương tiện của Y khác với X. Bạn muốn đoán chính xác X trong tương lai khi Y được biết đến.
  • Các thuật toán học tập không giám sát, như phân cụm , được thiết kế để phát hiện hoặc áp đặt cấu trúc lên tập dữ liệu. Có nhiều lý do có thể bạn muốn làm điều này. Đôi khi bạn có thể mong đợi rằng có các nhóm thực sự, tiềm ẩn trong một tập dữ liệu và muốn xem liệu kết quả phân cụm có vẻ hợp lý và có thể sử dụng cho mục đích của bạn không. Trong các trường hợp khác, bạn có thể muốn áp đặt cấu trúc lên tập dữ liệu để cho phép giảm dữ liệu. Dù bằng cách nào, bạn không cố gắng kiểm tra một giả thuyết về bất cứ điều gì, và bạn cũng không hy vọng có thể dự đoán chính xác bất cứ điều gì trong tương lai.

Với suy nghĩ này, hãy giải quyết các câu hỏi của bạn:

  1. Ba phương pháp khác nhau cơ bản trong các mục tiêu họ phục vụ.
  2. b và c có thể hữu ích trong các lập luận khoa học, nó phụ thuộc vào bản chất của các đối số trong câu hỏi. Cho đến nay, loại nghiên cứu phổ biến nhất trong khoa học tập trung vào các giả thuyết thử nghiệm. Tuy nhiên, hình thành các mô hình dự đoán hoặc phát hiện các patters tiềm ẩn cũng có thể là mục tiêu hợp pháp.
  3. Thông thường, bạn sẽ không cố gắng nhận được "ý nghĩa" từ các phương pháp b hoặc c.
  4. Giả sử các tính năng được phân loại trong tự nhiên (mà tôi thu thập được là những gì bạn có trong đầu), bạn vẫn có thể kiểm tra các giả thuyết bằng cách sử dụng ANOVA nhân tố. Trong học máy có một chủ đề phụ để phân loại đa nhãn . Ngoài ra còn có các phương pháp cho nhiều cụm thành viên / cụm chồng chéo, nhưng chúng ít phổ biến hơn và tạo thành một vấn đề ít dễ xử lý hơn. Để biết tổng quan về chủ đề này, hãy xem Krumpleman, CS (2010) Phân cụm chồng chéo. Luận án, UT Austin, Kỹ thuật điện và máy tính ( pdf ).
  5. Nói chung, cả ba loại phương pháp đều gặp khó khăn lớn hơn vì số lượng các trường hợp trên các danh mục phân kỳ.

2
Re # 4: Tôi nghĩ bạn hiểu nhầm từ "tính năng" trong OP. Trong học máy, "tính năng" chỉ đơn giản là một biến. Vì vậy, "nhiều tính năng" có nghĩa là người ta sẽ sử dụng phiên bản đa biến của thử nghiệm t (chẳng hạn như T của Hotelling), chứ không phải ANOVA nhân tố.
amip nói rằng Phục hồi lại

11

Không đi đến phân cụm vì nó được giải quyết trong các câu trả lời khác, nhưng:

Nói chung, vấn đề kiểm tra xem hai mẫu có khác nhau về mặt ý nghĩa hay không được gọi là thử nghiệm hai mẫu .

tp

Có thể dễ dàng hơn để suy nghĩ về một số vấn đề này nếu bạn xây dựng một bài kiểm tra hai mẫu từ một bộ phân loại, ví dụ như đề xuất gần đây của Lopez-Paz và Oquab (2017) . Thủ tục như sau:

  • XYXtrainXtestYtrainYtest
  • XtrainYtrain
  • XtestYtest
  • p^p=12p12p12

Bằng cách kiểm tra trình phân loại đã học, bạn cũng có thể diễn giải sự khác biệt giữa các bản phân phối theo cách bán có ý nghĩa. Bằng cách thay đổi họ phân loại bạn xem xét, bạn cũng có thể giúp hướng dẫn kiểm tra để tìm kiếm các loại khác biệt nhất định.

Lưu ý rằng điều quan trọng là thực hiện phân tách kiểm tra tàu hỏa: nếu không, một bộ phân loại chỉ ghi nhớ các đầu vào của nó sẽ luôn có khả năng phân biệt đối xử hoàn hảo. Việc tăng phần điểm trong tập huấn luyện cung cấp cho bạn nhiều dữ liệu hơn để học một trình phân loại tốt, nhưng ít cơ hội hơn để chắc chắn rằng độ chính xác của phân loại thực sự khác với cơ hội. Sự đánh đổi này là một cái gì đó sẽ thay đổi theo vấn đề và gia đình phân loại và chưa được hiểu rõ.

Lopez-Paz và Oquab cho thấy hiệu suất thực nghiệm tốt của phương pháp này đối với một số vấn đề. Ramdas et al. (2016) cũng cho thấy về mặt lý thuyết, một cách tiếp cận liên quan chặt chẽ là tối ưu hóa tỷ lệ cho một vấn đề đơn giản cụ thể. Điều "đúng" cần làm trong cài đặt này là một lĩnh vực nghiên cứu tích cực, nhưng cách tiếp cận này ít nhất là hợp lý trong nhiều cài đặt nếu bạn muốn linh hoạt và dễ hiểu hơn một chút so với chỉ áp dụng một số thử nghiệm tiêu chuẩn ngoài luồng.


(+1) Ngoài ra, xác thực chéo lồng nhau là cách để đi, imo. Sau đó kiểm tra ước tính hiệu suất bạn nhận được trong vòng lặp lấy mẫu bên ngoài so với hiệu suất mô hình không có thông tin. Nếu cao hơn đáng kể so với dự kiến ​​bởi cơ hội ngẫu nhiên, thì dữ liệu của bạn có phần bị phân biệt đối xử.
Firebug

@Fireorms Ý bạn là gì khi nói "hiệu suất mô hình không có thông tin"? Tôi không nhận được thủ tục đề xuất của bạn.
Dougal

2
@Fireorms Một cảnh báo quan trọng nhưng tinh tế là nếu độ chính xác phân loại được ước tính qua CV thì người ta không thể sử dụng thử nghiệm nhị thức.
amip nói phục hồi Monica

2
@Fireorms Quan điểm của tôi vẫn còn: bạn không thể áp dụng bất kỳ loại thử nghiệm một mẫu nào cho AUC từ các nếp gấp khác nhau và đặc biệt từ CV lặp đi lặp lại vì các ước tính này không độc lập. Đây là một vấn đề nổi tiếng.
amip nói rằng Phục hồi lại

2
Kiểm tra hoán vị lại: Tôi đã tự làm điều đó. Bạn chạy CV để có được ước tính hiệu suất, sau đó xáo trộn các nhãn và chạy lại toàn bộ đường ống CV (và thực hiện việc xáo trộn này 100 hoặc 1000 lần để có được phân phối null). Điều này không có xu hướng mất rất nhiều thời gian mặc dù. Cc đến @Fireorms.
amip nói phục hồi Monica

3

Chỉ có cách tiếp cận (a) phục vụ mục đích kiểm định giả thuyết.

Trong trường hợp sử dụng các thuật toán học máy có giám sát (b), chúng không thể chứng minh hoặc bác bỏ giả thuyết về sự xa cách của các nhóm. Nếu thuật toán học máy không phân loại chính xác các nhóm, điều đó có thể xảy ra do bạn đã sử dụng thuật toán "sai" cho vấn đề của mình hoặc bạn đã không điều chỉnh đủ, v.v. Mặt khác, bạn có thể "tra tấn" dữ liệu hoàn toàn "ngẫu nhiên" đủ để tạo ra mô hình quá mức mà đưa ra dự đoán tốt. Một vấn đề khác là khi nào và làm thế nào bạn biết rằng thuật toán đưa ra dự đoán "tốt"? Hầu như không bao giờ bạn sẽ nhắm đến độ chính xác phân loại 100%, vậy khi nào bạn sẽ biết rằng kết quả phân loại chứng minh điều gì?

Các thuật toán phân cụm (c) không được thiết kế cho việc học có giám sát. Họ không nhằm mục đích tạo lại các nhãn, nhưng để nhóm dữ liệu của bạn theo các điểm tương đồng. Bây giờ, kết quả phụ thuộc vào thuật toán bạn sử dụng và loại tương tự bạn đang tìm kiếm. Dữ liệu của bạn có thể có nhiều điểm tương đồng khác nhau, bạn có thể muốn tìm kiếm sự khác biệt giữa con trai và con gái, nhưng thuật toán có thể tìm thấy các nhóm trẻ nghèo và giàu, hoặc thông minh và kém thông minh, thuận tay phải và tay trái, v.v. việc nhóm mà bạn dự định không chứng minh rằng việc nhóm không có ý nghĩa, mà chỉ có điều nó tìm thấy nhóm "có ý nghĩa" khác. Như trong trường hợp trước, kết quả có thể phụ thuộc vào thuật toán được sử dụng và các tham số. Nó sẽ hợp với bạn nếu một trong mười thuật toán / cài đặt tìm thấy "của bạn" nhãn? Điều gì nếu nó là một trong một trăm? Bao lâu bạn sẽ tìm kiếm trước khi dừng lại? Lưu ý rằng khi sử dụng học máy trong phần lớn các trường hợp bạn sẽ không dừng lại sau khi sử dụng một thuật toán với cài đặt mặc định và kết quả có thể phụ thuộc vào quy trình bạn đã sử dụng.


2
Đối với phương pháp tiếp cận (b): bạn có thể xây dựng một bài kiểm tra giả thuyết như đã lưu ý trong câu trả lời của tôi để giải quyết vấn đề về việc liệu kết quả của bạn có ý nghĩa hay không (mặc dù điều này chắc chắn là sử dụng các phân loại ngây thơ cho vấn đề này). Lưu ý rằng bất kỳ kiểm tra giả thuyết nào cũng có thể không từ chối null vì đây là kiểm tra "sai" cho vấn đề của bạn, theo cách chính xác giống như cách xảy ra với trình phân loại; vấn đề quá mức được giải quyết đầy đủ bằng cách chia dữ liệu.
Dougal

@Dougal điểm tốt (+1) nhưng lập luận chính của tôi là bằng cách sử dụng máy học kết quả phụ thuộc vào cách bạn chọn thuật toán, sử dụng nó, kiểm tra nó và đánh giá kết quả; Vì vậy, kết quả của thử nghiệm như vậy đến mức độ lớn phụ thuộc vào hành động của bạn. Điều này có nghĩa là có khả năng hai nhà thống kê khác nhau có thể nhận được kết quả khác nhau trong khi sử dụng phương pháp này. Mặt khác, với các thử nghiệm giả thuyết truyền thống, nó chỉ phụ thuộc vào sự lựa chọn của thử nghiệm.
Tim

Ngoài ra, không có cách "chính xác" nào để áp dụng nó và bạn có thể dễ dàng thao tác nó (có chủ đích hay không) để thu được kết quả mong đợi.
Tim

Nếu bạn chỉ đang thử một triệu thứ cho đến khi bạn nhận được kết quả mong muốn, vâng. Nếu bạn thực hiện phân tách dữ liệu phù hợp bao gồm từ phân tích của riêng bạn, thì quy trình kiểm tra là hoàn toàn hợp lệ. Có nhiều lựa chọn hơn cho phép bạn có sức mạnh lớn hơn trong các tình huống bạn biết cách khai thác nó, nhưng có cho phép nhiều cơ hội gian lận hơn (vô tình hay nói cách khác) nếu bạn không cẩn thận.
Dougal

@Dougal có, nhưng kết quả cũng phụ thuộc vào thủ tục được sử dụng để xác thực chéo và chính việc phân tách (ví dụ: kích thước của nhóm thử nghiệm). Vì vậy, ở mỗi bước kết quả phụ thuộc vào thủ tục của bạn. Hơn nữa, đó là quyết định của bạn khi bạn ngừng học hỏi và cố gắng đạt được kết quả tốt hơn (thuật toán đơn với cài đặt mặc định, so với thuật toán đơn và điều chỉnh các tham số, so với nhiều thuật toán - bao nhiêu thuật toán?). Quy trình này có thể cần một số chỉnh sửa cho nhiều thử nghiệm (nhưng chính xác là gì?) Để giải thích cho quy trình đã sử dụng - kết quả tốt trên thuật toán đơn với cài đặt mặc định dường như
Tim

2
  1. a) chỉ trả lời cho bạn câu hỏi liệu phân phối có khác nhau không, nhưng không biết cách phân biệt chúng. b) cũng sẽ tìm thấy giá trị tốt nhất để phân biệt giữa hai phân phối. c) sẽ hoạt động nếu hai bản phân phối có một số thuộc tính cụ thể. Ví dụ, nó sẽ hoạt động với phân phối bình thường nhưng không phải với một số hai phân phối phương thức, bởi vì phương thức có thể phân biệt hai chế độ của cùng một nhóm thay vì hai nhóm khác nhau.

  2. c) không hữu ích cho các lập luận khoa học vì hai phân phối phương thức. b) có thể được sử dụng để phân biệt hai phân phối, bởi vì bạn có thể tính toán mức ý nghĩa (xem 3.) Mặc dù tôi chưa bao giờ gặp nó.

  3. Bằng cách bootstrapping. Bạn tính toán mô hình dựa trên các mẫu con ngẫu nhiên 1000 lần. Bạn nhận được một số điểm, ví dụ tổng các lỗi alpha và beta tối thiểu. Bạn sắp xếp điểm tăng dần. Để tự tin 5%, bạn chọn giá trị thứ 950. Nếu giá trị này thấp hơn 50% (đối với số điểm bằng nhau của nhóm A và B) thì với độ tin cậy 95%, bạn có thể bỏ qua giả thuyết khống rằng các phân phối là như nhau. Vấn đề là nếu các bản phân phối đều bình thường, có cùng một giá trị, nhưng có một biến thể khác nhau thì bạn sẽ không thể hiểu rằng chúng khác nhau bởi các kỹ thuật ML. Mặt khác, bạn có thể tìm thấy một bài kiểm tra biến thể sẽ có thể phân biệt hai bản phân phối. Và nó có thể là một cách khác xung quanh ML sẽ mạnh hơn một bài kiểm tra thống kê và sẽ có thể phân biệt các bản phân phối.

  4. Khi bạn chỉ có một tính năng trong ML, bạn chỉ cần tìm một giá trị để phân biệt các bản phân phối. Với hai tính năng, đường viền có thể là một xoang và trong không gian đa chiều, nó có thể thực sự kỳ lạ. Vì vậy, sẽ khó khăn hơn nhiều để tìm đúng biên giới. Mặt khác, các tính năng bổ sung mang lại thông tin bổ sung. Vì vậy, nó thường sẽ cho phép phân biệt hai phân phối dễ dàng hơn. Nếu cả hai biến được phân phối bình thường thì đường viền là một dòng.

  5. Các mẫu nhỏ hơn có thể hoạt động không bình thường vì Định lý giới hạn trung tâm không thể được áp dụng. Mẫu lớn hơn bắt đầu hoạt động bình thường hơn vì Định lý giới hạn trung tâm bắt đầu hoạt động. Ví dụ, giá trị trung bình của cả hai nhóm sẽ được phân phối gần như bình thường nếu mẫu đủ lớn. Nhưng nó thường không phải là 100 so với 300 mà là 10 quan sát so với 1000 quan sát. Vì vậy, theo trang web này , kiểm tra t cho sự khác biệt của giá trị trung bình sẽ hoạt động không phân biệt phân phối nếu số lượng quan sát lớn hơn 40 và không có ngoại lệ.


0

Kiểm tra thống kê là để suy luận từ dữ liệu, nó cho bạn biết mọi thứ có liên quan như thế nào. Kết quả là một cái gì đó có ý nghĩa trong thế giới thực. Ví dụ, hút thuốc có liên quan đến ung thư phổi, cả về phương hướng và cường độ. Nó vẫn không cho bạn biết lý do tại sao mọi thứ xảy ra. Để trả lời lý do tại sao mọi thứ xảy ra, chúng ta cũng cần xem xét mối tương quan với các biến khác và thực hiện các điều chỉnh phù hợp (xem Pearl, J. (2003) NGUYÊN NHÂN: MÔ HÌNH, LÝ DO, VÀ THAM KHẢO).

Học tập có giám sát là để đưa ra dự đoán, nó cho bạn biết điều gì sẽ xảy ra. Ví dụ: Với tình trạng hút thuốc của một người, chúng ta có thể dự đoán liệu người đó có bị ung thư phổi hay không. Trong các trường hợp đơn giản, nó vẫn cho bạn biết cách sử dụng, ví dụ như bằng cách xem xét mức cắt của tình trạng hút thuốc được xác định bởi thuật toán. Nhưng các mô hình phức tạp hơn khó hoặc không thể diễn giải (học sâu / tăng cường với nhiều tính năng).

Học tập không giám sát thường được sử dụng để tạo điều kiện cho hai điều trên.

  • Để kiểm tra thống kê, bằng cách khám phá một số nhóm con cơ bản chưa biết của dữ liệu (phân cụm), chúng ta có thể suy ra tính không đồng nhất trong các liên kết giữa các biến. Ví dụ: hút thuốc làm tăng tỷ lệ mắc ung thư phổi cho nhóm A nhưng không phải nhóm B.
  • Đối với việc học có giám sát, chúng ta có thể tạo ra các tính năng mới để cải thiện độ chính xác và độ mạnh của dự đoán. Ví dụ: bằng cách xác định các nhóm con (phân cụm) hoặc kết hợp các tính năng (giảm kích thước) có liên quan đến tỷ lệ mắc ung thư phổi.

Khi số lượng các tính năng / biến trở nên lớn hơn, sự khác biệt giữa kiểm tra thống kê và học tập có giám sát sẽ trở nên đáng kể hơn. Kiểm tra thống kê có thể không nhất thiết được hưởng lợi từ điều này, nó phụ thuộc vào việc bạn muốn suy luận nguyên nhân bằng cách kiểm soát các yếu tố khác hoặc xác định tính không đồng nhất trong các hiệp hội như đã đề cập ở trên. Học tập có giám sát sẽ hoạt động tốt hơn nếu các tính năng có liên quan và nó sẽ trở nên giống như một hộp đen.

Khi số lượng mẫu lớn hơn, chúng ta có thể nhận được kết quả chính xác hơn cho kiểm tra thống kê, kết quả chính xác hơn cho việc học có giám sát và kết quả mạnh mẽ hơn cho việc học không giám sát. Nhưng điều này phụ thuộc vào chất lượng của dữ liệu. Dữ liệu kém chất lượng có thể giới thiệu sai lệch hoặc nhiễu cho kết quả.

Đôi khi, chúng tôi muốn biết về cách thức và cách thức sử dụng các biện pháp can thiệp, ví dụ như bằng cách xác định rằng hút thuốc lá gây ung thư phổi, chính sách có thể được thực hiện để đối phó với điều đó. Đôi khi, chúng tôi muốn biết về những gì mà người Hồi giáo đưa ra để đưa ra quyết định, ví dụ như tìm ra người có khả năng bị ung thư phổi và cho họ điều trị sớm. Có một vấn đề đặc biệt được công bố trên Science về dự đoán và giới hạn của nó ( http://science.sciencemag.org/content/355/6324/468). Thành công của dường như đạt được một cách nhất quán khi các câu hỏi được giải quyết trong các nỗ lực đa ngành liên quan đến sự hiểu biết của con người về bối cảnh với khả năng thuật toán để xử lý terabyte dữ liệu. những dữ liệu / tính năng nào chúng ta nên thu thập ở nơi đầu tiên. Mặt khác, học tập có giám sát có thể giúp tạo ra các giả thuyết bằng cách thông báo biến nào

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.