Khoa học dữ liệu và nghiên cứu hoạt động


11

Câu hỏi chung, như tiêu đề cho thấy, là:

  • Sự khác biệt giữa DS và OR / tối ưu hóa là gì.

Ở cấp độ khái niệm, tôi hiểu rằng DS cố gắng trích xuất kiến thức từ dữ liệu có sẵn và sử dụng hầu hết các kỹ thuật Thống kê, Học máy. Mặt khác, OR sử dụng dữ liệu để đưa ra quyết định dựa trên dữ liệu, ví dụ bằng cách tối ưu hóa một số chức năng mục tiêu (tiêu chí) so với dữ liệu (đầu vào).

Tôi tự hỏi, làm thế nào hai mô hình so sánh.

  • Là một tập hợp con khác?
  • Họ đang xem xét các lĩnh vực bổ sung?
  • Có ví dụ rằng một lĩnh vực bổ sung cho lĩnh vực khác hoặc chúng được sử dụng trong kết hợp?

Đặc biệt, tôi quan tâm đến những điều sau đây:

Có ví dụ nào về kỹ thuật OR được sử dụng để giải quyết câu hỏi / vấn đề về Khoa học dữ liệu không?


3
Tôi không chắc đây thực sự là một câu hỏi về khoa học máy tính nhưng tôi cho rằng nó đủ gần. Tôi đã chỉnh sửa phần về những gì mọi người ở một bên nghĩ về bên kia, vì đó dường như hoàn toàn là vấn đề quan điểm.
David Richerby

@DavidR Richby cảm ơn. Tôi đồng ý với bạn rằng nó có thể là một vấn đề quan điểm. Theo truyền thống, cả hai ngành học đều được dạy và xuất hiện, từ cộng đồng CS vì vậy, tôi cho rằng, đây là nơi chính xác để hỏi.
PsySp


@DW cảm ơn bạn. Tôi đã đọc các bài báo và thành thật mà nói tôi không thấy bất kỳ cuộc thảo luận nào về sự chồng chéo và / hoặc sự khác biệt giữa hai lĩnh vực được đề cập. Cụ thể, làm thế nào một bổ sung cho người khác.
PsySp

1
Khoa học dữ liệu chủ yếu là về làm việc để tìm thông tin qua dữ liệu. Nghiên cứu hoạt động chủ yếu là về làm việc để cải thiện việc ra quyết định. Bạn thường có thể xem HOẶC như sử dụng các phương pháp để tìm một chính sách tối ưu để sử dụng trong việc ra quyết định. Một số phương thức được sử dụng trong OR có thể được phân loại là phương pháp Học tăng cường trong cộng đồng CS, mặc dù không phải tất cả các vấn đề OR đều thuộc loại này.
spektr

Câu trả lời:


9

Mặc dù cả Nghiên cứu hoạt động và Khoa học dữ liệu đều bao gồm một số lượng lớn các chủ đề và lĩnh vực, tôi sẽ cố gắng đưa ra quan điểm của mình về những gì tôi thấy là phần chính và đại diện nhất của mỗi chủ đề.

Như những người khác đã chỉ ra, phần lớn Nghiên cứu hoạt động chủ yếu liên quan đến việc đưa ra quyết định . Mặc dù có nhiều cách khác nhau để xác định cách đưa ra quyết định, các phần chính của OR (theo tôi) được tập trung vào mô hình hóa các vấn đề quyết định trong khung lập trình toán học. Trong các loại khung này, bạn thường có một tập hợp các biến quyết định, các ràng buộc đối với các biến này và hàm mục tiêu phụ thuộc vào các biến quyết định của bạn mà bạn đang cố gắng giảm thiểu hoặc tối đa hóa. Khi các biến quyết định có thể nhận các giá trị trong , các ràng buộc là bất đẳng thức tuyến tính so với các biến quyết định của bạn và hàm mục tiêu là hàm tuyến tính của các biến quyết định, khi đó bạn có chương trình tuyến tínhR- đặc điểm chính của OR trong sáu mươi năm qua. Nếu bạn có các loại hàm mục tiêu hoặc ràng buộc khác, bạn sẽ thấy mình trong lĩnh vực lập trình số nguyên , lập trình bậc hai , lập trình bán xác định , v.v ...

Mặt khác, Khoa học dữ liệu chủ yếu liên quan đến việc đưa ra các kết luận. Ở đây, bạn thường bắt đầu với một đống dữ liệu lớn và bạn muốn suy luận điều gì đó về dữ liệu bạn chưa thấy trong đống lớn của mình. Các loại điển hình bạn thấy ở đây là: 1) đống dữ liệu lớn biểu thị kết quả trong quá khứ của hai tùy chọn khác nhau và bạn muốn biết tùy chọn nào sẽ mang lại kết quả tốt nhất, 2) đống dữ liệu lớn biểu thị thời gian chuỗi và bạn muốn biết chuỗi thời gian đó sẽ kéo dài như thế nào trong tương lai, 3) đống dữ liệu lớn đại diện cho một tập hợp các quan sát được dán nhãn và bạn muốn suy ra các nhãn cho các quan sát mới, không ghi nhãn. Hai ví dụ đầu tiên rơi thẳng vào các lĩnh vực thống kê cổ điển (thử nghiệm giả thuyết và dự báo chuỗi thời gian, tương ứng) trong khi ví dụ thứ ba tôi nghĩ có liên quan chặt chẽ hơn với các chủ đề học máy hiện đại (phân loại).

Vì vậy, theo tôi, Nghiên cứu hoạt động và Khoa học dữ liệu chủ yếu là các ngành trực giao, mặc dù có một số chồng chéo. Cụ thể, tôi nghĩ rằng dự báo chuỗi thời gian xuất hiện với số lượng không hề nhỏ trong OR; nó là một trong những phần quan trọng hơn, không dựa trên lập trình của OR. Nghiên cứu hoạt động là nơi bạn rẽ nếu bạn có mối quan hệ đã biết giữa đầu vào và đầu ra; Khoa học dữ liệu là nơi bạn biến nếu bạn đang cố xác định mối quan hệ đó (đối với một số định nghĩa về đầu vào và đầu ra).


Cảm ơn bạn đã trả lời rõ ràng. Tôi đã tự hỏi nếu, ví dụ, người ta có thể sử dụng bất kỳ kỹ thuật OR nào để giải quyết các vấn đề DS. Tôi sẽ quan tâm đến một ví dụ như vậy, nhưng từ câu trả lời của bạn, tôi nghi ngờ có bất kỳ.
PsySp 17/03/2017

@Psysp Eh, có lẽ? Tôi không thể nghĩ ra bất cứ điều gì ngoài đỉnh đầu của tôi nhưng điều đó không thể dứt khoát.
mhum 17/03/2017

1
Tôi không nghĩ rằng sự phân chia giữa OR và DS là nghiêm ngặt như bạn tin, nhưng điều này có thể là do tôi coi các chủ đề là máy học và dữ liệu như là một phần của DS thay vì coi DS là từ đồng nghĩa của Thống kê. (Thật không may, như DS là một từ thông dụng, nó đã được chấp nhận rộng rãi không có định nghĩa, như xa như tôi biết) Tuy nhiên, nhiệm vụ của descisionsuy luận cần không loại trừ lẫn nhau. Học máy chính xác là lĩnh vực kết hợp cả hai: đôi khi phải đưa ra những quyết định sáng suốt để đưa ra những suy luận đàng hoàng, đôi khi những suy luận thông minh được sử dụng cho những quyết định tốt.
Thằn lằn rời rạc

@Discretelizard Chắc chắn, tôi đồng ý ở một mức độ nào đó. Tôi đang trình bày một bộ phận khá rõ ràng (có thể gần như là tranh biếm họa?) Và tập trung vào các phần cốt lõi của mỗi lĩnh vực để làm nổi bật sự khác biệt trong các loại vấn đề mà mỗi lĩnh vực thường được điều chỉnh. Các cạnh của cả hai trường có thể khá mờ (đặc biệt là trong DS mới hơn rất nhiều) và có lẽ có nhiều sự chồng chéo ở đó. Ngoài ra, tôi đồng ý rằng rất nhiều dòng chính của DS bao gồm các công cụ ML nhưng tôi không chắc chính xác DS được chia từ ML như thế nào.
mhum

4

Đây không phải là một câu trả lời đầy đủ, vì mhum khá tốt trong việc đối chiếu các mục tiêu khác nhau của OR so với DS.

Thay vào đó, tôi muốn giải quyết nhận xét này của bạn:

Tôi đã tự hỏi nếu, ví dụ, người ta có thể sử dụng bất kỳ kỹ thuật OR nào để giải quyết các vấn đề DS.

Câu trả lời là có. Ví dụ rõ ràng nhất mà bạn nghĩ đến là Support Vector Machines (SVM) .

Để "khớp" mô hình SVM với một số dữ liệu (phải được thực hiện trước khi bạn có thể sử dụng nó để suy ra dự đoán), phải giải quyết vấn đề tối ưu hóa sau:

Tối đa hóa kép,

g(a)=i=1mαi12i=1mj=1mαiαjyiyjxiTxj,

chịu sự ràng buộc

0αiC,i=1nyiαi=0

Đây là một vấn đề tối ưu hóa bị ràng buộc, giống như nhiều vấn đề trong lĩnh vực OR và nó được giải quyết bằng các phương pháp lập trình bậc hai hoặc phương pháp điểm bên trong. Chúng thường được liên kết với lĩnh vực OR chứ không phải DS nhưng đây là một ví dụ về khả năng ứng dụng rộng hơn của chúng.

Tổng quát hơn, tối ưu hóa là chìa khóa cho nhiều mô hình thống kê và máy học được sử dụng trong lĩnh vực DS, vì quá trình đào tạo các mô hình này thường có thể được coi là một vấn đề tối thiểu hóa liên quan đến chức năng mất / hối tiếc - từ thế kỷ khiêm tốn mô hình hồi quy tuyến tính đến mạng nơ ron học sâu mới nhất.

Một tài liệu tham khảo tốt về SVM là Giám mục .


2

Là một chiến lược gia, tôi đã có cơ hội làm việc với cả hai bên của ngành học. Khi cố gắng giải thích OR và DS là gì đối với một giám đốc điều hành MBA định tính, giới thiệu một dòng đơn giản (quá mức) của tôi cho mỗi

HOẶC: các nhà kinh tế biết cách viết mã
DS: các nhà thống kê biết cách viết mã.

Về mặt thực tế, làm thế nào hai nhóm thường kết hợp với nhau: phía OR phát triển mô hình quyết định và phía DS tìm ra cách triển khai dữ liệu phù hợp để cung cấp mô hình.

Mỗi người, sẽ dựa vào truyền thống lý thuyết của các ngành của họ - cùng nhau, họ tiến hành thử nghiệm để cấu trúc dữ liệu và tinh chỉnh mô hình để có được những hiểu biết thực sự cần thiết cho các quyết định tối ưu. Khi mỗi người biết nhau, suy nghĩ và ngôn ngữ của họ thường sẽ hội tụ.


1
Tôi hiểu mô tả thực tế của DS là "các nhà thống kê mã hóa", nhưng mô tả cho OR có vẻ hơi lạ đối với tôi. HOẶC bao gồm hậu cần và các vấn đề định tuyến liên quan. Đó không thực sự là một nơi tự nhiên đối với một nhà kinh tế đối với tôi. Có lẽ bạn có thể giải thích tại sao HOẶC được thực hiện bởi các nhà kinh tế trong thực tế?
Thằn lằn rời rạc

1
@Discretelizard Tôi không nghi ngờ rằng các nhà kinh tế làm OR, nhưng, như bạn nói, có rất nhiều OR không liên quan gì đến kinh tế và được thực hiện bởi các nhà khoa học máy tính, nhà toán học và những người khác.
David Richerby

0

Khoa học dữ liệu là một lĩnh vực rộng lớn liên quan đến dữ liệu nói chung. Nếu điều này nghe có vẻ mơ hồ thì đó là bình thường bởi vì nó thực sự là. Nó đã là một từ buzz trong một số năm nay. Về cơ bản, nó cố gắng tìm cách khai thác dữ liệu: tôi có thể làm gì với dữ liệu của mình (tôi có thể nhận được thông tin chi tiết nào từ dữ liệu đó?).

Hoạt động nghiên cứu là khoa học về tối ưu hóa toán học: bạn mô hình hóa một vấn đề thành các phương trình của Wap, giải quyết mô hình toán học này và chuyển các giải pháp trở lại thiết lập vấn đề ban đầu của bạn. Nó là một công cụ để giúp đưa ra quyết định: tôi nên / có thể làm gì để có được cái này hay cái kia.

Nhiều vấn đề kinh doanh có thể được xem là một vấn đề tối ưu hóa. Cho rằng tôi đang cố gắng tối đa hóa doanh thu của mình, với các hạn chế về tài nguyên, tôi sẽ thực hiện chính xác doanh nghiệp của mình như thế nào, về những giá trị nào tôi nên đặt cho các biến quyết định của mình. Các vấn đề như lập kế hoạch, lập kế hoạch cơ sở, quản lý chuỗi cung ứng ... vv tất cả các kỹ thuật tối ưu hóa đòn bẩy.

Tối ưu hóa danh mục đầu tư cũng là một ví dụ cổ điển trong đó tối ưu hóa đang được sử dụng. Giả sử rằng tôi có thể đầu tư vào một số tài sản khác nhau trong danh mục đầu tư của mình, mỗi khoản có lợi nhuận không xác định, tôi nên cân đối danh mục đầu tư của mình như thế nào để giảm thiểu rủi ro cho danh mục đầu tư tổng thể của mình trong khi duy trì mức lợi nhuận tiền tệ. Trong cài đặt này, hàm mục tiêu thường trở thành rủi ro / phương sai của danh mục đầu tư và các ràng buộc là tỷ lệ hoàn vốn bắt buộc của khoản đầu tư, cũng như số tiền bạn có.


3
Bạn chỉ liệt kê tóm tắt ngắn gọn của cả hai lĩnh vực. Câu trả lời này không giải quyết sự khác biệt và / hoặc tương đồng giữa DS và OR, mà câu hỏi được hỏi cụ thể. Bạn có thể cải thiện câu trả lời của mình bằng cách tập trung vào phần đó
Thằn lằn rời rạc

-1

Nếu bạn tính ML và AI do ML điều khiển là một phần của Khoa học dữ liệu (điều mà một số người làm và một số người không theo kinh nghiệm của tôi, ví dụ, chương trình chuyên nghiệp của Microsoft về AI chứa các khía cạnh chính của Data Science + Machine learning (với cả DL và RL ) trong khi Trường Kinh tế Đại học trình bày thực tế các phần nâng cao của Microsoft cuuriculum như Advanced Machine Learning) thì có nhiều điểm tương đồng trong toán học được sử dụng trong cả hai lĩnh vực. Ví dụ: Lập trình phi tuyến (số nhân Lagrange, điều kiện KKT ...) -> được sử dụng để tạo ra các máy Vector hỗ trợ ... Kinh tế lượng chủ yếu dựa trên Regressions ---> Regressions là phần chính của cả Scinece Data nói chung và cụ thể hơn là Học có giám sát ... Số liệu thống kê (thường được tìm thấy trong OR Giáo trình) ---> khóa cho Khoa học dữ liệu và Học máy cũng ... Các quy trình ngẫu nhiên ---> rất quan trọng trong Học tăng cường ... Lập trình động ---> một lần nữa được tìm thấy trong Học tăng cường ... Vì vậy, tôi sẽ nói rằng có một số điểm tương đồng với Khoa học dữ liệu nói chung và khá nhiều điểm tương đồng với ML. Tất nhiên, mục tiêu của các ngành này là khác nhau nhưng có rất nhiều điểm tương đồng trong toán học đang được sử dụng trong các ngành này.


Làm thế nào để nó trả lời câu hỏi?
Ác ma
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.