Ai đã phát minh ra cây quyết định?


24

Tôi đang cố gắng theo dõi ai đã phát minh ra cấu trúc và thuật toán dữ liệu cây quyết định.

Trong mục Wikipedia về học cây quyết định, có một tuyên bố rằng "ID3 và GIỎI được phát minh độc lập cùng một lúc (giữa 1970 và 1980)". ID3 đã được trình bày sau:

  • Quinlan, JR 1986. Cảm ứng của cây quyết định. Mach. Học hỏi. 1, 1 (tháng 3 năm 1986), 81-106

Vì vậy, tôi không chắc chắn rằng tuyên bố là đúng.

Tôi tìm thấy bằng cách sử dụng sách của Google tham chiếu đến một loạt quyết định thống kê năm 1959 và bộ sưu tập Tài liệu làm việc năm 1958 . Bối cảnh không rõ ràng và dường như họ không trình bày một thuật toán. Tuy nhiên, họ không định nghĩa cấu trúc dữ liệu và coi nó như được biết đến.

Sử dụng Google Scholar tôi đã tìm thấy một trích dẫn từ năm 1853 nhưng đây là những lỗi phân tích cú pháp và không phải là trích dẫn thực sự kể từ ngày đó.


9
Tài liệu tham khảo lớn về GIỎI là Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)nhưng đó chắc chắn không phải là sớm nhất. Wei-Yin Loh của Đại học Wisconsin đã viết về lịch sử của cây quyết định. Dưới đây là một bài báomột số slide về lịch sử.
G5W

2
Tài liệu tham khảo tuyệt vời! Ông nói rằng cây hồi quy đầu tiên là từ năm 1963 được xuất bản tại Morgan, JN và Sonquist, JA (1963). Các vấn đề trong việc phân tích dữ liệu khảo sát, và một đề xuất. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 58: 415 Từ434. Bài viết tại pdfs.semanticscholar.org/9577/ và trang 17 trình bày một cây. Dường như cấu trúc dữ liệu còn sớm hơn, thậm chí còn sớm hơn năm 1958.
DaL

@ G5W, tại sao không biến điều đó thành một câu trả lời?
gung - Phục hồi Monica

7
Câu hỏi này dường như rõ ràng về chủ đề với tôi. Tôi đang bỏ phiếu để bỏ ngỏ.
gung - Phục hồi Monica

Đại lãnh đạo. Tôi đã cố gắng googling anh ấy nhưng tôi không chắc ai là người đúng. Bạn có thể cung cấp một tài liệu tham khảo?
DaL

Câu trả lời:


18

Câu hỏi hay. @ G5W đang đi đúng hướng khi tham khảo bài viết của Wei-Yin Loh. Bài viết của Loh thảo luận về các tiền đề thống kê của cây quyết định và, chính xác, dấu vết vị trí của chúng trở lại bài báo của Fisher (1936) về phân tích phân biệt - về cơ bản hồi quy phân loại nhiều nhóm thành biến phụ thuộc - và từ đó, thông qua AID, THAID, CHAID và từ đó, thông qua AID, THAID, CHAID và Mô hình GIỎ HÀNG.

Câu trả lời ngắn gọn là bài báo đầu tiên tôi có thể tìm thấy phát triển cách tiếp cận "cây quyết định" có từ năm 1959 và một nhà nghiên cứu người Anh, William Belson, trong một bài báo có tiêu đề Phù hợp và Dự đoán về Nguyên tắc phân loại sinh học , ( JRSS , Sê-ri C, Thống kê ứng dụng, Tập 8, Số 2, Tháng Sáu, 1959, trang 65-75), có tóm tắt mô tả cách tiếp cận của ông là một trong những mẫu dân số phù hợp và phát triển các tiêu chí để làm như vậy:

Trong bài viết này, Tiến sĩ Belson mô tả một kỹ thuật để khớp các mẫu dân số. Điều này phụ thuộc vào sự kết hợp của các yếu tố dự đoán được phát triển theo kinh nghiệm để đưa ra dự đoán tốt nhất, hoặc kết hợp, kết hợp. Nguyên tắc cơ bản khá khác biệt so với nguyên tắc vốn có trong phương pháp đa tương quan.

Câu trả lời "dài" là những luồng suy nghĩ khác, thậm chí sớm hơn có vẻ phù hợp ở đây. Ví dụ, các đột phá đoàn hệ tuổi-giới đơn giản được sử dụng trong các bảng tỷ lệ tử vong tính toán tính toán cung cấp một khuôn khổ để suy nghĩ về các quyết định có từ nhiều thế kỷ. Cũng có thể lập luận rằng những nỗ lực có từ thời Babylon đã sử dụng các phương trình bậc hai, là phi tuyến trong các biến (không phải trong các tham số, http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations. html ) có liên quan, ít nhất là trong chừng mực khi chúng dự đoán các mô hình tham số tăng trưởng logistic (tôi nhận ra rằng đây là một sự kéo dàibình luận, xin vui lòng đọc tiếp cho một động lực đầy đủ hơn của nó). Ngoài ra, các nhà triết học từ lâu đã nhận ra và đưa ra giả thuyết về sự tồn tại của các thông tin định tính, được sắp xếp theo thứ bậc, ví dụ, cuốn sách của Aristotle về Thể loại . Khái niệm và giả định về một hệ thống phân cấp là chìa khóa ở đây. Những khám phá khác có liên quan, sau này đã vượt ra khỏi ranh giới của không gian Euclide 3-D trong sự phát triển vô hạn của David Hilbert, Hilbertkhông gian, tổ hợp, những khám phá trong vật lý liên quan đến không gian, khoảng cách và thời gian 4-D Minkowski, cơ học thống kê đằng sau lý thuyết tương đối đặc biệt của Einstein cũng như những đổi mới trong lý thuyết xác suất liên quan đến các mô hình của chuỗi markov, quá trình chuyển đổi và quá trình. Vấn đề ở đây là có thể có độ trễ đáng kể giữa bất kỳ lý thuyết và ứng dụng nào - trong trường hợp này, độ trễ giữa các lý thuyết về thông tin định tính và phát triển liên quan đến đánh giá, dự đoán, phân loại và mô hình hóa theo kinh nghiệm của họ.

Dự đoán tốt nhất là những phát triển này có thể được liên kết với lịch sử tăng độ tinh vi của các nhà thống kê, chủ yếu ở 20 c, trong việc phát triển các mô hình tận dụng các loại thang đo khác với liên tục (ví dụ, thông tin danh nghĩa hoặc đơn giản hơn là thông tin phân loại) (poisson), các bảng dự phòng được phân loại chéo, thống kê không theo tỷ lệ không phân phối, tỷ lệ đa chiều (ví dụ, JG Carroll, trong số các mô hình khác), các mô hình với các biến phụ thuộc định tính như hồi quy logistic hai nhóm cũng như phân tích tương ứng (chủ yếu ở Hà Lan và Pháp trong những năm 70 và 80).

Có một tài liệu rộng rãi thảo luận và so sánh hai hồi quy logistic nhóm với hai phân tích phân biệt đối xử nhóm và, đối với các tính năng danh nghĩa đầy đủ, thấy chúng cung cấp các giải pháp tương đương (ví dụ, Phân tích đa biến của Dillon và Goldstein , 1984).

Bài viết của JS Cramer về lịch sử hồi quy logistic ( Lịch sử hồi quy logistic , http://epage.tinbergen.nl/02119.pdf ) mô tả nó như bắt nguồn từ sự phát triển của hàm univariate, logistic hoặc đường cong hình chữ S cổ điển :

Sự tồn tại của thuật ngữ logistic và ứng dụng rộng rãi của thiết bị đã được xác định một cách quyết định bởi lịch sử cá nhân và hành động cá nhân của một vài học giả ...

Các mô hình xác định của đường cong logistic bắt nguồn từ năm 1825, khi Benjamin Gompertz ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) đã xuất bản một bài báo phát triển mô hình logistic thực sự đầu tiên (phi tuyến trong các tham số và không chỉ các biến như với người Babylon) - mô hình và đường cong Gompertz.

Tôi muốn đề xuất rằng một liên kết quan trọng khác trong chuỗi này dẫn đến việc phát minh ra cây quyết định là công trình của nhà xã hội học Columbia Paul Lazarsfeld về các mô hình cấu trúc tiềm ẩn. Công việc của ông bắt đầu vào những năm 30, tiếp tục trong Thế chiến II với phân tích nội dung của ông về các tờ báo Đức cho OSS mới thành lập (sau này là CIA, như được thảo luận trong cuốn sách Megatrends của John Naucerett ) và cuối cùng được xuất bản vào năm 1950. Andersen mô tả nó theo cách này ( Phân tích cấu trúc tiềm ẩn: Một khảo sát , Erling B. Andersen, Tạp chí Thống kê Scandinavia , Tập 9, Số 1, 1982, trang 1-12):

Nền tảng cho lý thuyết cổ điển về phân tích cấu trúc tiềm ẩn được Paul Lazarsfeld phát triển vào năm 1950 trong một nghiên cứu về chủ nghĩa dân tộc của những người lính Mỹ trong Thế chiến II. Lazarsfeld chủ yếu quan tâm đến việc phát triển nền tảng khái niệm của các mô hình cấu trúc tiềm ẩn ... Tuy nhiên, các phương pháp thống kê do Lazarsfeld phát triển là khá nguyên thủy ... Một nỗ lực ban đầu để tìm ra các phương pháp ước tính hiệu quả và quy trình kiểm tra đã được thực hiện bởi đồng nghiệp của Lazarsfeld tại Đại học Columbia , TW Anderson, người trong một bài báo ( Psychometrika , tháng 3 năm 1954, Tập 19, Số 1, Trang 1 Tường10, Về ước tính các tham số trong phân tích cấu trúc tiềm ẩn), đã phát triển một phương pháp ước lượng hiệu quả cho các tham số của mô hình lớp tiềm ẩn ... Để giới thiệu khung (của các mô hình lớp tiềm ẩn), chúng tôi sẽ phác thảo ngắn gọn các khái niệm cơ bản ... và sử dụng một hệ thống công chứng được phát triển sau đó bởi Goodman (1974a) ... Dữ liệu được đưa ra dưới dạng bảng nhiều trường hợp ...

Có một sự khác biệt hữu ích đáng để thực hiện ở đây, vì nó có thể liên quan đến sự phát triển từ AID sang CHAID (GIỎI sau), giữa các mô hình dựa trên bảng dự phòng (tất cả các biến trong mô hình được chia tỷ lệ) và các mô hình lớp tiềm ẩn gần đây (nhiều hơn chính xác, các mô hình hỗn hợp hữu hạn dựa trên "hỗn hợp" của quy mô và phân phối, ví dụ, Kamakura và Russell, 1989, Mô hình lựa chọn xác suất cho phân khúc thị trường và cấu trúc đàn hồi) trong cách họ tạo ra phần dư của mô hình. Đối với các mô hình bảng dự phòng cũ hơn, số lượng tế bào vốn có trong bảng được phân loại chéo hoàn toàn tạo thành cơ sở cho "bản sao" và do đó, tính không đồng nhất trong phần dư của mô hình được sử dụng trong phân vùng thành các lớp. Mặt khác, các mô hình hỗn hợp gần đây dựa trên các biện pháp lặp đi lặp lại trong một chủ đề duy nhất làm cơ sở để phân vùng tính không đồng nhất trong phần dư. Phản hồi này không phảiđề xuất một kết nối trực tiếp giữa các mô hình lớp tiềm ẩn và cây quyết định. Sự liên quan đến AID và CHAID có thể được tóm tắt trong các thống kê được sử dụng để đánh giá các mô hình, AID sử dụng phân phối F liên tục trong khi CHAID sử dụng phân phối chi bình phương, phù hợp với thông tin phân loại. Thay vào đó, trong phân tích và mô hình hóa các bảng dự phòng, theo tôi, LCM tạo thành một phần quan trọng trong câu đố hoặc tường thuật dẫn đến sự phát triển của cây quyết định, cùng với nhiều đổi mới khác đã được ghi nhận.

CHAID là một sự phát triển sau đó, lần đầu tiên được đề xuất trong luận án tiến sĩ năm 1980 của Nam Phi Gordon Kass như được nêu trong đoạn Wiki này trên CHAID ( https://en.wikipedia.org/wiki/CHAID ). Tất nhiên, GIỎI xuất hiện vài năm sau đó vào thập niên 80 cùng với Breiman, et al, hiện là cuốn sách Phân loại và cây hồi quy nổi tiếng .

AID, CHAID và GIỎI tất cả các cấu trúc giống như cây, được sắp xếp theo thứ bậc như là đại diện tối ưu của thực tế. Họ chỉ đi về điều này bằng cách sử dụng các thuật toán và phương pháp khác nhau. Đối với tôi, các bước tiếp theo trong chuỗi đổi mới tiến bộ này là sự xuất hiện của các lý thuyết dị nguyên về cấu trúc. Như được định nghĩa trong bài viết Wiki này, các dị nguyên "là một hệ thống tổ chức trong đó các yếu tố của tổ chức là không được xếp hạng (không phân cấp) hoặc nơi chúng có tiềm năng được xếp hạng một số cách khác nhau" ( https: //en.wikipedia .org / wiki / Heterarchy hoặc để có cái nhìn sâu sắc hơn, triết học hơn về chế độ hỗn hợp, hãy xem Kontopoulos, The Logics of Social Architecture). Từ quan điểm thực nghiệm, việc phân tích và mô hình hóa các cấu trúc mạng là đại diện tiêu biểu nhất cho sự phát triển lịch sử này theo cách hiểu về cấu trúc (ví dụ, cuốn sách của Freeman Phát triển phân tích mạng xã hội ). Mặc dù nhiều nhà phân tích mạng sẽ cố gắng và sắp xếp một hệ thống phân cấp trên mạng kết quả, đây là một biểu hiện của các giả định đã ăn sâu và vô thức hơn là một tuyên bố về thực tế cấu trúc mạng đa kênh trong một thế giới phức tạp.

Phản ứng này cho thấy rằng vòng cung của sự tiến hóa dẫn đến sự phát triển của cây quyết định đã tạo ra những câu hỏi mới hoặc sự không hài lòng với các phương pháp "hiện đại" hiện tại ở mỗi bước hoặc giai đoạn trong quy trình, đòi hỏi các giải pháp mới và mô hình mới. Trong trường hợp này, sự không hài lòng có thể được nhìn thấy trong các hạn chế của việc mô hình hóa hai nhóm (hồi quy logistic) và nhận ra nhu cầu mở rộng khung đó thành nhiều hơn hai nhóm. Sự không hài lòng với các giả định không có tính đại diện của phân phối bình thường cơ bản (phân tích phân biệt hoặc AID) cũng như so sánh với "tự do" tương đối được tìm thấy trong việc sử dụng các giả định và mô hình không phân phối, không phân phối (ví dụ: CHAID và GIỎI).

Theo đề xuất, nguồn gốc của cây quyết định gần như chắc chắn có một lịch sử lâu đời có từ nhiều thế kỷ và bị phân tán về mặt địa lý. Nhiều luồng trong lịch sử, khoa học, triết học và tư tưởng của con người có thể được bắt nguồn từ việc phác thảo câu chuyện dẫn đến sự phát triển của nhiều hương vị của cây quyết định còn tồn tại ngày nay. Tôi sẽ là người đầu tiên thừa nhận những hạn chế đáng kể trong bản phác thảo ngắn gọn của tôi về lịch sử này.

/ ** Phụ lục ** /

  1. Bài báo năm 2014 này trong Nhà khoa học mới có tiêu đề Tại sao chúng ta thích tổ chức kiến ​​thức thành cây? ( https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-ledgeledge-into-trees/ ), Đây là một đánh giá về trực quan hóa dữ liệu của cuốn sách của thầy giáo Lima Lima Cuốn sách của Những cây theo dấu vết sử dụng cây cối cũ kỹ như một hình ảnh trực quan và hỗ trợ kiến ​​thức cho kiến ​​thức. Có vẻ như ít câu hỏi nhưng các mô hình và đồ họa thế tục và thực nghiệm vốn có trong các phương pháp như AID, CHAID và GIỎI đại diện cho sự phát triển liên tục của truyền thống phân loại tôn giáo ban đầu này.

  2. Trong video này (được đăng trực tuyến bởi Salford Systems, người thực hiện phần mềm GIỎI ), A Tribute to Leo Breiman , Breiman nói về sự phát triển tư duy của anh ta dẫn đến phương pháp GIỎI. Tất cả bắt đầu với một bức tường được trát bằng bóng của các tàu chiến thời Thế chiến II khác nhau.

https://www.salford-systems.com/ideo/conferences/cart-founding-fathers/a-tribution-to-leo-enameiman?utm_source=linkedin&utm_medium=social&utm_content=3599323

  1. Khi đọc phần giới thiệu về Lý thuyết hữu hạn và đồ thị vô hạn năm 1936 của Denis Konig , được xem rộng rãi là cung cấp nền tảng toán học nghiêm ngặt đầu tiên cho một lĩnh vực trước đây được xem như là một nguồn giải trí và câu đố cho trẻ em, Tutte lưu ý (trang 13) 4 (bắt đầu từ trang 62) của cuốn sách Konig dành cho cây trong lý thuyết đồ thị. Giải thích của Tutte về định nghĩa cây của Konig là "trong đó đồ thị 'acyclic' là đồ thị không có mạch, cây là đồ thị chu kỳ được kết nối hữu hạn ... nói cách khác, trong một cây có một và chỉ một đường đi từ một đưa đỉnh này cho người khác ... "Đối với tôi (và tôi không phải là nhà lý thuyết đồ thị hay nhà toán học), điều này cho thấy lý thuyết đồ thị và tiền thân của nó trong Phân tích Sitinc hoặc Veblen ' của Poincare các bài giảng về cấu trúc liên kết, có thể đã cung cấp các tiền đề trí tuệ và toán học ban đầu cho những gì sau này trở thành một chủ đề cho các nhà thống kê.

  2. Cây tri thức đầu tiên được quy cho rộng rãi là nhà triết học tân khoa porphyry, khoảng năm 270 CE đã viết một bài giới thiệu về Logic sử dụng một cây ẩn dụ để mô tả và sắp xếp kiến ​​thức ... http: //www.historyofinif.com/recanded.php? id = 3857

  3. Chỉ cần phát hiện ra một tài liệu tham khảo trước đó về Cây kiến ​​thức trong Sách Sáng thế trong Kinh thánh, đã thảo luận trong bài viết Wiki này ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) . Genesis có thể có từ 1.400 BCE dựa trên tài liệu tham khảo này ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-wrrite/ Bất kể, Sách Sáng thế đã ra đời nhiều thế kỷ trước Xốp.


1
Đó là một "bản phác thảo ngắn gọn về lịch sử" này. Tôi đã nghĩ rằng gốc rễ nên sâu hơn 50 năm nhưng tôi không nghĩ họ sẽ đến Aristotle và người Babylon. Bạn đã chỉ ra rất rõ cách các phương thức đến gần hơn với cây quyết định. Tôi vẫn bỏ lỡ một điểm chính xác hơn của sự xuất hiện. Tôi đã hy vọng tìm thấy một tài liệu tham khảo cho một số cuốn sách cũ trong đó bạn thấy một sơ đồ và nói: "tốt, đó là một cây quyết định" ;-)
DaL

1
Tôi không thích danh pháp đang được sử dụng trong câu hỏi và trong một số câu trả lời. GIỎI là cây phân loại và hồi quy cho một lý do. Một cây quyết định như đã nêu ở trên có thể có hoặc không liên quan đến phân tích thống kê và thường dựa trên chẩn đoán và không phải dữ liệu. Câu hỏi ban đầu nên có về cây phân loại .
Frank Harrell

16

Tài liệu tham khảo lớn trên GIỎ HÀNG là:

Cây phân loại và hồi quy
Leo Breiman, Jerome Friedman, Charles J. Stone, RA Olshen (1984)

nhưng đó chắc chắn không phải là tác phẩm sớm nhất về chủ đề này.

Trong bài viết về cảm ứng cây quyết định năm 1986 , chính Quinlan đã xác định Hệ thống học tập khái niệm của Hunt (CLS) là tiền thân của ID3. Ông hẹn hò với CLS năm 1963, nhưng tài liệu tham khảo

EB Hunt, J.Marin, PJ Stone,
Thí nghiệm trong
báo chí học thuật cảm ứng , New York, 1966

Wei-Yin Loh của Đại học Wisconsin đã viết về lịch sử của cây quyết định. Có một tờ giấy

Năm mươi năm phân loại và hồi quy cây Wei-Yin Loh Đánh giá thống kê quốc tế (2014), 82, 3, 329 Từ348 doi: 10.111 / insr.12016

Ngoài ra còn có một bộ bài Slide từ một bài nói chuyện mà anh ấy đã đưa ra về chủ đề này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.