Vai trò của kỹ thuật tính năng trong suy luận thống kê là gì?


7

Đây có thể là một câu hỏi ngớ ngẩn. Tôi là một sinh viên tốt nghiệp đại học gần đây đang làm việc trong lĩnh vực mô hình dự đoán và nhận thấy rằng có một sự nhấn mạnh lớn vào việc thực hiện kỹ thuật tính năng. Tuy nhiên, trong hầu hết các khóa đào tạo về thống kê học thuật của tôi, hầu như không đề cập đến kỹ thuật tính năng và những thứ tương tự (bên cạnh các lập luận chống lại các dự đoán rời rạc / binning) cho mục đích xây dựng các mô hình suy luận. Tôi đã tự hỏi tại sao kỹ thuật tính năng đóng vai trò lớn hơn khi thực hiện mô hình dự đoán thay vì phát triển các mô hình để suy luận thống kê. Vậy ... vai trò của kỹ thuật tính năng trong suy luận thống kê là gì? (trái ngược với vai trò của kỹ thuật tính năng trong mô hình dự đoán)

Dựa trên nhận xét gần đây:

  • Theo suy luận thống kê, ý tôi là bất kỳ phân tích nào trong đó mục tiêu chính là đánh giá mối quan hệ giữa một yếu tố dự đoán và biến phản ứng.

  • Theo mô hình dự đoán, ý tôi là bất kỳ phân tích nào trong đó mục tiêu chính là ước tính Y hoặc dự đoán các giá trị trong tương lai. (bao gồm tất cả các kỹ thuật ML)


Bạn có thể có thể chỉnh sửa q. một chút để giải thích sự khác biệt mà bạn đang thực hiện giữa dự đoán và suy luận.
Scortchi - Phục hồi Monica

@aguy Cảm ơn sự chính xác. Tuy nhiên, tôi có thể nói rằng dự đoán luôn là về các sự kiện chưa xảy ra. Từ công việc tôi đã làm trong lĩnh vực ML, tôi không nghĩ chúng ta có thể nói rằng mô hình dự đoán bao gồm tất cả các kỹ thuật học máy. Suy luận thống kê là một thuật ngữ rộng bao gồm một tập hợp lớn các cách tiếp cận và các vấn đề từ phân loại và phân cụm đến kiểm tra giả thuyết đến ước lượng tham số.
Eskapp

Câu trả lời:


2

Tôi sẽ cố gắng minh họa lý do đằng sau kỹ thuật tính năng nói chung, nói rằng tôi muốn phân tích hình ảnh.

Khi chúng tôi thiết kế các tính năng, chúng tôi phải lưu ý rằng chúng là đại diện cho dữ liệu / hình ảnh gốc. Bây giờ, nếu tôi biết loại thông tin nào quan trọng cho nhiệm vụ tôi phải làm, tôi cần các tính năng để phản ánh điều này.

Chẳng hạn, nếu tôi muốn biết nội dung của một hình ảnh và tôi chọn làm đặc trưng cho số lượng pixel trong hình ảnh, rõ ràng nó sẽ không hoạt động. Bây giờ, nếu tôi chọn sử dụng cường độ trung bình của các pixel trên các bản vá, tôi sẽ có thể phân biệt giữa hình ảnh màu xanh và hình ảnh màu trắng. Nhưng có lẽ tôi muốn biết nếu một đối tượng có mặt trong hình ảnh và tính năng này sẽ vô dụng. Vì vậy, tôi có thể xem xét độ dốc cường độ giữa các pixel và xem xét các biến thể của chúng (nhưng sau đó, tôi sẽ không thể nói nếu hình ảnh của tôi là màu xanh hoặc trắng!).

Không có tính năng lý tưởng, chỉ có các tính năng được thiết kế cho một nhiệm vụ cụ thể và nhiệm vụ này chỉ được biết đến từ người thiết kế toàn bộ khung: bạn! Đây là lý do tại sao tính năng kỹ thuật là quan trọng. Tuy nhiên, nghiên cứu về chủ đề thiết kế tính năng là rất lớn và đối với hầu hết các tác vụ mà bạn đang làm việc, ai đó đã thiết kế các tính năng được chứng minh là hoạt động tốt và bạn chỉ có thể sử dụng chúng như (hoặc xoắn chúng một chút nếu cần).

Hầu hết các tính năng hiệu quả được dựa trên các lý thuyết từ các lĩnh vực toán học khác nhau và phạm vi ứng dụng của chúng có phần hẹp. Ngược lại, các bộ phân loại thường có một loạt các ứng dụng và đó là lý do tại sao tôi nghĩ rằng sự nhấn mạnh thường tập trung vào chúng khi học ở học viện.


Bạn có thể muốn đọc lại câu hỏi của tôi. Tôi đã hỏi về vai trò của kỹ thuật tính năng trong KIỂM TRA thống kê trái ngược với PREDICTION, và tại sao người ta lại nhấn mạnh vào nó hơn cái kia
AGUY

@aguy Trước hết, các mô hình phân loại có thể dựa trên suy luận thống kê. Thứ hai, tôi không nghĩ rằng "kỹ thuật tính năng đóng vai trò lớn hơn khi thực hiện mô hình dự đoán trái ngược với việc phát triển các mô hình cho suy luận thống kê". Các tính năng là một đại diện của một số dữ liệu, bạn có thể xem nó như một hình chiếu của dữ liệu vào một không gian thuận tiện hơn cho những gì bạn cần làm, bất kể đó là gì (dự đoán, phân loại, phân cụm, ..). Sau đó, việc sử dụng một số mô hình có thể có một số hạn chế cần được tính đến khi thiết kế các tính năng.
Eskapp

Đoạn cuối của tôi đã thực sự chứng thực sự cấu thành của bạn: Trong lớp, chúng tôi hiếm khi nghe về thiết kế tính năng, nhưng khi bắt đầu thực sự làm việc với bất kỳ mô hình nào (dự đoán hoặc khác), chúng tôi phát hiện ra rằng chúng rất quan trọng.
Eskapp

1

Vì bài viết Wiki này cho thấy rõ ( https://en.wikipedia.org/wiki/Feature_engineering ), kỹ thuật tính năng là một bước quan trọng trong học máy, liên quan đến việc tạo và phát triển một tập hợp các tính năng hoặc thuộc tính có thể chứng minh bằng thực nghiệm (không phải nhất thiết về mặt lý thuyết) hữu ích trong việc dự đoán hoặc phân loại mục tiêu. Andrew Ng (và những người khác) tạo ra nhiều kiến ​​thức chuyên môn, về lĩnh vực phát triển một tập hợp các tính năng nhưng đưa ra vô số biến đổi có thể áp dụng cho dữ liệu để cải thiện sự phù hợp với mô hình, số lượng lớn các tính năng thường được phân tích và " hộp đen "bản chất của nhiều thuật toán được sử dụng, kiến ​​thức miền hầu như không phải là ưu tiên.

Đối với tôi, thật hữu ích khi chỉ ra rằng suy luận so với dự đoán và phân loại có thể được xem là các miền riêng biệt, trước đây thuộc về thống kê và sau là trọng tâm của học máy. Rõ ràng, có nhiều sự trùng lặp trong thuật ngữ này và các lĩnh vực này, tức là, chúng không có nghĩa là loại trừ lẫn nhau. Nói rộng hơn, suy luận thống kê liên quan đến chuyên gia, kiến ​​thức tên miền, đặc tả kỹ lưỡng của một giả thuyết, một tập hợp các thuộc tính hoặc tính năng hữu hạn (nhỏ), cùng với một thiết kế thử nghiệm để kiểm tra giả thuyết - nghiên cứu khoa học cổ điển với mục tiêu hướng đến cái nhìn sâu sắc và sự hiểu biết liên quan đến sự thật mặt đất. Mặt khác, dự đoán và phân loại ML, có thể hoặc không thể đưa ra giả thuyết, có thể có hoặc không có cái nhìn sâu sắc mô tả như một mục tiêu và có thể có hoặc không có sự thật nền tảng như một chuẩn mực.


-1

Kỹ thuật tính năng, nói rộng ra, làm ít nhất 2 điều.

Trước tiên, bạn có thể làm sạch, tái cấu trúc hoặc chuyển đổi các tính năng của mình theo cách sao cho thông tin hữu ích được tăng cường và thông tin dư thừa hoặc tiếng ồn được giảm thiểu. Có lẽ bạn biết rằng một loại người / sản phẩm / vật dụng hoàn toàn không liên quan và loại bỏ chúng.

Thứ hai, bạn có thể tạo các tính năng mới dựa trên kiến ​​thức tên miền trong lĩnh vực cụ thể của bạn. Trong trường hợp này, bạn thực sự thêm thông tin mới mà trước đây không có . Trong công việc của tôi, đó là những tính năng được thiết kế để cung cấp nhiều tiện ích nhất.

Điều này có lẽ khó dạy, nhưng thật không may chương trình của bạn đã bỏ qua bước rất quan trọng này.


Bạn có thể muốn đọc lại câu hỏi của tôi. Tôi đã hỏi về vai trò của kỹ thuật tính năng trong KIỂM TRA thống kê trái ngược với PREDICTION, và tại sao người ta lại nhấn mạnh vào nó hơn so với cái kia
AGUY
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.