Một số câu hỏi phỏng vấn tốt cho các ứng cử viên phát triển thuật toán thống kê là gì?


15

Tôi đang phỏng vấn mọi người cho vị trí nhà phát triển / nhà nghiên cứu thuật toán trong bối cảnh khai thác dữ liệu / máy học / thống kê.

Tôi đang tìm kiếm các câu hỏi để xác định, cụ thể, sự quen thuộc, hiểu biết và tính trôi chảy của một ứng cử viên với lý thuyết cơ bản, ví dụ như các tính chất cơ bản của kỳ vọng và phương sai, một số phân phối phổ biến, v.v.

Go-to hiện tại của tôi câu hỏi là: "Có một số lượng chưa biết mà chúng tôi muốn ước tính Để kết thúc này, chúng tôi có ước lượng. Y 1 , Y 2 , ... , Y n mà, cho X , tất cả đều không thiên vị và độc lập, và mỗi người đều có một sai biết σ 2 i , khác nhau cho mỗi người. Tìm tối ưu ước lượng Y = f ( Y 1 , ... , Y n ) mà là không thiên vị và có sai tối thiểu."XY1,Y2,Giáo dục,YnXσTôi2Y= =f(Y1,Giáo dục,Yn)

Tôi mong đợi bất kỳ ứng cử viên nghiêm túc nào có thể xử lý dễ dàng (dành một chút thời gian để tính toán), nhưng tôi ngạc nhiên khi có nhiều ứng cử viên được cho là từ các lĩnh vực liên quan không đạt được tiến bộ dù là nhỏ nhất. Vì vậy, tôi coi đó là một câu hỏi tốt, phân biệt đối xử. Vấn đề duy nhất với câu hỏi này là nó chỉ có một.

Những câu hỏi khác có thể được sử dụng cho điều này? Ngoài ra, tôi có thể tìm thấy một bộ câu hỏi như vậy ở đâu?


7
Đối với nhiều người học máy (bao gồm cả những người giỏi), câu hỏi đó là cách thoát khỏi vùng thoải mái của họ. Đây là một câu hỏi thống kê rõ ràng.
Marc Claesen

4
Câu hỏi này là ranh giới hợp pháp trên / tắt chủ đề. Tuy nhiên, nó có nhiều chế độ xem, một số upvote, một câu trả lời với một vài upvote, và hơn nữa, là CW. Nó có thể vẫn mở, IMO.
gung - Phục hồi Monica

2
XXXX

4
Một điểm thận trọng, Google đã thực hiện một nghiên cứu lớn về quy trình nhân sự nội bộ của họ và thấy rằng điểm của người phỏng vấn hoàn toàn không tương quan với hiệu suất công việc tiếp theo !! Ấn tượng của tôi về tài liệu ở đây là (1) câu hỏi loại câu đố là tồi tệ nhất tuyệt đối, chỉ phục vụ để làm cho người phỏng vấn cảm thấy thông minh (tức là 0 sức mạnh dự báo) và (2) tiếp tục, câu hỏi dựa trên kinh nghiệm có thể có giá trị dự đoán. Hiệu suất trong quá khứ dự báo hiệu suất trong tương lai & bạn có thể muốn tập trung các câu hỏi để xác định hiệu suất trong quá khứ của họ là gì, nhưng cuộc phỏng vấn ít thông tin hơn nhiều so với người phỏng vấn nghĩ.
Matthew Gunn

3
Không thiên vị được đảm bảo bằng cách có tổng trọng số cho sự thống nhất. Tuy nhiên, thậm chí giới hạn giải pháp của bạn đối với các kết hợp tuyến tính của các công cụ ước tính, hầu như luôn luôn là trường hợp nhiều công cụ ước tính dựa trên cùng một dữ liệu sẽ mối tương quan cao . (Nếu chúng thực sự độc lập, thì chúng sẽ được áp dụng để tách rời, các tập hợp con độc lập của dữ liệu.) Tuy nhiên, không có gì rõ ràng rằng sự kết hợp tuyến tính của các công cụ ước tính sẽ là tối ưu.
whuber

Câu trả lời:


12

Bạn muốn nhà phát triển thống kê của bạn làm gì?

Quân đội Hoa Kỳ nói rằng "đào tạo bạn sẽ chiến đấu, bởi vì bạn sẽ chiến đấu như bạn đã được đào tạo". Kiểm tra họ về những gì bạn muốn họ làm cả ngày. Thực sự, bạn muốn họ "tạo ra giá trị" hoặc "kiếm tiền" cho công ty.

Sếp 101

Hãy suy nghĩ "cho tôi xem tiền."

  • Tiền mọc trên cây gọi là nhân viên. Bạn đặt một "xu" (tiền lương của họ) và họ trả cho bạn một "quý" (giá trị của họ).
  • Nếu bạn không thể liên hệ công việc của họ với cách họ kiếm tiền cho công ty thì cả bạn và họ đều không làm việc chính xác.

Lưu ý: Nếu câu hỏi thao tác tượng trưng của bạn không kết nối hoàn toàn với "tiền" thì bạn có thể hỏi sai câu hỏi.

Có 3 điều mỗi nhân viên phải làm để trở thành nhân viên:

  • Thực sự có thể làm công việc
  • Làm việc tốt với nhóm
  • Sẵn sàng / động lực để thực sự làm công việc

Nếu bạn không có được những thứ này, bạn sẽ không có câu trả lời nào khác.

Nếu bạn có thể thay thế chúng bằng một phần mềm tốt hoặc một thiếu niên được đào tạo tốt, thì cuối cùng bạn sẽ phải làm điều đó, và nó sẽ khiến bạn phải trả giá.

Dữ liệu 101

Những gì họ có thể làm:

  • sử dụng hương vị nội bộ của phần mềm (mạng, os, văn phòng, thuyết trình và phân tích)
  • sử dụng một số hương vị tiêu chuẩn công nghiệp của phần mềm (Excel, R, JMP, MatLab, pick_three )
  • tự lấy dữ liệu Họ nên biết các bộ dữ liệu cơ bản cho các nhiệm vụ cơ bản. Họ nên biết kho lưu trữ. Họ nên biết dữ liệu nổi tiếng nào được sử dụng cho nhiệm vụ nào. Ngư dân Iris. Cua lê. ... Có lẽ có 20 yếu tố nên đến đây. UCI, NIST, NOAA.
  • Họ nên biết quy tắc xử lý dữ liệu. dữ liệu nhị phân (T / F) có nội dung thông tin rất khác so với phân loại (A, B, C, D) hoặc liên tục. Xử lý đúng dữ liệu theo kiểu dữ liệu là rất quan trọng.
  • Một vài nhiệm vụ thống kê cơ bản bao gồm: hai cái này giống nhau hay khác nhau (còn gọi là cụm / phân loại), điều này liên quan đến điều đó như thế nào
    (hồi quy / khớp bao gồm các mô hình tuyến tính, glm, cơ sở xuyên tâm,
    phương trình sai khác), có đúng là "x "(kiểm tra giả thuyết), tôi cần bao nhiêu mẫu (lấy mẫu chấp nhận), làm thế nào để tôi có được nhiều
    dữ liệu nhất từ vài thử nghiệm / giá rẻ / hiệu quả (Thiết kế thống kê
    thử nghiệm) - từ chối, tôi là kỹ sư không phải là thống kê Bạn có thể hỏi họ câu hỏi "các nhiệm vụ cơ bản khác nhau là gì và làm thế nào để bạn kiểm tra rằng nhà thống kê có thể thực hiện chúng một cách hiệu quả và chính xác?
  • truy cập / sử dụng dữ liệu của chính họ. Đây là về định dạng và công cụ.
    Họ có thể đọc từ csv, xlsx (excel), SQL và
    hình ảnh. (HDF5, Rdata) Nếu bạn có định dạng tùy chỉnh, họ sẽ
    có thể đọc qua nó và làm việc với các công cụ một cách nhanh chóng và
    hiệu quả. Họ nên biết điểm mạnh / điểm yếu của định dạng. CSV được sử dụng nhanh chóng, tồn tại mãi mãi, nguyên mẫu nhanh, nhưng cồng kềnh, không hiệu quả và chạy chậm.
  • xử lý dữ liệu đúng cách, sử dụng các thực tiễn tốt nhất và không phạm tội. Đừng vứt bỏ dữ liệu, bao giờ hết. Không khớp dữ liệu nhị thức với một dòng liên tục. Đừng thách thức vật lý.
  • đưa ra kết quả có thể lặp lại và tái sản xuất. Một số
    người nói "có những lời nói dối, lời nói dối chết tiệt và số liệu thống kê" nhưng không phải ở
    công ty của tôi . Đầu vào tốt giống nhau cho đầu ra tốt như nhau. Đầu ra không phải là một con số, nó luôn là một quyết định kinh doanh thông báo cho một
    hành động kỹ thuật và dẫn đến kết quả kinh doanh. Các thử nghiệm khác nhau có thể đặt mặt số ở mức 5,5 hoặc 6,5, nhưng khả năng luôn ở trên 1,33.
  • trình bày những phát hiện trong ngôn ngữ và ở cấp độ mà những người ra quyết
    định, và / hoặc nhà phát triển minion, và / hoặc chính họ trong một năm, có thể
    hiểu được với ít lỗi nhất. Một điều tuyệt vời là có thể giải thích nó để bà của bạn có được nó. Đây là liên kết của tôi, nhưng tôi thích nó.

Zingers phân tích:

Tôi nghĩ rằng những câu hỏi không thể là tuyệt vời. Họ là không thể vì một lý do. Có thể biết liệu một cái gì đó là không thể ra khỏi cổng là một điều tốt. Biết lý do tại sao, có một số cách để tham gia nó, hoặc có thể hỏi một câu hỏi khác nhau có thể tốt hơn.

Các câu hỏi CV khác. ( liên kết ) Trên reddit. ( liên kết ) khác ( liên kết )

BTW: đây là một câu hỏi hay. Tôi có thể phải cập nhật câu trả lời này theo thời gian.


3
Đây có vẻ là một câu trả lời tốt, cho một câu hỏi khác với câu hỏi tôi đã hỏi. Tôi đã không hỏi làm thế nào để chọn nhân viên giỏi (có lẽ tôi sẽ hỏi một vài thứ như thế tại nơi làm việc. Nếu tôi cần), tôi đã hỏi về việc kiểm tra trình độ chuyên môn cụ thể.
Meni Rosenfeld

Tôi sẽ giảm nó xuống chỉ số sau đó.
EngrStudent - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.