Câu hỏi phỏng vấn nhà khoa học dữ liệu: Hồi quy tuyến tính thấp


10

Tôi đã đối mặt với một câu hỏi phỏng vấn cho một công việc mà người phỏng vấn hỏi tôi rằng của bạn rất thấp (từ 5 đến 10%) cho một mô hình co giãn giá. Làm thế nào bạn sẽ giải quyết câu hỏi này?R2

Tôi không thể nghĩ bất cứ điều gì khác ngoài thực tế là tôi sẽ thực hiện chẩn đoán hồi quy để xem điều gì đã sai hoặc nếu áp dụng bất kỳ phương pháp phi tuyến tính nào. Bằng cách nào đó tôi nghĩ người phỏng vấn không hài lòng với câu trả lời của tôi. Có điều gì khác được thực hiện trong một kịch bản như vậy để phù hợp với một mô hình và sử dụng nó cho dự đoán mức sản xuất mặc dù nó có thấp ?R2

Chỉnh sửa : Ở giai đoạn sau, họ đưa cho tôi dữ liệu để mô hình hóa vấn đề trong quá trình phỏng vấn và tôi đã thử thêm các biến bị trễ, tác động của giá của đối thủ cạnh tranh, các hình nộm theo mùa để xem nó có khác biệt gì không. đã lên tới 17,6% và hiệu suất của nó đối với mẫu nắm giữ là kém. Cá nhân tôi nghĩ rằng việc đưa ra một mô hình dự đoán như vậy trong môi trường sống là không hợp lý vì nó sẽ cho kết quả sai lệch và dẫn đến mất khách hàng (hãy tưởng tượng sử dụng khuyến nghị giá từ mô hình đó vào doanh thu của công ty bạn!). Có bất cứ điều gì khác được thực hiện trong các kịch bản như vậy là quá rõ ràng mà mọi người cần phải biết? Một cái gì đó mà tôi không nhận thức được, mà tôi muốn nói 'một viên đạn bạc'?R2

Ngoài ra, hãy tưởng tượng sau khi thêm biến ngoại sinh cải thiện thêm 2% thì có thể làm gì trong kịch bản này? Chúng ta có nên loại bỏ dự án mô hình hóa hay vẫn còn hy vọng phát triển một mô hình chất lượng mức sản xuất được biểu thị bằng hiệu suất trên mẫu nắm giữ?R2

Edit2 : Tôi đã đăng câu hỏi này trong diễn đàn economics.stackexchange.com để hiểu vấn đề này từ góc độ kinh tế học


12
R2R2

1
Tôi đã gắn thẻ nó để tự nghiên cứu @Glen_b cho tôi biết nếu tôi cần thêm bất kỳ chi tiết nào. Cảm ơn!
Nhiệt tình

2
Cảm ơn, đó là một điều tốt để làm. Nhưng chi tiết hơn sẽ bao gồm câu hỏi thực tế bạn cần giải quyết. "Giả sử X" đang đưa ra một tình huống không yêu cầu bạn giải quyết bất cứ điều gì.
Glen_b -Reinstate Monica

1
Đăng chéo tại economics.stackexchange.com/q/16617 . Vui lòng cố gắng quyết định trang web tốt nhất cho câu hỏi: nếu bạn cảm thấy nó phù hợp với các biến thể phù hợp với các trang web khác nhau, hãy liên kết chúng.
Scortchi - Phục hồi Monica

1
@Scortchi, tôi đã thêm liên kết dưới dạng chỉnh sửa bổ sung trong cả hai diễn đàn. Cảm ơn!
Nhiệt tình

Câu trả lời:


11

Điều gì nếu chúng ta nhìn vấn đề từ quan điểm này. Độ co giãn của giá là mối quan hệ giữa nhu cầu và giá của sản phẩm.

Khi r-vuông trong tình huống này thấp, khi đó chúng ta có thể ngụ ý rằng mối quan hệ giữa giá cả và nhu cầu đối với sản phẩm cụ thể đó không phải là một mối quan hệ mạnh mẽ.

Từ quan điểm định giá, điều đó có nghĩa là bạn đã tìm thấy một sản phẩm mà bạn có thể định giá tùy ý mà không ảnh hưởng lớn đến nhu cầu HOẶC nhu cầu đó khá thất thường mặc dù giá cả chênh lệch.

Nếu bạn nhìn vào hàng hóa Veblen , chúng là những ví dụ mà độ co giãn là nghịch đảo. Khi giá tăng, cầu tăng.

Mặt khác, r-vuông là thấp, nó có thể chỉ đơn giản có nghĩa là một loại sản phẩm mà giá tương đối không quan trọng khi có nhu cầu. Trên đỉnh đầu của tôi, một loại thuốc trị ung thư có thể là thứ có thể tuân thủ tài sản này. Trường hợp tầm quan trọng của thuốc vượt xa giá mà nó ra lệnh và có thể cho thấy không có thay đổi về nhu cầu.

Và kết luận, tôi cho rằng ý định của người phỏng vấn có thể là phán đoán nếu bạn biết ý nghĩa của hình vuông r thấp có nghĩa là gì thay vì tìm hiểu cách xây dựng mô hình tốt hơn với hình vuông r cao hơn.


+1 cho kết luận. Tôi cũng đang nghĩ mục đích của câu hỏi này là cố gắng xem liệu ứng viên có mù quáng theo đuổi một số liệu mà không hiểu đầy đủ về nó hay không.
Haitao Du

5

Tôi không chắc người phỏng vấn là ai sau khi đối mặt với một người mẫu kém cỏi, đây là những điều tôi xem xét và một câu trả lời tôi rất thích nghe khi là một người phỏng vấn (đã phỏng vấn vài năm nay).

  1. Lấy thêm dữ liệu : Điều này có thể không phải lúc nào cũng có ích nhưng có một vài điều có thể giúp bạn đánh giá hiệu ứng giải pháp này:

    • Chạy mô hình với các cỡ mẫu khác nhau - nếu kết quả được cải thiện với nhiều dữ liệu hơn thì giả sử hợp lý của nó sẽ tiếp tục cải thiện hiệu suất của mô hình.
    • Các tính năng so với tỷ lệ mẫu - sau khi bạn chọn các tính năng, hãy thử hiểu nếu bạn có đủ mẫu cho mỗi giá trị tính năng. Xem một câu hỏi trả lời về chủ đề này .
    • Thiếu giá trị mục tiêu - độ co giãn có thể không hoạt động tương tự giữa các phạm vi giá khác nhau. Trong trường hợp dữ liệu mẫu của bạn bị sai lệch theo một phạm vi cụ thể, rất có thể bạn sẽ không thể khái quát hóa (ví dụ: 90% mẫu được định giá từ 0-10 và 10% còn lại dành cho giá giữa 1000-10000). Có nhiều cách để giải quyết vấn đề này ngoài việc lấy thêm dữ liệu (chia nhỏ đào tạo mô hình, không sử dụng hồi quy).
  2. Kỹ thuật tính năng tốt hơn : Nếu bạn có đủ dữ liệu và bạn biết về học sâu thì có lẽ điều này không liên quan. Trong trường hợp bạn không phù hợp với tiêu chí đã đề cập, hãy tập trung nỗ lực vào tiêu chí này. Trong các mô hình hành vi người dùng, có nhiều mối quan hệ mà trực giác con người của chúng ta hiểu rõ hơn so với mô hình được đào tạo bằng máy.
    Như trong trường hợp của bạn, nơi bạn đã thiết kế một vài tính năng và cải thiện hiệu suất mô hình rất nhiều. Bước này dễ xảy ra lỗi vì nó thường liên quan đến mã dựa trên logic (Nếu công thức toán học / toán học).

  3. Lựa chọn mô hình tốt hơn : Như bạn đề xuất, có thể một mô hình phi tuyến tính sẽ hoạt động tốt hơn. Là dữ liệu của bạn đồng nhất? Bạn có lý do để tin rằng các tính năng chéo sẽ giải thích độ co giãn giá tốt hơn? (tính thời vụ * giá của đối thủ cạnh tranh).

  4. Điều chỉnh tham số siêu tốc: tham số siêu mô hình tìm kiếm lưới (+ kết quả xác thực chéo) là một cách thực hành tốt nhưng theo kinh nghiệm của tôi, nó hiếm khi cải thiện hiệu suất rất nhiều (chắc chắn không phải từ 5% đến 90%).

Có nhiều điều có thể được thực hiện, nhưng những điểm này là đủ chung chung.


1

Ngoài những gì được đề xuất bởi @DaFanat và @Arun, tôi muốn thêm rằng một số kiểm tra trực quan có thể giúp ích.

R2


Cảm ơn bạn đã chia sẻ đầu vào cụ thể của tên miền vì đây thực sự là một vấn đề quản lý doanh thu
Nhiệt tình
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.