Kinh doanh tên miền là kinh doanh lớn. Một trong những công cụ hữu ích nhất để giao dịch tên miền là một công cụ thẩm định tự động, để bạn có thể dễ dàng ước tính giá trị của một tên miền nhất định. Thật không may, nhiều dịch vụ thẩm định tự động yêu cầu thành viên / đăng ký để sử dụng. Trong thử thách này, bạn sẽ viết một công cụ thẩm định đơn giản có thể ước tính gần đúng các giá trị của tên miền .com.
Đầu ra đầu vào
Là đầu vào, chương trình của bạn sẽ lấy một danh sách các tên miền, mỗi tên một dòng. Mỗi tên miền sẽ khớp với biểu thức chính quy ^[a-z0-9][a-z0-9-]*[a-z0-9]$
, có nghĩa là nó bao gồm các chữ cái thường, chữ số và dấu gạch nối. Mỗi miền dài ít nhất hai ký tự và không bắt đầu cũng không kết thúc bằng dấu gạch nối. Cái .com
này được bỏ qua từ mỗi miền, vì nó được ngụ ý.
Là một dạng đầu vào thay thế, bạn có thể chọn chấp nhận một tên miền dưới dạng một mảng số nguyên, thay vì một chuỗi ký tự, miễn là bạn chỉ định chuyển đổi ký tự sang số nguyên mong muốn.
Chương trình của bạn sẽ xuất ra một danh sách các số nguyên, mỗi số một dòng, cung cấp giá được thẩm định của các miền tương ứng.
Internet và các tập tin bổ sung
Chương trình của bạn có thể có quyền truy cập vào các tệp bổ sung, miễn là bạn cung cấp các tệp này như một phần câu trả lời của bạn. Chương trình của bạn cũng được phép truy cập tệp từ điển (danh sách các từ hợp lệ mà bạn không phải cung cấp).
(Chỉnh sửa) Tôi đã quyết định mở rộng thử thách này để cho phép chương trình của bạn truy cập internet. Có một vài hạn chế, đó là chương trình của bạn không thể tra cứu giá (hoặc lịch sử giá) của bất kỳ tên miền nào và nó chỉ sử dụng các dịch vụ có sẵn (sau này để che giấu một số lỗ hổng).
Giới hạn duy nhất trên tổng kích thước là giới hạn kích thước câu trả lời được áp đặt bởi SE.
Ví dụ đầu vào
Đây là một số tên miền được bán gần đây. Tuyên bố miễn trừ trách nhiệm: Mặc dù không có trang web nào trong số này có vẻ độc hại, tôi không biết ai kiểm soát chúng và do đó khuyên không nên truy cập chúng.
6d3
buyspydrones
arcader
counselar
ubme
7483688
buy-bikes
learningmusicproduction
Ví dụ đầu ra
Những con số này là có thật.
635
31
2000
1
2001
5
160
1
Chấm điểm
Ghi điểm sẽ dựa trên "sự khác biệt của logarit." Ví dụ: nếu một tên miền được bán với giá 300 đô la và chương trình của bạn đã đánh giá nó ở mức 500 đô la, điểm số của bạn cho tên miền đó là abs (ln (500) -ln (300)) = 0,5108. Không có tên miền sẽ có giá dưới 1 đô la. Điểm tổng thể của bạn là điểm trung bình của bạn cho nhóm tên miền, với điểm thấp hơn tốt hơn.
Để có được ý tưởng về điểm số mà bạn nên mong đợi, chỉ cần đoán một hằng số 36
cho dữ liệu đào tạo bên dưới sẽ cho kết quả về điểm số 1.6883
. Một thuật toán thành công có một số điểm ít hơn này.
Tôi đã chọn sử dụng logarit vì các giá trị trải dài theo một số bậc độ lớn và dữ liệu sẽ được điền vào các ngoại lệ. Việc sử dụng sự khác biệt tuyệt đối thay vì bình phương chênh lệch sẽ giúp làm giảm hiệu ứng của các ngoại lệ trong việc ghi bàn. (Ngoài ra, lưu ý rằng tôi đang sử dụng logarit tự nhiên, không phải cơ sở 2 hoặc cơ sở 10.)
Nguồn dữ liệu
Tôi đã lướt qua danh sách hơn 1.400 tên miền .com được bán gần đây từ Flippa , một trang web đấu giá tên miền. Dữ liệu này sẽ tạo thành tập dữ liệu đào tạo. Sau khi thời gian gửi kết thúc, tôi sẽ đợi thêm một tháng để tạo một bộ dữ liệu thử nghiệm, trong đó các bài nộp sẽ được ghi. Tôi cũng có thể chọn thu thập dữ liệu từ các nguồn khác để tăng kích thước của tập huấn luyện / kiểm tra.
Các dữ liệu đào tạo có sẵn tại ý chính sau đây. (Tuyên bố miễn trừ trách nhiệm: Mặc dù tôi đã sử dụng một số bộ lọc đơn giản để xóa một số tên miền NSFW một cách trắng trợn, một số vẫn có thể được chứa trong danh sách này. Ngoài ra, tôi khuyên bạn không nên truy cập bất kỳ tên miền nào mà bạn không nhận ra .) Các số ở phía bên phải là Giá thật. https://gist.github.com/PhiNotPi/46ca47247fe85f82767c82c820d730b5
Dưới đây là một biểu đồ phân phối giá của tập dữ liệu đào tạo. Trục x là bản ghi tự nhiên của giá, với trục y được tính. Mỗi thanh có chiều rộng 0,5. Các gai ở bên trái tương ứng với $ 1 và $ 6 do trang web nguồn yêu cầu giá thầu tăng ít nhất $ 5. Các dữ liệu thử nghiệm có thể có một phân phối hơi khác nhau.
Đây là một liên kết đến cùng một biểu đồ với chiều rộng thanh là 0,2. Trong biểu đồ đó, bạn có thể thấy các đột biến ở mức $ 11 và $ 16.