Làm cách nào tôi có thể tìm thấy lỗi chính tả phổ biến cho tên miền của mình?


38

Tôi muốn đăng ký lỗi chính tả cho tên miền của mình, nhưng tôi không muốn đăng ký một cách cụ thể một biểu mẫu "chỉ đoán". Ví dụ: công cụ này cung cấp các tùy chọn sau trong Trình tạo Typo từ khóa

  • bỏ qua thư
  • chữ đôi
  • chữ ngược
  • bỏ qua không gian
  • chìa khóa bị mất
  • phím chèn

Điều này thật tuyệt, và tạo ra hàng tá nếu không phải hàng trăm tên miền có thể ... nhưng nó không cho tôi biết điều quan trọng nhất: những lỗi sai chính tả này thực sự xảy ra nhiều nhất với người dùng thực trên Internet thực tế?

Làm cách nào tôi có thể tìm thấy dữ liệu sai chính tả thực tế từ người dùng thực?

Câu trả lời:


25

Có một vài tài nguyên trên Wikipedia, nhưng bạn thực sự phải khá may mắn khi có một tên miền là một từ tiếng Anh vani đơn giản, đủ phổ biến để xuất hiện ở đây.

Bạn có thể sử dụng công cụ tạo lỗi chính tả từ khóa hoặc một cái gì đó tương tự, sau đó nhập mạnh từng từ vào Google - điều trớ trêu là sẽ cố sửa lỗi chính tả của bạn - sau đó sử dụng "tìm kiếm thay cho {phiên bản sai chính tả}" và xem có bao nhiêu tìm kiếm kết quả bạn nhận được cho lỗi chính tả cụ thể đó:

Hiển thị kết quả cho chuyên luận

Tìm kiếm thay vì tretise

Điều đó cung cấp khoảng 117.000 kết quả cho "tretise" so với 17.800.000 kết quả cho "chuyên luận". Vì vậy, bây giờ bạn có một số ý tưởng về mức độ sai chính tả phổ biến trên toàn bộ Internet! Vì vậy, bạn có thể ủng hộ những lỗi sai chính tả xảy ra thường xuyên hơn trong thế giới thực.

Có lẽ quan trọng nhất, tôi cũng tìm thấy những trang này:

http://how-to-spell.net/treatise

Làm thế nào để đánh vần chuyên luận?

Đúng: chuyên luận .

Lỗi chính tả thường gặp: tretise - 100%

Mà rõ ràng là không sử dụng dữ liệu thực tế!

Chúng tôi đã thu thập tỷ lệ sai chính tả từ gần 15.423.252 phiên kiểm tra chính tả trên trang web chính tả.net (tháng 1 năm 2010 - tháng 6 năm 2012).

Lý tưởng nhất là tôi thích nó nếu Google chia sẻ dữ liệu về lỗi chính tả, vì tôi nghi ngờ họ có nhiều dữ liệu hơn .. nhưng tôi không chắc liệu họ có sẵn sàng chia sẻ hay không, có thể họ xem tự động sửa lỗi chính tả của các cụm từ tìm kiếm sai lợi thế cạnh tranh.

Sẽ là tuyệt vời mặc dù họ đã làm!


2
Đừng quên rằng bạn cũng có thể hỏi người dùng của mình!
Alex L

2
Văn bản từ Google Triliion chắc chắn bao gồm cả các từ được đánh vần chính xác và không chính xác, vì vậy bạn có thể sử dụng nó và rất nhiều từ và số giòn để tự tính toán chúng từ dữ liệu thô mà Google chia sẻ.
hà mã

OpenDNS và Google Public DNS chắc chắn có loại thông tin này, nhưng không cung cấp cho nó mà thay vào đó sử dụng nó để cải thiện các dịch vụ của riêng họ (OpenDNS có tính năng sửa lỗi chính tả). Bạn có thể bắt đầu dịch vụ DNS miễn phí / libre của riêng bạn và thu thập dữ liệu, tôi đoán vậy.
Christian Davén

1
Tôi không nghĩ sử dụng kết quả của Google là một ý tưởng hay (ngay cả khi không thực tế). Như xkcd đã chỉ ra trên mớ bòng bong của mình , "Số lượng kết quả mà Số đếm mà Google đưa ra khi bạn tìm kiếm rõ ràng là bịa đặt".
Rodrigoq

9

Vấn đề thú vị. Bạn có thể sử dụng công cụ tìm kiếm từ khóa của google tại https://GL.google.com.vn/o/KeywordTool để tìm hiểu có bao nhiêu tìm kiếm mỗi tháng được thực hiện cho mỗi lỗi chính tả tên miền của bạn (bạn phải tạo một danh sách chính tả với công cụ bạn đề cập ở trên). Không hoàn hảo, nhưng sẽ đại diện cho lỗi chính tả người dùng thực tế và cung cấp cho bạn một số dữ liệu phong nha để tiếp tục. (Tôi vừa thử nó và nhận được một số kết quả có vẻ hợp lý.)


Đáng buồn thay, điều này không còn đúng nữa, bây giờ chúng ta có Hummingbird. Google Keyword Tool đã được deprecated. Nó đã được thay thế bằng Keyword Planner, một sản phẩm của Google AdSense.
Ellie Kesselman

4

Câu hỏi thú vị, phân tích kết quả tìm kiếm như được mô tả ở đây chắc chắn sẽ là một vị trí bắt đầu tốt nhưng nhạy cảm với các thông tin sai lệch gây ra bởi các trang web khác có tên tương tự như của bạn. Nó cũng có thể bỏ lỡ các lỗi phổ biến mà bạn không nghĩ tới, nhìn vào danh sách tôi sẽ nói phân tích việc chuyển đổi từ cũng có thể thú vị.

Một phương pháp đặc biệt tốt trong việc khám phá những lỗi nào thường được thực hiện bởi khách truy cập phổ biến là yêu cầu họ nhập tên. Tất nhiên không phải tất cả các trang web đều phù hợp cho việc này, giả sử trang này tương tác, nó sẽ làm cho phù hợp hơn.

Thay vì sử dụng captcha thông thường, chỉ hiển thị một vài logo trang web của bạn với (một phần) tên được viết ở đó và yêu cầu mọi người nhập nó trước khi họ có thể làm việc của mình.

Dữ liệu sẽ không dựa trên một dân số khổng lồ như tìm kiếm google, nhưng nó sẽ chính xác là nhóm mục tiêu và do đó kết quả sẽ khá mạnh mẽ.


1

Bạn có thể thử công cụ tìm lỗi đánh máy tên miền này . Tùy chọn tìm kiếm sau đây, riêng lẻ hoặc kết hợp:

  • Bàn phím QWERTY trượt
  • Trao đổi thư
  • Phím dính, cho các chữ cái thừa hoặc thiếu
  • Trông giống như chữ cái lso với số1

Có ba "quan điểm" để tìm kiếm. Đăng ký là mặc định. DNS là chế độ xem có thể sắp xếp hiển thị máy chủ tên và địa chỉ IP của từng lỗi đánh máy. TLD tìm thấy lỗi chính tả trong tên trong bất kỳ sáu TLD nào sau đây: .com .net .org .biz .us .infovà nếu nó được đăng ký.

Có khác gì công cụ từ khóa của OP không? Có lẽ. Nó tuyên bố "tìm các typo thông thường liên quan đến tên miền". Điều đó có nghĩa là dữ liệu được thu thập từ người dùng khi họ nhập thủ công tên miền vào thanh điều hướng trình duyệt của họ .

  • Tìm kiếm "Phím dính" bao gồm các biến thể phổ biến, có hoặc không có dấu gạch nối. Những lỗi chính tả đó không phải do lỗi chính tả, các phím dính, thay vào đó, là lỗi trong nhận thức của con người. Điều đó cho thấy việc sử dụng một cái gì đó tốt hơn so với cách tiếp cận dựa trên quy tắc, hệ thống chuyên gia.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.