Làm thế nào mà Google có thể nhanh như vậy?

Question 1

Những công nghệ và quyết định lập trình nào khiến Google có thể phân phát một truy vấn nhanh như vậy?

Mỗi khi tôi tìm kiếm thứ gì đó (một trong vài lần mỗi ngày), điều đó luôn khiến tôi kinh ngạc về cách chúng cung cấp kết quả trong thời gian gần hoặc chưa đầy 1 giây. Họ có thể có loại cấu hình và thuật toán nào để thực hiện điều này?

Lưu ý bên lề: Có một suy nghĩ áp đảo rằng ngay cả khi tôi đặt một ứng dụng dành cho máy tính để bàn và sử dụng nó trên máy tính của mình có lẽ sẽ không nhanh bằng một nửa của Google. Tôi nói tiếp tục học hỏi.

Dưới đây là một số câu trả lời và gợi ý tuyệt vời được cung cấp:

Nền tảng Google
Giảm bản đồ
Các thuật toán được xây dựng cẩn thận
Phần cứng - cụm trang trại và số lượng lớn máy tính giá rẻ
Bộ nhớ đệm và Cân bằng tải
Hệ thống tệp của Google

Question 2

Độ trễ bị giết bởi truy cập đĩa. Do đó, thật hợp lý khi tin rằng tất cả dữ liệu được sử dụng để trả lời các truy vấn đều được lưu trong bộ nhớ. Điều này ngụ ý hàng ngàn máy chủ, mỗi máy chủ sao chép một trong nhiều phân đoạn. Do đó, con đường quan trọng để tìm kiếm không có khả năng đạt được bất kỳ công nghệ hệ thống phân tán hàng đầu nào của họ là GFS, MapReduce hoặc BigTable. Chúng sẽ được sử dụng để xử lý kết quả thu thập thông tin, một cách thô thiển.

Điều hữu ích về tìm kiếm là không cần phải có kết quả nhất quán mạnh mẽ hoặc dữ liệu hoàn toàn cập nhật, vì vậy Google không bị ngăn phản hồi cho một truy vấn vì đã có kết quả tìm kiếm cập nhật hơn.

Vì vậy, một kiến trúc khả thi là khá đơn giản: máy chủ front end xử lý truy vấn, chuẩn hóa nó (có thể bằng cách loại bỏ các từ dừng, v.v.) sau đó phân phối nó cho bất kỳ tập hợp con bản sao nào sở hữu phần đó của không gian truy vấn (một kiến trúc thay thế là chia nhỏ dữ liệu của các trang web, do đó cần phải liên hệ với một trong mọi tập hợp bản sao cho mọi truy vấn). Nhiều, rất nhiều bản sao có thể được truy vấn và phản hồi nhanh nhất sẽ giành chiến thắng. Mỗi bản sao có một truy vấn ánh xạ chỉ mục (hoặc các thuật ngữ truy vấn riêng lẻ) tới các tài liệu mà chúng có thể sử dụng để tra cứu kết quả trong bộ nhớ rất nhanh chóng. Nếu các kết quả khác nhau đến từ các nguồn khác nhau, máy chủ front-end có thể xếp hạng chúng khi nó xuất ra html.

Lưu ý rằng điều này có lẽ là một chặng đường dài khác với những gì Google thực sự làm - họ sẽ thiết kế cuộc sống của hệ thống này để có thể có nhiều bộ nhớ cache hơn ở các khu vực lạ, các chỉ mục kỳ lạ và một số loại sơ đồ cân bằng tải thú vị trong số các khác biệt có thể có khác .

Question 3

Nó hơi quá khi đặt nó trong một câu trả lời. http://en.wikipedia.org/wiki/Google_platform

Question 4

Một sự thật mà tôi luôn cảm thấy buồn cười là Google trên thực tế được điều hành bởi tin sinh học ('kay, tôi thấy điều đó thật buồn cười vì tôi là một ... đồ vật sinh học). Hãy để tôi giải thích.

Tin sinh học từ rất sớm đã gặp khó khăn trong việc tìm kiếm các văn bản nhỏ trong các chuỗi khổng lồ rất nhanh. Đối với chúng tôi, “chuỗi khổng lồ” tất nhiên là DNA. Thường không phải là một DNA đơn lẻ mà là một cơ sở dữ liệu của một số DNA từ các loài / cá thể khác nhau. Các văn bản nhỏ là protein hoặc bản sao di truyền của chúng, một gen. Hầu hết công việc đầu tiên của các nhà sinh học tính toán bị hạn chế để tìm ra sự tương đồng giữa các gen. Điều này được thực hiện để thiết lập chức năng của các gen mới tìm thấy bằng cách ghi nhận các điểm tương đồng với các gen đã được biết đến.

Giờ đây, những chuỗi DNA này thực sự rất lớn và việc tìm kiếm (mất mát!) Phải được thực hiện cực kỳ hiệu quả. Do đó, hầu hết lý thuyết hiện đại về tra cứu chuỗi đã được phát triển trong bối cảnh sinh học tính toán.

Tuy nhiên, cách đây khá lâu, tính năng tìm kiếm văn bản thông thường đã cạn kiệt. Một cách tiếp cận mới là cần thiết cho phép tìm kiếm các chuỗi lớn trong thời gian tuyến tính, nghĩa là, mà không cần xem xét từng ký tự. Người ta phát hiện ra rằng điều này có thể được giải quyết bằng cách xử lý trước chuỗi lớn và xây dựng cấu trúc dữ liệu chỉ mục đặc biệt trên đó. Nhiều cấu trúc dữ liệu khác nhau đã được đề xuất. Mỗi cái đều có điểm mạnh và điểm yếu nhưng có một điểm đặc biệt đáng chú ý vì nó cho phép tra cứu trong thời gian liên tục. Giờ đây, theo thứ tự quy mô mà Google vận hành, điều này không còn đúng nữa vì cân bằng tải trên các máy chủ, xử lý trước và một số nội dung phức tạp khác phải được tính đến.

Nhưng về bản chất, cái gọi là chỉ số q-gram cho phép tra cứu trong thời gian không đổi. Điểm bất lợi duy nhất: Cấu trúc dữ liệu quá lớn. Về cơ bản, để cho phép tra cứu các chuỗi có tối đa q ký tự (do đó có tên), nó yêu cầu một bảng có một trường cho mỗi kết hợp có thể có của q chữ cái (nghĩa là q ^S , trong đó S là kích thước của bảng chữ cái , giả sử 36 (= 26 + 10)). Ngoài ra, phải có một trường cho mỗi vị trí chữ cái trong chuỗi đã được lập chỉ mục (hoặc trong trường hợp của google, cho mỗi trang web).

Để giảm thiểu kích thước tuyệt đối, Google có thể sẽ sử dụng nhiều chỉ số (trên thực tế, họ có , để cung cấp các dịch vụ như sửa lỗi chính tả). Những cái trên cùng sẽ không hoạt động ở cấp độ ký tự mà ở cấp độ từ. Điều này làm giảm q nhưng nó làm cho S lớn hơn vô hạn, vì vậy họ sẽ phải sử dụng bảng băm và va chạm để đối phó với vô số các từ khác nhau.

Ở cấp độ tiếp theo, các từ được băm này sẽ trỏ đến các cấu trúc dữ liệu chỉ mục khác, đến lượt nó, các ký tự băm sẽ trỏ đến các trang web.

Tóm lại, các cấu trúc dữ liệu chỉ mục q -gram này được cho là phần trung tâm nhất trong thuật toán tìm kiếm của Google. Thật không may, không có tài liệu phi kỹ thuật tốt nào giải thích cách hoạt động của chỉ số q -gram. Ấn phẩm duy nhất mà tôi biết có mô tả về cách hoạt động của một chỉ mục như vậy ... than ôi, luận án cử nhân của tôi .

Question 5

Dưới đây là một số câu trả lời và gợi ý tuyệt vời được cung cấp:

Nền tảng Google
Giảm bản đồ
Các thuật toán được xây dựng cẩn thận
Phần cứng - cụm trang trại và số lượng lớn máy tính giá rẻ
Bộ nhớ đệm và Cân bằng tải
Hệ thống tệp của Google

Question 6

Họ đã triển khai các thuật toán tốt, phân tán, chạy trên một lượng lớn phần cứng.

Question 7

Một trong những sự chậm trễ quan trọng nhất là máy chủ web là đưa truy vấn của bạn đến máy chủ web và phản hồi lại. Độ trễ của nó bị ràng buộc bởi tốc độ ánh sáng, điều mà ngay cả Google cũng phải tuân theo. Tuy nhiên, họ có các trung tâm dữ liệu trên toàn thế giới. Kết quả là, khoảng cách trung bình đến bất kỳ một trong số chúng thấp hơn. Điều này giúp giảm độ trễ. Chắc chắn, sự khác biệt được đo bằng mili giây, nhưng điều quan trọng là nếu phản hồi phải đến trong vòng 1000 mili giây.

Question 8

Tất nhiên mọi người đều biết đó là vì họ sử dụng chim bồ câu !

Ồ đúng rồi, đó và Mapreduce.

Question 9

Họ có khá nhiều bản sao cục bộ của internet được lưu trữ trên hàng nghìn PC trên hệ thống tệp tùy chỉnh.

Question 10

Google thuê những người giỏi nhất trong số những người giỏi nhất. Một số người thông minh nhất trong lĩnh vực CNTT làm việc tại google. Họ có hầu như vô hạn tiền để ném vào phần cứng và kỹ sư.

Họ sử dụng các cơ chế lưu trữ được tối ưu hóa cao cho các tác vụ mà họ đang thực hiện.

Họ có các trang trại máy chủ được định vị địa lý.

Question 11

Cố gắng tạo một danh sách tổng quát (điều đó không phụ thuộc vào việc bạn có quyền truy cập vào các công cụ nội bộ của Google):

Song song hóa các yêu cầu (ví dụ: chia nhỏ một yêu cầu thành các nhóm nhỏ hơn)
Không đồng bộ (tạo càng nhiều không đồng bộ càng tốt, ví dụ: sẽ không chặn yêu cầu của người dùng)
Bộ nhớ / bộ đệm (I / O của đĩa chậm, hãy giữ càng nhiều càng tốt trong bộ nhớ)
Tính toán trước (Thực hiện càng nhiều công việc càng tốt trước khi thực hiện, không đợi người dùng yêu cầu dữ liệu / xử lý)
Quan tâm đến HTML giao diện người dùng của bạn (xem Yslow và bạn bè)

Question 12

Bạn có thể tìm thấy trong trang chủ nghiên cứu google một số gợi ý về các bài báo nghiên cứu được viết bởi một số người trong số các anh chàng google. Bạn nên bắt đầu với sự giải thích của hệ thống tệp google và thuật toán bản đồ / thu nhỏ để thử và hiểu những gì đang xảy ra đằng sau các trang google.

Question 13

Liên kết này nó cũng rất nhiều thông tin Đằng sau hậu trường của một truy vấn google

Question 14

Phần cứng.

Rất nhiều và rất nhiều phần cứng. Họ sử dụng các cụm máy tính hàng hóa khổng lồ làm trang trại máy chủ của mình.

Question 15

TraumaPony đã đúng. Hàng tấn máy chủ và kiến trúc thông minh để cân bằng tải / bộ nhớ đệm và thì bạn có thể chạy truy vấn trong vòng chưa đầy 1 giây. Đã có rất nhiều bài báo trên mạng mô tả kiến trúc các dịch vụ của Google. Tôi chắc rằng bạn có thể tìm thấy chúng qua Google :)

Question 16

HenryR có lẽ đúng.

Map Reduce không đóng vai trò gì đối với việc tìm kiếm mà chỉ được sử dụng để lập chỉ mục. Kiểm tra cuộc phỏng vấn video này với các nhà phát minh Map Reduce .

Question 17

Một lý do khác dường như là họ gian lận trong thuật toán khởi động chậm TCP.

http://blog.benstrong.com/2010/11/google-and-microsoft-cheat-on-slow.html

Question 18

Và các thuật toán có thể khai thác sức mạnh phần cứng đó. Như mapreduce chẳng hạn.

Question 19

Nếu bạn quan tâm đến chi tiết hơn về cách Google cluster hoạt động, tôi sẽ đề xuất triển khai mã nguồn mở HDFS của chúng .

Nó dựa trên Mapreduce của google.

Question 20

Nhiều giai đoạn lưu trữ, xử lý và truy xuất dữ liệu
Phân phối HIỆU QUẢ (100 trong số 1000 máy) của các nhiệm vụ trên
Khung tốt để lưu trữ dữ liệu thô và kết quả đã xử lý
Khung tốt để lấy kết quả

Tất cả những điều này được thực hiện chính xác như thế nào được tóm tắt bởi tất cả các liên kết mà bạn có trong phần tóm tắt câu hỏi