Google đã có khả năng tạo chỉ mục các trang web tương tác

18/05/2012 3:39:56 CH

Google có thể tìm kiếm được nội dung trong các trang web tương tác như con người

Để cho ra kết quả tìm kiếm, Google hàng ngày hàng giờ phải rà quét từng ngóc ngách và cập nhật dữ liệu của các trang web trên thế giới. Họ thực hiện điều này bằng các chương trình có khả năng duyệt trang một cách tự động gọi là Web Crawler, Web spider hay bot. Tuy nhiên, trong quá khứ, đội quân bot này chịu chết khi gặp các nội dung tương tác được tải thông qua JavaScript, đặc biệt là trên các trang sử dụng Asynchronous JavaScript và XML (viết tắt là AJAX) cho phép người sử dụng truy xuất thông tin bổ sung mà không cần phải tải lại trang. Nhưng nay, theo lời của lập trình viên Alex Pankratov, tác giả chương trình Hamachi nổi tiếng, các bot của Google đã được huấn luyện để có thể xử lý như con người các nội dung này. Cách thức các bot này thực hiện là quét các đoạn mã JavaScript gặp phải để tìm các địa chỉ URL, đồng thời truy xuất các hàm JavaScript tương tự như cách chúng chạy mỗi khi người dùng nhấp vào đối tượng để kích hoạt. Bằng cách đó, Google có thể tìm kiếm được nhiều nội dung ẩn giấu trong các cơ sở dữ liệu cũng như các nguồn khác mà trước đó họ không thể tạo chỉ mục tìm kiếm. Điển hình là phần comment trên các trang mạng xã hội.

Trong quá khứ, Google đã từng đưa ra đề xuất để có thể tìm kiếm được các nội dung AJAX. Tuy nhiên, các đề xuất này đặt gánh nặng lên vai của các nhà phát triển web hơn là lên phía Google. Vì vậy, chúng không thu hút được sự ủng hộ từ phía các lập trình viên. Do đó, Google đã phải lên kế hoạch cải tiến các bot của mình. Và cuối cùng, vào cuối năm ngoái, Google đã tìm ra cách giải quyết vấn đề bằng cách huấn luyện bot của mình gửi các yêu cầu POST đến website trong một số trường hợp tùy thuộc vào nội dung JavaScript trên đó được viết như thế nào, thay vì chỉ sử dụng các yêu cầu GET để truy xuất nội dung như trước. Kết quả như chúng ta thấy, Google đã làm được thứ mà trước đó họ không thể.

 

Vậy phát kiến này sẽ ảnh hưởng thế nào đến chúng ta? Tác dụng cụ thể nhất có thể thấy đó là các comment và nội dung Facebook trước đây “mù” với Google thì thời gian tới các bạn sẽ có thể tìm kiếm chúng một cách dễ dàng hơn. Tương tự như vậy cho các hệ thống bình luận động (dynamic comment system) nói chung. Tất nhiên, kết quả tìm kiếm trên Google cũng sẽ chính xác, nhiều và phong phú hơn trước.

 
Source: ArsTechnica

Tag : Google, tìm kiếm thông minh, javascript, ajax