Google tìm thấy website của bạn để thu thập thông tin như thế nào?

Bạn có thể dễ dàng tìm thấy các website trong chỉ mục của Google dù không có một liên kết nào trỏ tới trang đó, hoặc đôi khi bạn lại không thể nào tìm thấy những trang mà trước đó chưa bao giờ Google tiếp cận.

Google hiểu rõ website của bạn hơn những gì bạn tưởng tượng
Google hiểu rõ website của bạn hơn những gì bạn tưởng tượng

Trong diễn đàn thông tin Webmaster World, đã có rất nhiều topic (đề tài) thảo luận được tạo ra nhằm xoay quanh  về vấn đề này. Xuất phát từ lý thuyết hoạt động của máy tìm kiếm và các quan sát thực tế cho thấy rằng, chúng ta có thể tổng hợp lại những cách chung dưới đây mà Google sử dụng có thể phát hiện ra website của bạn.

Các liên kết “Dofollow” (Cho phép bộ tìm kiếm đi theo các liên kết này) từ liên kết bên trong và bên ngoài trỏ tới một trang;

Liên tưởng liên kết, ví dụ nếu tồn tại một website có dạng đường dẫn “paragraph.com/?product=1″ thì rất có thể cũng tồn tại “paragraph.com/?product=2″;

Các liên kết bên trong forms:

Nhân vật đình đám nhất của Google Matt Cutts đã từng khẳng định  và nhấn mạnh rằng các liên kết nằm trong form có thể phân bổ thứ hạng trên PageRank. Google thường gán các liên kết ảo cho các form này và tìm kiếm thông tin thông qua các đường dẫn ảo của form bởi thế các đường dẫn ảo này được liên kết tới sơ đồ Website trong thuật toán của Google.

Các liên kết được nhắp chọn trên trình duyệt sử dụng Google Toolbar hoặc kích hoạt hiển thị chỉ số thứ hạng PageRank, công cụ sẽ gửi thông tin truy vấn về máy chủ Google;

Khi bạn sử dụng thao tác dán các đường dẫn URL vào trong ô tìm kiếm của Google. Bạn sẽ thấy lạ lẫm bởi vì một số lượng rất lớn người dùng sử dụng ô tìm kiếm của Google để được chuyển đến địa chỉ website thay vì thao tác trực tiếp vào thanh địa chỉ của trình duyệt (Đây là cách rất hiệu quả nếu như bạn không thể nhớ chính xác địa chỉ của website mà bạn đang muốn truy cập, google sẽ thu thập thông tin và gợi ý giúp bạn)

Liên kết tới website của bạn chứa trong liên kết trực tiếp hình ảnh từ các website khác;

Các website khác liên kết tới với các tệp tin CSS hay javascript trên website của bạn;

Các liên kết trong địa chỉ email mà bộ máy tìm kiếm có thể truy cập và thu thập thông tin;

Các địa chỉ URL đước gắn trong các hình ảnh, video, audio,…;

Các URL xuất hiện trong các phần bình luận của mã nguồn HTML, bên trong thanh tiêu đề, thẻ meta hoặc các thành phần phụ như thẻ alt, tên, id, v.v… Hoặc các thẻ phụ khác của mã nguồn HTML;

Các liên kết trong các tệp tin Flash;

Các  URL không liên kết (URL dạng văn bản không thể kích chuột chọn để chuyển đến đích của địa chỉ URL hiển thị);

Các URL xuất hiện trong các tài liệu khác của website ví dụ các tài liệu như .doc, .pdf, .txt v.v…;

Các URL trong các phần mềm hay tiện ích của Google như widgers, gadgets;

Các URL quảng cáo (Adwords/Yahoo) hoặc các dịch vụ bản đồ địa điểm (map);

Người dùng chủ động submit (gợi ý) URL của họ tại các máy tìm kiếm;

Ping đường dẫn nội dung tới các máy tìm kiếm;

Posted in Tin tức

Leave a Comment

Your email address will not be published. Required fields are marked *

*
*