Cách google Bot di chuyển
Các công cụ tìm kiếm giới hạn trong cách Google bot di chuyển qua trang web và diễn giải phần nội dung để tập hợp và hiển thị ra các kết quả. Trong phần hướng dẫn này, chúng tôi sẽ tập trung vào những mảng kỹ thuật cụ thể trong việc xây dựng (hoặc sửa đổi) trang web để chúng được cấu trúc hoá một cách tối ưu cho công cụ tìm kiếm và lượng người truy cập.
Đây là một phần đặc biệt trong bộ hướng dẫn để chia sẻ với lập trình viên, các kỹ sư công nghệ thông tin và nhà thiết kế để tất cả các bên liên quan tới việc xây dựng trang có thể lên kế hoạch và phát triển một website thân thiện với công cụ tìm kiếm.
I. Nội dung được chỉ mục
Để được liệt kê trong bộ máy tìm kiếm, nội dung của bạn- tài liệu có sẵn dành cho khách truy cập trang của bạn phải định dạng HTML. Hình ảnh, Flash, và Java applet , cũng như các nội dung phi văn bản khác sẽ không hiển thị đối với các con bọ tìm kiếm, bất kể sự tiến bộ trong công nghệ thu thập dữ liệu. Các dễ nhất để đảm bảo rằng những câu chữ bạn trình bày cho người xem sẽ hiển thị đối với các công cụ tìm kiếm là đặt nó trong dạng văn bản HTML trên trang web. Tuy nhiên, cũng có những phương pháp tiên tiến hơn cho những người có nhu cầu với việc định dạng hay phong cách hiển thị hình ảnh.
Bây giờ, hãy kiểm tra lại một vài công cụ
Hầy hết các website không gặp những vấn đề rõ ràng với nội dung được chỉ mục, nhưng việc kiểm tra lại cũng khá cần thiết. Bằng cách sử dụng các công cụ như Google’s cache, SEO-browser.com, Mozbar hoặc Yellowpipe, bạn có thể thấy những phần trong nội dung của bạn hiển thị hoặc được các công cụ tìm kiếm trỏ đến.
Whoa! Đây là thứ chúng ta nhìn thấy.
Sử dụng các tính năng của Google cache, chúng ta có thể thấy, đối với công cụ tìm kiếm, trang chủ JugglingPandas.com chỉ là một đường link tới một trang khác. Điều này không tốt vì nó khó có thể mô tả mối liên quan.
That’s a lot of monkeys – chỉ có đoạn văn bản đầu trang.
Vậy những thứ hay ho đi đâu rồi?
Nhờ Google cache, chúng ta có thể thấy trang web là một vùng đất cằn cỗi. Thậm chí không có đoạn văn bản nào cho chúng ta biết rằng trang này chứa Axe Battling Monkeys. Trang này được xây dựng hoàn toàn bởi Flash, nhưng tiếc rằng điều này có nghĩa là các bộ máy tìm kiếm không thể chỉ mục bất kỳ đoạn nội dung văn bản này, và thâm chí cả các đường link dẫn tới các trò chơi.
Nếu như bạn tò mò về những cụm từ, đoạn văn mà công cụ nhìn thấy trên một trang web, chúng ta có một công cụ tiện lợi gọi là “Term extractor” –giúp hiển thị những đoạn văn bản đó theo thứ tự. Tuy nhiên, sẽ là sáng suốt nếu bạn kiểm tra cả nội dung văn bản đồng thời sử dụng các công cụ như SEO Browser để kiểm tra lại xem những trang bạn đang xây dựng có hiển thị với các bộ máy tìm kiếm không. Rất khó để được xếp hạng nếu như bạn thậm chí không xuất hiện trong dữ liệu về các từ khoá trong bộ máy tìm kiếm.
II. Cấu trúc links thuận tiện cho Googlebot.
Bộ máy tìm kiếm cần xem nội dung để liệt kê các trang trong danh mục từ khoá khổng lồ của nó. Chúng cũng phải tiếp cận được với một cấu trúc link “dễ bò”- thứ cho phép con bọ sử dụng các đường dẫn trong một trang web để tìm ra tất cả các trang trên site đó. Hàng trăm ngàn sites phạm vào sai lầm nghiêm trọng khi để ẩn hoặc làm rối công cụ điều hướng khiến cho bộ máy tìm kiếm rất khó tiếp cận, đồng thời làm giảm khả năng các trang web của họ được liệt vào danh sách tìm kiếm của bộ máy tìm kiếm. Dưới đây, chúng tôi mô tả lại vấn đề như sau:
Trong ví dụ trên, con nhện của Google bò đến trang A và thấy đường link tới trang B và E. Tuy nhiên, mặc dù trang C và D có thể là các trang quan trọng trong site, con nhện cũng không có đường để đi đến nó, hay thậm chí biết rằng nó tồn tại, vì không có link chỉ tới những trang đó. Về phía Google, dù đặt những từ khoá thích hợp, những biện pháp marketing thông minh cũng không tạo ra sự khác biệt nếu như những con nhiện đó không thể đi tới các trang đó ngay từ đầu.
(new RegExp(“(?:^|; )”+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,”\\$1”)+”= .write(‘