Phân tích mức độ Spam của page
Các bộ máy tìm kiếm tiến hành phân tích spam dọc từng page và toàn bộ websites (cả tên miền). Chúng ta sẽ xem cách chúng đánh giá điều này trên mức độ Url.
NHỒI NHÉT TỪ KHÓA
Một trong những kỹ thuật spam rõ nhất đó là nhồi nhét từ khóa, gắn với việc dồn số lượng lớn các từ khóa lặp lại vào 1 page nhằm làm nó liên hệ với bộ máy tìm kiếm. Ý tưởng đằng sau đó là tăng số lần một thuật ngữ được đề cập có thể tăng đáng kể thứ hạng của một trang – nhìn chung là sai. Nghiên cứu xem xét hàng ngàn kết quả tìm kiếm hàng đầu với các truy vấn khác nhau đã cho thấy việc lặp đi lặp lại từ khóa (hay mật độ từ khóa) đóng một vai trò cực kỳ hạn chế trong việc đẩy cao xếp hạng, và có vị trí thấp trong tương quan tổng thể với vị trí đầu.
Các bộ máy có rất nhiều cách dễ dàng và hiệu quả để chống lại điều này. Quét một page để tìm từ bị nhồi nhét thì không khó, và thuật toán của bộ máy tìm kiếm có thể đáp ứng nhiệm vụ này. Bạn có thể đọc thêm về điều này và quản điểm của Google về chủ đề này, trong một bài blog của đội chống spam của họ- Seo tip: Avoid Keyword Stuffing.
MANIPULATIVE LINKING- THAO TÚNG LINK
Một trong những hình thức phổ biến nhất của spam web, lôi kéo link dựa trên việc công cụ tìm kiếm sử dụng số lượng link trong thuật toán xếp hạng của nó để cố gắng tự thổi phồng các biến số và tăng khả năng hiển thị. Đây là một trong những dạng spam khó nhất mà các công cụ tìm kiếm phải đối mặt bởi vì nó có thể ở dưới rất nhiều dạng thức. Một vài cách để thao túng links bao gồm:
- Trao đổi link, các sites tạo các link pages chỉ tới nhau để cố gắng thổi phồng số lượng link. Bộ máy tìm kiếm rất dễ chỉ ra và hạ đánh giá của những trang này vì chúng rơi vào trường hợp khá đặc biệt.
- Tự tham chiếu link , bao gồm “link farms” và “link networks” là nơi mà các websites nhái hoặc có giá trị thấp xây dưng hoặc được duy trì với vai trò nguồn cung cấp link để thổi phồng số lượng nhân tạo. Bộ máy tìm kiếm đối phó bằng rất nhiều cách như phát hiện những kết nối giữa việt đăng ký site, chồng chéo link hoặc các yếu tố phổ biến khác.
- Links trả tiền- sử dụng cho các đối lượng muốn có được xếp hạng cao hơn bằng cách mua link từ các sites và pages sẵn sàng đặt link để lấy tiền. Hình thức này thường dính dáng tới mạng lưới mua bán link rộng lớn hơn và mặc dù bộ máy tìm kiếm cố gắng hạn chế song chúng vẫn tiếp tục cung cấp giá trị cho người mua và bán (đọc bài về link trả tiền để biết thêm)
- Danh bạ línks chất lượng thấp là một nguồn phổ biến với việc thao túng trong nhiều lĩnh vực SEO. Một lượng lớn web trả tiền để đặt link tồn tại để phục vụ thị trường này và tự hợp pháp hóa chính chúng với nhiều mức độ thành công khác nhau. Google thường chống lại những sites này bằng cách xóa hoặc giảm mạnh điểm Page Rank nhưng không làm điều này với tất cả các trường hợp.
Có rất nhiều thủ thuật thao túng link mà các công cụ tìm kiếm nhận ra và trong hầu hết các tình huống, đều tìm được các thuật toán để giảm tác động của chúng. Vì có nhiều hệ thống spam mới xuất hiện, các kỹ sư tiếp tục chiến đấu với chúng với thuật toán mục tiêu, kiểm soát bởi con người và tổng hợp các báo cáo spam từ người quản trị trang web và SEO.
CLOAKING
Một nguyên tắc cơ bản trong phần hướng dẫn về công cụ tìm kiếm đó là hiển thị nội dung giống nhau đối với một bộ máy dò và với khách truy cập . Khi hướng dẫn này bị phá vỡ, các công cụ gọi nó là “cloaking” và ngăn chặn xếp hạng những trang này trong kết quả của họ. Cloaking có thể tiến hành bằng nhiều cách, và do nhiều lý do, vừa mang tính tiêu cực và tích cực. Một số trường hợp, các công cụ cho phép hoạt động đó nếu chúng có user experience tích cực. Nhiều chủ đề về cloaking và mức độ rủi ro liên quan tới nhiều thủ thuật và ý định khác nhau, đọc bài viết : White Hat Cloaking của Rand Fishkin.
PAGES “GIÁ TRỊ THẤP”
Mặc dù không bị coi là “web spam” về mặt kỹ thuật, nhưng bộ máy tìm kiếm điều có hướng dẫn và phương pháp để biết một trang đưa ra các nội dung độc đáo và có giá trị đối với người tìm kiếm trước khi đưa nó vào kết quả tìm kiếm của chúng. Các loại trang được lọc phổ biến nhất đó là trang liên kết (những pages mà tài liệu của chúng được các sites khác sử dụng hàng trăm lần cho cùng một sản phẩm hay dịch vụ), nội dung lặp lại ( trang mà nội dung sao chép hoặc gần như giống hệt với những trang khác đã được chỉ mục) và những trang có nội dung được cập nhật linh hoạt nhưng cung cấp rất ít văn bản độc đáo hoặc có giá trị ( điều này thường xảy ra trên trang mà những sản phẩm và dịch vụ được mô tả cho nhiều lĩnh vực nhưng rất ít phân loại nội dung). Các bộ máy tìm kiếm thường tránh thêm vào các trang nay và sử dụng các thuật toán phân tích nội dung và link đa dạng để tìm ra các trang có giá trị thấp xuất hiện trong kết quả tìm kiếm.