BLOG, TECHNICAL

GOOGLE INDEX API – GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H

Google trải qua 4 bước hoạt động: crawl -> render -> index -> ranking.

Do đó, để xếp hạng từ khóa (bước 4), Google bắt buộc phải index được bài viết (bước 3). 

Vì lượng nội dung trên internet ngày càng phình to.

Trong khi ngân sách duy trì phần cứng của Google luôn có giới hạn

Do đó, Google có thể không index được bài viết của bạn, giữa biển thông tin mênh mông đó. 

Không thể index, không thể xếp hạng, không thể TOP, không thể tiếp cận khách hàng.

TẠCH.

 

NHƯỢC ĐIỂM CỦA NHỮNG GIẢI PHÁP CŨ

Anh em SEOer đã có những giải pháp sau, tuy nhiên mỗi cách đều có hạn chế. 

  • Để index tự nhiên. Đây là phương pháp hữu xạ tự nhiên hương. Nhưng với trang web quá mới, việc index diễn ra rất khó khăn. 
  • Submit từng bài trong Google Search Console, hoặc đăng bài lên Google Map. Cách này hiệu quả, nhưng tốn thời gian submit, và chỉ làm thủ công với từng bài viết một. Nếu số lượng bài viết lớn, bạn sẽ tốn rất nhiều thời gian. 
  • Submit sitemap trong Google Search Console. Bản chất sitemap là bản đồ trang web, giúp Google dễ render các nội dung quan trọng do bạn đề xuất. Submit sitemap không đảm bảo Google sẽ index bài viết của bạn. Vì sitemap chỉ giúp Google biết thời điểm (when) bạn thay đổi nội dung, chứ không phải nội dung (what) bạn thay đổi. 
  • Sử dụng tool index thứ 3 (LarIndex, EliteLinkIndexer, Colinkri…). Tỉ lệ index của các công cụ ngày càng giảm do Google siết chặt, tốn chi phí, và bạn thường không biết cách công cụ push Googlebot như thế nào (một số công cụ spam link của bạn để index), dễ gây ảnh hưởng xấu. 

 

ƯU ĐIỂM CỦA GIẢI PHÁP MỚI

Giải pháp bên Quang đưa ra, là sử dụng Google Index API.

Google Index API cho phép bạn gửi thông báo trực tiếp cho Google, khi có các trang được thêm hoặc bị xóa.

Những ưu điểm của Google Index API như sau: 

  • Miễn phí
  • Tỷ lệ index đạt 99,99%
  • Hàng chính chủ của Google
  • Setup 1 lần, sử dụng mãi mãi, rất khỏe
  • Kết quả index nhanh (sau 1 – 3 ngày, nhanh nhất là 4h – 6h)
  • Lượng bài viết submit lớn (max 200 bài viết / ngày, max 600 bài viết / request)

Hiện tại, theo khuyến cáo Google, Google Index API chỉ có thể dùng để thu thập dữ liệu các trang có loại dữ liệu có cấu trúc JobPosting hoặc BroadcastEvent nhúng trong VideoObject.

Tuy nhiên bên Quang đã testing trên các dự án SEO tổng thể của mình.

Và đều nhận được kết quả tốt cho mọi loại nội dung trang web. 

 

DEMO. Quang submit bài viết mới bằng Google Index API, vào 10h00, ngày 21.09.2021.

Bài viết được index, sau 23h, vào 8h46, ngày 22.09.2021.

 

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 1
Bài viết đăng vào 10h00, ngày 21.09.2021

 

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 2
Bài viết được index vào 8h46, ngày 22.09.2021

Okie. Giờ chúng ta vào việc thôi.

 

CÁCH CẤU HÌNH GOOGLE INDEX API

Để sử dụng Google Index API, bạn đi qua những bước sau: 

  1. Tạo tài khoản trên Google Cloud
  2. Tạo Services Google Index API
  3. Tạo API Key (mã JSON)
  4. Cấp quyền quản trị cho Google Index API
  5. Cấu hình Instant Indexing Rank Math 
  6. Cách sử dụng Google Index API

 

BƯỚC 1: TẠO TÀI KHOẢN GOOGLE CLOUD

Bạn sử dụng API của Google, do đó bạn bắt buộc phải có tài khoản Google Cloud

Cách tạo tài khoản Google Cloud hoàn toàn miễn phí

Các bước làm như sau: 

Bạn truy cập Google Cloud tại đây: https://cloud.google.com/, chọn Get started for free

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 3

Bạn điền các thông tin cần thiết vào trong bảng thông tin, chấp nhận các điều khoản, và nhấn Continue

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 4

Nhập số điện thoại xác thực. 

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 5

Bạn nhập thông tin cá nhân, và thông tin thanh toán (thẻ VISA). 

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 6

Chúc mừng bạn. Bạn đã hoàn thành.

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 7

 

BƯỚC 2: TẠO SERVICE GOOGLE API

2.1. Tạo Project

Bạn vào đường link TẠI ĐÂY.

Bạn nhấn Create, để tạo một dự án mới trên Google Cloud Platform.

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 8

 

2.2. Tạo Service Account

Bạn vào đường link TẠI ĐÂY

Sau đó, bạn chọn dự án mới khởi tạo. 

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 9

Bạn chọn Create Service Account

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 10

Bạn đặt tên cho Service. Đơn giản nhất điền tên miền trang web, ví dụ như https://quangsilic.com/.

Sau đó, bạn chọn Create and Continue

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 11

Phần Grant this service account access to project (optional), các bạn chọn OWNER

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 12

 

Phần Grant users access to this service account (optional), bạn chọn DONE.

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 13

 

BƯỚC 3: TẠO API KEY (MÃ JSON)

Bạn nhấp trực tiếp vào Service accounts mới tạo.

Sau đó, bạn chuyển qua tab KEY.

Bạn chọn nút ADD KEY, nhấn Create new key, chọn mã JSON

Mã JSON này sẽ được download trực tiếp về máy tính của bạn dưới dạng file .txt

Bạn lưu lại mã JSON này để sử dụng về sau. 

Ví dụ: 845208ca8eb962c484d774983fbd29bb6f0bdfc4

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 14

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 15

 

BƯỚC 4: CẤP QUYỀN QUẢN TRỊ CHO GOOGLE INDEX API

Bạn cần cấp quyền cho Google Index API hoạt động, bằng Google Search Console.

Các bước như sau: 

Đầu tiên, bạn truy cập Google Search Console

Sau đó, bạn kéo xuống phía bên dưới, và chọn phần Cài đặt

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 16

Các bạn chọn Người dùng và quyền

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 17

Sau đó, các bạn chọn tiếp email người quản trị, click vào nút ba chấm, chọn Quản lý chủ sở hữu sản phẩm

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 18

Tới đây, các bạn kéo xuống dưới, nhấp chọn Thêm chủ sở hữu

Sau đó, các bạn nhập email của Google cấp bên phần Services account, chọn Tiếp tục

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 19

Ví dụ: https-quangsilic-com@able-stock-326609.iam.gserviceaccount.com

 

BƯỚC 5: CẤU HÌNH INSTANT INDEXING RANK MATH

Download plugin Fast Indexing API của Rank Math TẠI ĐÂY

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 20

Bạn cài đặt plugin Fast Indexing API như bình thường, bằng cách chọn Plugin / Add New / Upload / Active

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 21

Sau khi cài đặt xong, bạn vào Rank Math / Instant Indexing, bạn copy nội dung mã JSON (xem lại bước 3) vào phần Google JSON Key.

Sau đó ở phần Submit Post Types to Google, bạn chọn những loại định dạng mà bạn muốn submit. 

Bạn nên chọn Posts / Pages, và một số định dạng quan trọng theo mục tiêu của bạn. 

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 22

 

BƯỚC 6: SỬ DỤNG GOOGLE INDEX API

Để sử dụng Google Index API, bạn có hai cách: 

 

Cách 1: Dán danh sách bài viết trong Rank Math / Instant Indexing 

Các bạn chọn Rank Math / Instant Indexing.

Sau đó, bạn dán danh sách các bài viết muốn index (mỗi dòng một URL), và chọn Google: Publish/update URL, nhấn Send API

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 23

 

Cách 2. Sử dụng trực tiếp trên danh sách bài viết

Các bạn vào danh sách các bài viết POST / PAGE.

Sau đó, bạn chọn Instant Indexing: Google Update.

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 24

Chúc bạn thành công.

P/S: Cập nhật về mức quota của bạn Henry Bach bên Group Nghiện SEO.  Xin cám ơn bạn nhiều.

GOOGLE INDEX API - GIẢI PHÁP INDEX MỚI TRONG VÒNG 24H 25

 

P/S: Bạn chỉ cần thực hành từng bước (step – by – step) theo hướng dẫn là thành công.

Tuy nhiên, nếu bạn cảm thấy các bước thực thi quá khó khăn về mặt kỹ thuật.

Bạn có thể sử dụng dịch vụ cài đặt Google Index API của chúng tôi TẠI ĐÂY

 

 

BLOG, TECHNICAL

KHI THIẾT KẾ LẠI WEB CÓ ẢNH HƯỞNG TỚI SEO KHÔNG?

Sau một thời gian 1 – 2 năm, bạn thấy trang web mình xấu, cũ, chạy chậm, thiếu tính năng.

Bạn muốn thiết kế lại web để nhìn xịn xò hơn.

Vậy việc này có ảnh hưởng nhiều tới SEO không?

Câu trả lời là .

Vì khi thiết kế lại web, mã nguồn (HTML) sẽ thay đổi.

Các liên kết giữa các trang thay đổi, nên sẽ ảnh hưởng tới SEO.

Thông thường, hiệu suất SEO (vị trí từ khóa, traffic) sẽ bị tụt hạng trong vòng 1 – 2 tháng.

Sau đó, hiệu suất SEO sẽ phục hồi lại nếu bạn làm đúng cách.

KHI THIẾT KẾ LẠI WEB CÓ ẢNH HƯỞNG TỚI SEO KHÔNG? 26

Dưới đây là một số kinh nghiệm cho bạn:

  1. Giữ lại 2 thứ sau theo mức độ ưu tiên: tên miền, và URL. Vì tên miền cũ đã có sức mạnh, và Google tính PageRank từng trang dựa trên URL (không phải nội dung). Do đó, nếu bạn thay đổi hai yếu tố này, bạn sẽ vứt bỏ đi sức mạnh mình từng có.
  2. 301 redirect, nếu buộc phải thay đổi tên miền /URL. Trường hợp vì một lý do bất khả kháng nào đó (thương hiệu, cấu trúc web…), bạn buộc phải thay đổi tên miền / URL. Hãy luôn 301 redirect từ tên miền / URL cũ sang tên miền / URL mới, để giữ được sức mạnh cũ.
  3. Sẽ mất từ 1 – 2 tháng, để sức mạnh được truyền từ trang cũ sang trang mới. Và quá trình này là quá trình truyền sức mạnh DẦN DẦN. Không phải được truyền PHÁT MỘT, nên bạn cần kiên nhẫn chờ đợi. Submit lại URL bằng Google Search Console là một cách hợp lý, hoặc chạy một ít tiền cho Google Ads nếu bạn có ngân sách.
  4. Sau khi thiết kế lại website mới, tình huống có thể TỐT lên, hoặc XẤU đi. Mọi thứ sẽ được Google xếp hạng, dựa trên trải nghiệm của người dùng với website mới. Nếu website mới chạy nhanh hơn, đẹp hơn, dễ dùng hơn, nội dung tốt hơn, chắc chắn hiệu quả sẽ bền vững. Còn website mới chạy chậm hơn, rườm rà, nội dung chất lượng thấp, thì kết quả càng tồi tệ hơn. Do đó, bạn hãy làm, khi biết CHẮN CHẮN mình làm tốt hơn.

Chúc các bạn thành công.

 

BLOG, TECHNICAL

AUDIT TECHNICAL SEO BẰNG WEBSITE AUDITOR

Chuẩn bị:

  • Chạy Website Auditor.
  • Chọn bọ Googlebot.
  • Cài plugin Redirection.
  • Tài khoản Google Search Console.
  • Với trang quá lớn, chọn Limit Scan Depth = 2.
  • Cách mở file csv bằng Excel:
    • Mở file bằng NotePad.
    • Save as type, chọn All Files. Encoding, chọn UTF-8.
    • Mở lại bằng Excel.

Phần tiếp theo:

 

1. INDEXING AND CRAWLABILITY

Tìm lỗi 4xxx

  • Trong Website Auditor, phần Resource with 4xx status code.
  • Link chi tiết, xem ở phần Links – Broken links.
    • Cột Page chứa link gãy.
    • Cột Link URL là link gãy.
    • Để tìm link gãy, search anchor text, hoặc view source code.
  • Trong Google Search ConsoleCrawl Errors, cột Not found và cột Soft 404.
  • Tài liệu. 

Sửa lỗi 4xx

  • Plugin hỗ trợ: Redirection (WordPress). 
  • Nếu bài viết cũ đã xóa, và được thay bằng bài viết mới. 301 redirect.
  • Nếu bài viết cần xóa hoàn toàn. 410s. Tài liệu.
  • Nếu Page sinh ra do Javascript, Flash, cookies, session IDs, frame, mã nhúng embedded, file kỹ thuật… 404s.
  • Nếu chèn link sai do bất cẩn. Sửa lại đường link  / 301 redirect.
  • Không redirect về trang chủ, hoặc chặn index trong robots.txt.  Tài liệu.
  • Chọn Mark as Fixed trong Google Search Console, sau khi sửa lỗi.

Tìm lỗi 5xx

  • Trong Website Auditor, phần Resource with 5xx status code.
  • Trong Google Search ConsoleCrawl Errors, cột Server error.

Sửa lỗi 5xx

  • Nâng cấp hosting, hoặc đổi nhà cung cấp hosting nếu cần thiết.

Chặn index

  • Download các URL trong phần Resources retricted from indexing.
  • Sort theo cột Robots Instructions để phân loại nhanh.
  • Đánh giá thủ công từng URL.

Setup trang báo lỗi 404

  • WordPress đã tự động setup trang báo lỗi 404.

Kiểm tra robots.txt

Kiểm tra sitemap (.xml)

  • Dùng Yoast SEO / Website Auditor để tạo sitemap.
  • Chèn đường dẫn sitemap vào file robots.txt.
  • Submit và test sitemap bằng Google Search Console.
  • Kiểm tra lại các phần khai báo sitemap trong Yoast SEO (SEO / Search Appearance, phần Media, TaxonomiesArchives).
  • Tài liệu. 

 

2. REDIRECT

www và non-www

  • Kiểm tra phiên bản wwwnon-www có cùng redirect về cùng một URL không? Ví dụ.
  • Nếu không:
    • Cách 1: Redirect trong file .htaccess. Vào Yoast SEO / Tools, phần .htaccess. Hướng dẫn.
    • Cách 2: Khai báo cả hai phiên bản wwwnon-www trong Google Search Console (GSC). Ưu tiên phiên bản chính trong GSC ( Site Setting).
    • Tài liệu. 

HTTP và HTTPS

Nếu dùng HTTP, bỏ qua bước này.  Nếu dùng HTTPS, làm theo các bước sau:

302 redirect

  • Hạn chế 302 redirect, vì không truyền được PageRank.
  • Chỉ dùng 302 redirect để chuyển hướng tạm thời.

301 redirect

  • Dowload các URL có thẻ 301 redirect.
  • Đánh giá sự bất thường.
  • Dùng 301 redirect khi: nâng cấp HTTP lên HTTPS, mua tên miền mới, xóa bài viết, thay đổi URL….
  • Tài liệu. 

Canonical

  • Download các URL có thẻ Canonical.
  • Viết hàm IF để loại bỏ URL trùng lặp cột PageCanonical URL  (nếu mã nguồn WordPress).
  • Đánh giá thủ công các URL còn lại. Tài liệu.

Còn lại

  • Sửa các lỗi vòng lặp redirect (long redirect chains) nếu có.
  • Thay thế các URL có thẻ meta refresh bằng 302 redirect hoặc thẻ canonicalTài liệu.

 

3. ENCODING AND TECHNICAL FACTORS

  • Kiểm tra Mobile Friendly.
  • Kiểm tra HTTPS and mixed content issues.
    • Giải quyết bằng plugin Relly Simple SSL.
    • Nếu còn lỗi, sửa thủ công. Hướng dẫn.
  • Kiểm tra Pages with multiple canonical URLs.
    • Gỡ các thẻ canonical dư thừa, chỉ giữ lại 1 thẻ canonical duy nhất / 1 URL.
  • Kiểm tra Pages with Frames.
    • Hạn chế dùng Frames. Tài liệu.
    • Nếu buộc phải dùng Frames, khai báo thẻ NoFrames.
  • Page with W3C HTML and CSS errors and warnings.
    • Lỗi HTML: làm Google bot không đọc chính xác nội dung.
    • Lỗi CSS: chậm tốc độ tải trang.
    • Đưa lỗi cho đội thiết kế web chỉnh sửa code.
  • Kiểm tra tốc độ.
    • Tool. GTMetrix / Pingdom.
    • Nếu tốc độ < 3s. Tốt.
    • Nếu tốc độ từ 3s – 5s. Trung bình.
    • Nếu tốc độ > 5s. Chậm.
    • Too big pages.  Ưu tiên tối ưu lại tốc độ các Page bị cảnh báo.  Hướng dẫn.

 

4. URLs

  • Dynamic URLs. 
    • Bộ lọc / sắp xếp trong Ecomerce. Dùng thẻ canonical + noindex, follow.
  • Too long URLs. 
    • Sửa lại URL cho ngắn gọn hơn (Yoast SEO hỗ trợ).
    • Nếu Google chưa index bài viết, sửa lại URL ngắn gọn hơn.
    • Nếu Google đã index bài viết, hạn chế chỉnh sửa URL.

 

5. LINKS

  • Broken links.
    • Sửa lại các đường link bị gãy do bất cẩn, link đã chết, link chèn ẩn…
    • Cột Link URL là link gãy, cột Page là URL chứa link gãy.
  • Page with excesive number of links.
    • Kiểm tra sự tương thích giữa số lượng linkmức độ quan trọng của URL.
    • Kiểm tra sự bất thường về số lượng link giữa các URL.
  • DoFollow external links.
    • Dùng DoFollow, khi outlink ra trang uy tín / nội dung liên quan.
    • Dùng NoFollow trong các trường hợp còn lại.

 

6. IMAGES

  • Broken images. Sửa lại lỗi link gãy.
  • Empty alt text.
    • Khai báo mô tả cho hình ảnh (thẻ Altinative Text).
    • Dùng Ahrefs, tìm kiếm những từ khóa liên quan để chèn vào nội dung.

 

7. ONPAGES

  • Empty title tags.
    • Mỗi bài viết đều bắt buộc có thẻ tiêu đề.
  • Duplicate titles.
    • Thay đổi tiêu đề trùng lặp.
    • Kiểm tra lại nội dung, vì những bài viết trùng tiêu đề thường có xác suất trùng lặp nội dung cao.
  • Too long tiles.
    • Giảm độ dài tiêu đề xuống dưới 70 kí tự để người dùng dễ nhìn hơn.
  • Empty meta description.
    • Dùng Yoast SEO, thêm đoạn mô tả.
    • Nên chứa từ khóa, và hấp dẫn người dùng.
  • Duplicate meta description. Tương tự như Duplicate titles.
  • Too long meta description. Giảm độ dài đoạn mô tả xuống dưới 320 kí tự.

 

8. MỘT SỐ CHỨC NĂNG KHÁC CỦA WEBSITE AUDITOR

  • Tìm Click Depth, Orphan Pages…, ứng dụng trong Liên kết nội bộ.
  • Tìm nội dung mỏng và một phần nội dung trùng lặp. Xem thêm trong bài viết Nội dung mỏng và trùng lặp.
  • Tính được tỉ số TF – IDF để tìm nhóm từ khóa liên quan của mỗi bài viết (trong phần Content Analysis).

Bạn có thể sử dụng Website Auditor, bản Enterprise trên máy ảo tại đây.

 

Tài liệu tham khảo

  • Quick guideline của Website Auditor. Xem tại đây.
  • Crawl Error report (website) của Google WebMaster. Xem tại đây.
  • Build and submit a sitemap, Google. Xem tại đây.
  • Is a 301 or 302 redirect best for SEO?  của Bryson Meunier, SEL. Xem tại đây.
  • Technical SEO Checklist: 9 Steps to a Technically Perfect Site in 2017 của Masha Maksimava, Link Assistant. Xem tại đây.
  • 16-Step SEO Audit Process To Boost Your Google Ranking của Ahrefs. Xem tại đây.
  • Step by Step Guide to Technical SEO Checklist của WEBRIS. Xem tại đây.
  • 9 Lesson Learned From A Site Redesign: How To Prepare When Your Site Changes của Christina Miagowicz, Seer InterActive. Xem tại đây.
  • Google Adds URL Parameter Options to Google Webmaster Tools của Vanessa Fox, Search Engine Land. Xem tại đây.
  • How to Make Dynamic Pages SEO Friendly của The Content Works. Xem tại đây.
  • The 4 Pillars of Mastering Google Website Crawl của Rowan Collins. Xem tại đây.
BLOG, TECHNICAL

TỐI ƯU NỀN TẢNG WORDPRESS

Để tối ưu nền tảng WordPress, bạn nên tập trung những mục sau:

  1. Tạo file robots.txt và khai báo sitemaps.
  2. Backup dữ liệu.
  3. Tối ưu tốc độ.
  4. Chống spam và tối ưu bảo mật.

 

 

1. Tạo file robots.txt và sitemaps

Để tạo robots.txt và sitemaps trên WordPress, bạn có thể dùng Yoast SEO.

 

SITEMAP

Sau khi cài đặt, Yoast SEO sẽ tự động tạo sitemap cho trang web của bạn.

Để tìm đường dẫn sitemap, bạn vào Yoast SEO, phần General.

Sau đó, bạn chuyển qua tab Features, kéo xuống phần XML sitemaps, click vào dấu hỏi, chọn See the XML sitemap.

TỐI ƯU NỀN TẢNG WORDPRESS 27

Bạn sẽ tìm được đường dẫn sitemap của mình, tương tự thế này:

https://quangsilic.com/sitemap_index.xml

 

ROBOTS.TXT

Bạn vào Yoast SEO, phần Tools, chọn File editor.

Ở khung robots.txt là nơi để bạn khai báo nội dung.
TỐI ƯU NỀN TẢNG WORDPRESS 28
Với file robots.txt, bạn có thể chặn bọ độc hại, chặn bọ Ahrefs, chặn index thư mục nhạy cảm, xử lý trùng lặp nội dung…. Nội dung chi tiết, bạn có thể đọc bài viết Cách dùng file robots.txt.

Nếu là người mới bắt đầu, bạn có thể chọn cách khai báo đơn giản với hai mục đích sau:

  • Mở cổng cho các bot
  • Khai báo đường dẫn sitemap

Ví dụ như file robots.txt của blog Quang Silic như sau:

User-agent: *

Allow: https://quangsilic.com/sitemap_index.xml

File robots.txt của anh Hoàng, cũng có cấu trúc đơn giản như vậy. Bạn có thể xem tại đây.

 

Hiểu nhầm thường gặp

Một số bạn nạp khai báo vào robots.txt Tester trong GWT, sau đó bấm Submit Google, và nghĩ rằng mình đã tạo thành công file robots.txt.

TỐI ƯU NỀN TẢNG WORDPRESS 29

Robots.txt Tester là thứ để kiểm tra cú pháp, không phải công cụ để tạo file robots.txt.

Để tạo file robots.txt, bạn có thể dùng Yoast SEO, hoặc tạo file robots.txt trực tiếp trên hosting.

Yoast SEO sẽ tự động tạo file robots.txt, như Quang nói ở trên. Bạn không phải làm.

Còn với mã nguồn không phải WordPress, bạn có thể phải tạo thủ công file robots.txt trên hosting. Bạn xem hướng dẫn ở đây nhé.

 

CHƠI NGU

Dưới đây là 3 cách để bạn chơi ngu:

Cách 1: Block Google bot trong file robots.txt

Bạn khai báo trong file robots.txt như sau:

User-agent: *

Disallow: /

TỐI ƯU NỀN TẢNG WORDPRESS 30

Hiệu quả: Ngay lập tức. Nhưng các trang Google đã index, thì không bị ảnh hưởng.

 

Cách 2: Xóa URL trang chủ bằng Remove URLs trong GWT

Bạn chỉ cần dán tên miền trang chủ vào Remove URLs trong GWT, và submit Google.

TỐI ƯU NỀN TẢNG WORDPRESS 31

Hiệu quả: Chết ngay, chỉ sau 2 – 3h đồng hồ, toàn bộ trang web.

 

Cách 3: Xóa data dữ liệu

Bạn vào cPanel / File Manager, thư mục public_html, và xóa toàn bộ nội dung trong đó.

TỐI ƯU NỀN TẢNG WORDPRESS 32

Thời gian hiệu quả: 2 – 3 ngày sau khi tác động, hiệu quả lên toàn bộ trang web.

 

Khi nào bạn nên chơi ngu?

Khi bạn làm dịch vụ cho khách hàng.

Nhưng khi tới hạn trả tiền, khách hàng kì kèo õng ẹo.

Cách số 3 là hiệu quả nhất, vì vừa làm mất luôn data của khách hàng, và Google sẽ deindex toàn bộ trang web, vì nó không thể crawl bất kỳ dữ liệu nào trên trang web của bạn. Tuy nhiên, cách này cũng lộ liễu nhất, vì khi đó người dùng sẽ không truy cập được vào trang web, và khách hàng có thể sẽ phát hiện ra bạn là hung thủ.

Cách số 2 hiệu quả không kém, chết cực nhanh ( 2 – 3h đồng hồ sau là chết ngay) và kín đáo nhất. Người dùng vẫn vào trang web đọc bình thường, chỉ có điều toàn bộ trang web sẽ biến mất khỏi Google. Chết mà không biết lí do chính là đây.

TỐI ƯU NỀN TẢNG WORDPRESS 33Blog Quang Silic, đã hoàn toàn biến mất khỏi Google 

 

2. Backup dữ liệu

Để backup dữ liệu trên WordPress, bạn thường có ba cách:

  1. Backup tự động trên hosting
  2. Backup tự động bằng plugin
  3. Backup thủ công

Bạn nên dùng tối thiểu hai cách backup để bảo vệ sự an toàn cho dữ liệu của mình.

 

BACKUP TRÊN HOSTING

Để backup tự động trên hosting, bạn chỉ cần đăng ký sử dụng dịch vụ backup dữ liệu tự động của nhà cung cấp hosting.

Hiện tại, hầu hết các nhà cung cấp hosting lớn ở Việt Nam ( như AZDIGI, HostVN, Nhơn Hòa, Vhost.VN…) đều đã tích hợp việc backup dữ liệu tự động cho bạn, một cách miễn phí.

TỐI ƯU NỀN TẢNG WORDPRESS 34

Riêng một số nhà cung cấp có thương hiệu lớn, họ sẽ tính tiền dịch vụ này, chứ không cho free.

Ví dụ như Mắt Bão có gói backup Linux Backup Pro, backup 2 ngày / lần, dung lượng 1.5 GB, 19.000 đồng / tháng.

Nếu bạn dùng VPS, hoặc thuê hosting ở nước ngoài (như HawkHost, A2Hosting, Digital Ocean, Vultr, …), bạn hãy luôn dùng dịch vụ backup dữ liệu tự động của họ.

Nếu miễn phí thì quá tốt. Còn nếu có phí, bạn cũng nên sử dụng, để bảo vệ chính bản thân mình.

TỐI ƯU NỀN TẢNG WORDPRESS 35

Backup VPS tự động của Digital Ocean (và cả Vultr), 20% chi phí vận hành một Droplet. Đắt lòi, nhưng vẫn nên chơi.

 

BACKUP TỰ ĐỘNG BẰNG PLUGIN

Để backup tự động trên WordPress, bạn có thể dùng plugin.

Một số plugin backup dữ liệu tốt như: UpdraftPlus, BackWPUp, Duplicator, All-in-One WP Migration

Trước đây, Quang có dùng BackWPup. Nhưng BackWPup hay lỗi, và lưu mã nguồn trên DropBox. Tài khoản DropBox miễn phí chỉ được 2GB dữ liệu.

Sau này, Quang chuyển qua dùng UpdraftPlus. UpdraftPlus chia nhỏ dữ liệu để nén, nên ít lỗi hơn. Ngoài ra, nó cho phép kết nối với Google Drive, miễn phí 15GB dữ liệu.

Các bước đơn giản sẽ như sau:

  1. Cài plugin UpdraftPlus.TỐI ƯU NỀN TẢNG WORDPRESS 36
  2. Vào Tab Setting, chỉnh phần Files backup scheduleDatabase backup schedule từ Manual sang Weekly / Daily… Nếu trang web bạn tương đối nhỏ, chọn Weekly là vừa vặn.TỐI ƯU NỀN TẢNG WORDPRESS 37
  3. Kéo xuống, bạn chọn Google Drive, sao đó chọn Save. Sau đó, bạn bấm xác thực cho phép UpdraftPlus sao lưu dữ liệu vào Google Drive.

TỐI ƯU NỀN TẢNG WORDPRESS 38

  1. Qua tab Current Status, bấm Backup Now.

TỐI ƯU NỀN TẢNG WORDPRESS 39

Xong.

 

BACKUP THỦ CÔNG

Cách thứ ba là backup thủ công. Bạn có thể xem hướng dẫn của anh Thạch Phạm ở đây.

Theo kinh nghiệm của Quang, nếu là người mới bắt đầu, bạn nên ưu tiên backup tự động thay vì tự tay backup thủ công, vì thao tác hơi phức tạp.

Hơn nữa, nếu backup thủ công, bạn sẽ hay quên.

Tốt nhất là backup tự động, và cài đặt ngày cố định để phần mềm tự chạy.

 

CHUYỆN XƯA

Pha này lâu rồi, năm ngoái, 2017, và cũng là vào mùa hè nóng bức.

Bạn có thể xem thông tin tại đây.

Tóm tắt nội dung như sau:

Ngày đó, server Ten Ten bị sự cố, và làm mất dữ liệu khách hàng.

Ten Ten dùng bản backup để khôi phục dữ liệu, nhưng trong quá trình khôi phục lại xảy ra lỗi, và làm tạch luôn các bản backup này.

Kết quả cuối cùng: Dữ liệu của khách hàng bị mất trắng. Trong đó, có nhiều dữ liệu của khách hàng đã có từ 5 – 7 năm.

Ten Ten đã xin lỗi, và đền bù cho khách hàng.

Nhưng dữ liệu là vô giá.

Một số dữ liệu không thể khôi phục được + tốn nhiều thời gian và bực mình + Google sẽ deindex trang web trong thời gian khôi phục.

Một số bài học rút ra:

  1. Không bao giờ được tin tuyệt đối vào nhà cung cấp hosting.
  2. Nên tự backup dữ liệu thêm một bản, rồi lưu trên Google Drive / Dropbox / One Drive… hoặc download dữ liệu định kỳ về máy ( hàng tuần, hoặc hàng tháng).

 

3. Tối ưu tốc độ

Để tối ưu tốc độ trên WordPress, bạn có thể làm tối thiểu 3 điều sau:

  1. Nâng cấp hosting
  2. Dùng plugin tạo cache
  3. Nén ảnh

 

NÂNG CẤP HOSTING

Công việc này rất dễ, không liên quan nhiều tới kỹ thuật. Bạn chỉ cần bơm tiền là được.

Có ba gói hosting phổ biến hiện nay, đó là:

  • Gói số 1: 3 USD / tháng, tương ứng với 30 – 40 USD / năm.
  • Gói số 2: 4 USD / tháng, tương ứng với 40 – 50 USD / năm.
  • Gói số 3: 5 USD / tháng, tương ứng với 60 – 70 USD / năm.

Các gói hosting của Việt Nam, hay nước ngoài, đều có giá tương đương như nhau.

Bạn cứ nhân 1 USD = 22.000 đồng, là sẽ ra được số tiền Việt.

Nếu trang web của bạn dùng gói số 1 và chạy chậm, hãy nâng cấp lên gói số 2.

Nếu đang dùng số 2 mà chạy chậm, hãy nâng lên số 3.

Bạn  hãy nâng lên từ từ, và dừng lại ở gói mà mình cảm thấy hài lòng.

 

DÙNG PLUGIN TẠO CACHE
Hiện tại, có rất nhiều plugin tạo cache tốt như:

  • Miễn phí: LiteSpeed Cache, WP Super Cache, W3 Total Cache, WP Fastest Cache
  • Có phí: WP Rocket, Hummingbird

WP Rocket hiện tại được xem là plugin tạo cache tốt nhất cho WordPress.

Bạn có thể mua hàng chính hãng 39 USD /năm tại đây, hoặc mua chợ đen, 60k/năm (bên TheDevkit) hay 199k/năm (bên WP Căn Bản).

Quang gọi là chợ đen cho vui tai, chứ thực chất các bạn ấy là nhà phân phối lại. Mấy bạn đó mua hàng chính hãng, rồi bán lẻ lại để kiếm lời. Hợp pháp cả, vì có bản quyền GNU. Bạn cứ mua, không sao cả.

Nếu không có nhiều tiền, bạn có thể dùng plugin tạo cache miễn phí.

Bài viết này, Quang sẽ hướng dẫn bạn dùng Lite Speed Cache, là plugin tạo cache miễn phí tốt nhất hiện nay, theo trải nghiệm của Quang.

 

Nếu bạn là NewBie

Nếu là newbie, bạn chỉ cần cài đặt plugin Lite Speed Cache, rồi active nó là xong.

TỐI ƯU NỀN TẢNG WORDPRESS 40

Mọi thứ còn lại, nhà sản xuất đã testing kỹ lưỡng mới ra được cách cấu hình hiệu quả và an toàn như thế.

Vậy là xong. Bạn giải quyết một vấn đề vô cùng phức tạp, chỉ với 30 giây.

Còn người khác nói gì, khuyên bạn thế nào, bạn cứ kệ họ. Hehe.

 

Nếu bạn là người có kinh nghiệm

Bạn vào Lite Speed Cache, và chuyển qua Tab Advanced View.

Sau đó, bạn chọn Tab [5] Optimze.

Đây là nơi để bạn cấu hình những phần quan trọng nhất.

Bạn có thể bật từ OFF sang ON những lựa chọn sau:

  1. CSS Minify
  2. Inline CSS Minify
  3. CSS HTTP/2 Push
  4. JS Minify
  5. Inline JS Minify
  6. JS HTTP/2 Push
  7. HTML Minify

TỐI ƯU NỀN TẢNG WORDPRESS 41

Còn lại những mục sau, bạn nên thận trọng. Chúng bao gồm:

  1. CSS Combine
  2. JS Combine
  3. Load CSS Asynchronously
  4. Load JS Deferred
  5. Remove Comments

Những mục này, nếu bạn chuyển từ OFF sang ON, sẽ có hai điều xảy ra:

  1. Điểm số Google Speed Insight của bạn sẽ tăng.
  2. Giao diện của bạn có thể bị vỡ, nhất là khi bạn chọn CSS CombineJS Combine.

TỐI ƯU NỀN TẢNG WORDPRESS 42

Nhà cung cấp đã cảnh báo bạn trước rồi nha

Nếu vẫn muốn dùng những tùy chọn nâng cao, bạn phải testing từng mục một.

Bật sang ON, sau đó xóa Cache, rồi dùng trình duyệt ẩn danh để kiểm tra trang web mình có điều gì bất thường không?

Nếu mọi thứ okie, nghĩa là tính năng đó an toàn.

Nếu bị vỡ giao diện, nghĩa là bạn không thể cố đấm ăn xôi được. Nên chuyển về OFF, để bảo toàn tính mạng.

Những mục khác nâng cao, bạn từ mò nhé.

 

NÉN ẢNH

Để nén ảnh trên WordPress, có hai cách chính, đó là dùng plugin nén ảnh, hoặc thao tác trực tiếp trên hosting.

 

Dùng plugin

Trên WordPress, có một số plugin nén ảnh nổi tiếng như: EWWW Image Optimizer, WP Smush, Imagify, TinyPNG, Kraken, ShortPixel

Cá nhân Quang chọn Imagify, bản trả phí, vì nó dễ sử dụng, nén ảnh tốt, và chi phí thấp.

Imagify, cũng như mọi plugin nén sảnh khác, có 3 chế độ nén ảnh, đó là:

  • Normal. Chất lượng ảnh giữ nguyên, dung lượng giảm một tí.
  • Aggressive. Chất lượng ảnh giảm một chút, bù lại dung lượng ảnh giảm đáng kể.
  • Ultra. Chất lượng ảnh giảm nhiều, bù lại dung lượng ảnh giảm tụt quần.

TỐI ƯU NỀN TẢNG WORDPRESS 43

Nếu bạn làm về nhiếp ảnh, ảnh cưới, ảnh đồ ăn thức uống… cần chất lượng ảnh cao, hãy chọn Normal.

Nếu bạn quan trọng tốc độ lên trên hết, bạn có thể chọn Ultra, nhưng bạn sẽ trả giá là chất lượng ảnh sẽ giảm đi rất nhiều.

Nếu là người dùng bình thường, lựa chọn Aggressive là tốt nhất. Nó sẽ không làm giảm đi chất lượng ảnh quá đáng, và giảm đáng kể dung lượng ảnh (khoảng 30%).

Khi đăng ký tài khoản miễn phí, Imagify sẽ cho bạn 25 MB nén ảnh miễn phí / tháng.

Nếu muốn nén nhiều ảnh hơn, bạn có thể mua thêm dung lượng, nén được 1GB ảnh / tháng, giá 5 USD.

Nếu khó khăn kinh tế, bạn có thể dùng chung tài khoản với Quang.

Đây là tài khoản có thể nén 1GB ảnh / tháng.

API đăng nhập là 67059bfd5c1f69119ba0729dabfbde366da1b661

 

Thao tác trên Hosting

Tại sao bạn lại thao tác trên Hosting, trong khi đã có plugin nén ảnh tự động bằng WordPress?

Vì nén ảnh thủ công, luôn nhanh hơn nén ảnh bằng plugin.

Và nếu nén ảnh số lượng lớn, bạn phải tốn tiền mua API của plugin nén ảnh, trong khi nén ảnh trực tiếp trên hosting gần như là miễn phí.

Trên CPanel, bạn làm như sau:

  1. Vào File Manager.

TỐI ƯU NỀN TẢNG WORDPRESS 44

  1. Vào public_html / wp-content / uploads / year. Đây chính là nơi chứa thư mục ảnh. Bạn vào đó, bạn download thư mục về.

TỐI ƯU NỀN TẢNG WORDPRESS 45

Sau khi download thư mục ảnh về, bạn có thể nén ảnh như bình thường bằng các phần mềm nén ảnh.

Nếu muốn nén ảnh online, bạn có thể dùng TinyPNG. Họ cho phép bạn nén 20 tấm ảnh / lần nén, không giới hạn số lần nén trong ngày, và hoàn toàn miễn phí.

TỐI ƯU NỀN TẢNG WORDPRESS 46

Nếu muốn dùng phần mềm offline, bạn có thể dùng phần mềm FILEminimizer Pictures  hoặc Caesium. Cũng miễn phí luôn.

Sau khi nén ảnh xong, bạn upload ảnh ngược lên thư mục, và cho phép ghi đè lên file ảnh ban đầu.

TỐI ƯU NỀN TẢNG WORDPRESS 47

 

Một số thông tin thú vị

  1. Nếu WP Rocket được chấm 10 điểm, thì LiteSpeed Cache được 9.5 điểm. WP Rocket cao điểm hơn LiteSpeed Cache, vì WP Rocket là hàng trả phí, còn LiteSpeed Cache miễn phí. Người dùng có tâm lý cho rằng hàng trả phí có chất lượng tốt hơn hàng miễn phí, cho dù chúng đều có chất lượng tương đương nhau.
  2. Google Speed Insight là công cụ đo hiệu suất web (web performance), và không phải là công cụ đo tốc độ (speed) tốt nhất. WP RocketWPMudev cũng đồng ý với điều này. Muốn đo tốc độ chính xác hơn, bạn hãy dùng Pingdom, hoặc Chrome DevTool.TỐI ƯU NỀN TẢNG WORDPRESS 48
  3. Nếu bạn nén một tấm ảnh có dung lượng 50kB còn 49kB, chỉ để tăng Google Speed Insight từ 90 lên 95 điểm, thì bạn đang chạy theo điểm số một cách mù quáng.
  4. Đừng vội vã chuyển lên AMP, chỉ vì tốc độ load nhanh hơn và Google đang ưu tiên AMP trên mobile. Cứ 10 người chuyển lên AMP, thì đã có 9 người phải quay về phiên bản cũ, vì nó đem trải nghiệm người dùng quá tệ hại. Bạn có thể thử AMP, khi bạn, hoặc người hỗ trợ cho bạn, có kiến thức tốt về lập trình và thiết kế web chuyên nghiệp.

 

4. Chống spam và tối ưu bảo mật

 

CHỐNG SPAM

Để chống spam, bạn chỉ cần cài plugin chống spam.

Akismet hoặc Antispam Bee đều là lựa chọn tốt.

Quang chọn Antispam Bee, vì nó chống spam hiệu quả, dễ dùng, nhẹ, và không cần phải lấy API như Akismet. Chỉ cần cài đặt là xong, không cần điều chỉnh gì thêm là vừa đủ.

Bạn có biết, ai là người spam trang web bạn không?

Thông thường, đó chính là những người anh em đang làm SEO với bạn, đến từ khắp nơi trên thế giới.

Chỉ cần tiêu đề của bạn chứa từ khóa SEO tiếng Anh (như Travel VietNam, SEO Tutorial, SEO Google Map…), bạn sẽ tự động nhận được vô số những spam. Tiếng Anh có, tiếng Tàu có, tiếng Ả Rập có.

Họ sẽ dùng những phần mềm tự động như GSA Search Engine / Scrapbox / Senuke / RankerX… để spam vào trang web của bạn, với một mục đích duy nhất: lấy backlink.

 

TỐI ƯU BẢO MẬT

Để tối ưu bảo mật trên WordPress, Quang làm 3 điều sau:

  • Đặt password mạnh
  • Dùng plugin bảo mật
  • Luôn luôn backup dữ liệu

 

Đặt Password mạnh

Để đặt password mạnh, bạn có thể dùng trang web Secure Password Generator.

Nó sẽ sản sinh ra password mạnh, với những đặc điểm là chứa kí tự, số, in thường in hoa, và vô nghĩa. Bạn có thể chọn passord dài khoảng 16 kí tự là ổn.

Ví dụ như: 8V?*K_k9;e&hBU,q

Trên thực tế, bạn sẽ phải sử dụng rất nhiều tài khoản đăng nhập và mật khẩu trên nhiều nền tảng như: WP-Admin, CPanel, tên miền, Gmail, Facebook, PayPal, e-banking ngân hàng Vietcombank, Techcombank, Sacombank….

Do đó, bạn có thể lưu tất cả thông tin lại trong một file .txt, để dễ dàng truy cập mỗi khi cần. Khỏi phải nhớ, và chạy đi chạy lại.

TỐI ƯU NỀN TẢNG WORDPRESS 49

 

Dùng plugin bảo mật

Một số plugin bảo mật tốt trên WordPress như: iTheme Security, Sucuri Security, WordFence, All In One WP Security & Firewall

Cá nhân Quang chọn Sucuri Security, vì nó miễn phí, nhẹ, và vừa đủ nhu cầu của Quang.

Các bước cấu hình như sau:

  1. Cài đặt plugin Sucuri Security.TỐI ƯU NỀN TẢNG WORDPRESS 50
  2. Vào Dashboard, chọn Generate API Key để tạo API.
  3. Qua mục Setting, Tab Hardening, bạn chọn Apply Hardening cho mọi mục, ngoại trừ mục Website Firewall Protection.

TỐI ƯU NỀN TẢNG WORDPRESS 51

Bạn bật cho lên xanh hết nhé, trừ thằng Website Firewall Protection ra. Không phải nó lởm, mà có tiền bạn mới xài nó được

 TỐI ƯU NỀN TẢNG WORDPRESS 52

2h sáng, một chú cố tình đăng nhập nhưng thất bại. Vì username chính xác là e634fs323535, chứ không phải là admin

 

Luôn luôn backup dữ liệu

Cho dù bạn bảo mật tốt tới đâu, thì bạn vẫn chỉ là một con gà trong mắt hacker chuyên nghiệp.

Họ có thể lấy đi của bạn bất kì thứ gì, vào bất kì lúc nào, chỉ cần bạn sơ suất.

Họ lợi hại thế nào, bạn có thể hai đọc bài viết sau:

Do đó, Quang không bao giờ tin tuyệt đối vào sự bảo mật của hệ thống WordPress, cũng như bảo mật của nhà cung cấp hosting.

Quang luôn nghĩ tới trường hợp xấu nhất xảy ra, đó là khi trang web của mình bị hack.

Và thứ quý giá nhất mình sống chết mình phải giữ cho bằng được, đó chính là dữ liệu.

Nếu còn dữ liệu, mình vẫn còn có thể chuyển qua hosting khác, và bắt đầu lại mọi thứ từ đầu.

Và để bảo vệ dữ liệu, cách duy nhất, chính là backup dữ liệu tự động, và thường xuyên.

Chúc bạn thành công!

 

Xem thêm: 

BLOG, TECHNICAL

6 CÔNG DỤNG CỦA FILE ROBOTS.TXT TRONG SEO

Robots.txt là một file đặt trên hosting. Nó dùng để cấp quyền lập chỉ mục cho bọ công cụ tìm kiếm.

Khi dùng file robots.txt, bạn cần cẩn trọng. Vì nếu điều chỉnh sai, mọi thành quả SEO sẽ đổ sông đổ bể.

Nếu dự án của bạn nhỏ, và bạn không biết chắc chắn mình đang làm gì, tốt nhất, bạn không nên dùng file robots.txt. Cứ để mọi thứ tự nhiên như thế. Blog của Quang cũng không dùng file robots.txt.

Tuy nhiên, với những dự án lớn, đặc biệt là e – comerce, việc sử dụng file robot.txt gần như là bắt buộc. File robots.txt giúp bọ Google index trang web của bạn hiệu quả hơn, chống đối thủ dò quét backlink, cũng như hạn chế nội dung trùng lặp rất thường gặp khi SEO cho lĩnh vực e-comerce.

Bài viết này, Quang sẽ giới thiệu tới bạn một số cách sử dụng file robots.txt phổ biến nhất hiện nay.

 

1. CHẶN BỌ TRONG QUÁ TRÌNH SETUP HỆ THỐNG

Trong quá trình thiết kế website (thiết kế giao diện, cài đặt plugin, xây dựng cấu trúc trang web), mọi thứ còn rất bừa bộn. Bạn nên chặn bọ Google, để nó không index những nội dung chưa hoàn thiện mà bạn không mong muốn.

Để chặn bọ Google, bạn khai báo file robot.txt như sau:

User-agent: *
Disallow: / 

Nếu dùng WordPress, có một cách chặn dễ làm hơn. Bạn vào phần Settings / Reading / Search Engine Visibility, chọn ô Discourage search engines from indexing this site là xong.

Lưu ý quan trọng: Cách cấu hình file robot.txt như trên, bạn chỉ được dùng trong khi setup hệ thống. Nếu trang web đang ổn định, bạn nghịch ngu chèn mã trên vào file robots.txt là xong phim. Vì khi đó, bạn đã chặn bọ Google index trang web.

 

2. CHÈN SITEMAP

Sitemap giống như một tấm bản đồ để bọ Google khám phá trang web của bạn. Nếu số lượng index của trang web quá lớn mà trang web không có sitemap, bọ Google có thể sẽ không đủ tài nguyên (crawl budget) để quét hết trang web của bạn. Từ đó, Google có thể sẽ không index được một số nội dung quan trọng.

Một trang web có thể có nhiều hơn một sitemap (ví dụ như sitemap bài viết, sitemap hình ảnh, sitemap tin tức…). Bạn nên dùng một phần mềm để tạo sitemap cho trang web, rồi sau đó khai báo các đường dẫn sitemap đó vào trong file robots.txt.

Nếu dùng WordPress, Yoast SEO đã tự động tạo sitemap cho bạn. Với mã nguồn non-WordPress, bạn có thể dùng Screaming Frog / Website Auditor để quét, và tạo sitemap thay thế cho Yoast SEO.

Ví dụ: Hãy xem anh Hoàng, Team Ba Phải chèn file sitemap vào file robots.txt như thế nào:

User-agent: *
Sitemap:  https://teambaphai.com/sitemap.xml

Bạn có thể xem chi tiết tại đây.

 

3. CHẶN BỌ CHECK BACKLINK

Hiện tại ở Việt Nam, ba công cụ check backlink phổ biến nhất là Ahrefs, Majestic và Moz. Bọ của chúng có tên tương ứng là AhrefsBot (Ahrefs), mj12bot (Majestic) và rogerbot(Moz).

Để không cho đối thủ dùng công cụ để phân tích backlink của bạn, bạn có thể chặn bọ của chúng trong file robots.txt.

Ví dụ, bạn muốn chặn bọ của Ahrefs, cú pháp như sau:

User-agent: AhrefsBot
Disallow: / 

Hãy xem cách phòng thủ của Sen Đỏ. Họ chặn bọ của Ahrefs, Majestic, Moz và thêm 4 con bọ khác. Bạn xem tại đây.

Ngoài ra, trên thế giới còn có nhiều công cụ check backlink khác. Bạn có thể xem các con bọ đó, do bạn Cao Tú tổng hợp tại đây.

Lưu ý: Muốn chặn triệt để bọ Ahrefs / Majestic / Moz… , bạn cần chặn hai đầu nhé. Ví dụ như moneysite của bạn có 200 domain trỏ về, trong đó có 10 domain là vệ tinh của bạn.

Khi đó, bạn cần chặn bọ Ahrefs / Majestic / Moz… trên money site và cả trên 10 vệ tinh kia nhé. Vì nếu chỉ chặn một đầu (moneysite), bọ Ahrefs / Majestic / Moz…. vẫn có thể dò ra được backlink đó.

 

4. CHẶN BỌ ĐỘC HẠI

Ngoài bọ check backlink, còn một số loại bọ độc hại khác.

Ví dụ như, Amazon, gã khổng lồ của ngành e-commerce thế giới, phải chặn một con bọ có tên là EtaoSpider.

Trích đoạn file robot.txt của Amazon:

User-agent: EtaoSpider
Disallow:  /

EtaoSpider, chính là bọ của Alibaba. Nó được thiết kế, để quét và sao chép nội dung tự động từ Amazon (xem chi tiết tại https://www.amazon.com/robots.txt).

Cuộc chiến của Amazon và Alibaba, diễn ra ngay trên cách cấu hình file robots.txt của họ.

Ngoài EtaoSpider, còn có những con bọ được thiết kế chuyên dụng chỉ dùng để đi copy nội dung người khác (như Zealbot, MSIECrawler, SiteSnagger, WebStripper, WebCopier…), hoặc gửi quá nhiều / quá nhanh request tới máy chủ ( như fast, wget, NPBot, grub-client…), từ đó làm hao phí băng thông và tài nguyên hệ thống.

Bạn có thể tham khảo danh sách những con bọ đó, và lí do chặn chúng tại đây.

 

5. CHẶN THƯ MỤC NHẠY CẢM

Mã nguồn trang web, thông thường có thư mục nhạy cảm, chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….

Bạn không nên cho bọ tìm kiếm index những nội dung này, vì khi đó, nội dung của chúng sẽ bị public trên internet. Hacker có thể moi được thông tin từ chúng, để tấn công hệ thống của bạn.

Dưới đây là mẫu file robots.txt WordPress mặc định bạn có thể sử dụng :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Tuy nhiên, nhược điểm của file robots.txt là nó chặn được bọ robot, nhưng lại để lộ đường dẫn URL chứa thông tin quan trọng. Do đó, bạn cần chỉnh lại file .htaccess / nginx để chặn truy cập bất thường của con người tới những file này.

Nếu là người dùng phổ thông, tốt nhất, bạn nên nói bên hosting backup dữ liệu tự động cho bạn định kỳ hàng tuần. Lỡ có biến thì còn đường mà đỡ.

 

6. CHẶN BỌ TRONG THƯƠNG MẠI ĐIỆN TỬ

Trong thương mại điện tử, có một số tính năng đặc thù cho người dùng như:

– Đăng ký tài khoản
– Đăng nhập tài khoản
– Giỏ hàng
– Lịch sử giao dịch
– Sở thích người dùng (wishlist)
– Thanh tìm kiếm nội bộ
– So sánh giá (price)
– Sắp xếp thuộc tính (giá từ cao tới thấp, hàng bán chạy, kí tự A&B….)
– Lọc thuộc tính (nhà sản xuất, màu sắc, giá tiền, dung lượng…)
– Các sản phẩm không còn bán nữa (đi kèm với 301 redirect)

Những chức năng đó không thể thiếu với người dùng, nhưng thường tạo ra nội dung trùng lặp trong SEO, và không có bất kỳ nội dung liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này file robots.txt.

Trong file robot.txt, bạn dùng thêm dấu * (thay thế một chuỗi ký tự bất kỳ) và $ (định dạng file, ví dụ như .doc, .pdt, .ppt, .swf…, dùng ở cuối câu) để chặn các file tương ứng.

Ví dụ, đây là đường dẫn điện thoại Iphone, sort theo giá từ cao tới thấp của Cell Phones  như sau:
https://cellphones.com.vn/mobile/apple/iphone-2017.html…

Bạn thấy trong đường dẫn có đoạn ký tự ?dir=asc, dùng để sort theo giá. Đường dẫn này sẽ tạo ra nội dung trùng lặp cho trang web. Do đó, Cell Phones đã chặn chức năng sort theo giá đó trong file robots.txt như sau:

User-agent: * 
Disallow: /*?dir=asc

File robots.txt của Cell Phones, bạn xem tại đây.

Khi cấu hình file robots.txt cho trang thương mại điện tử, bạn cần nhờ sự hỗ trợ của bên lập trình web. Họ hiểu được ý nghĩa của từng chức năng, và sẽ giúp bạn tìm đúng cú pháp để bạn chặn trong file robot.txt.

Chúc bạn thành công!