Markdown và HTML ra đời từ rất lâu, lại trở thành định dạng nội dung mà AI Agent cực kì ưa thích

Đăng lúc 23:20 09.05.2026

Có một thời điểm mình nhận ra dạng dữ liệu mình chọn để AI làm việc quan trọng không kém gì cách mình prompt, và Markdown và HTML là hai định dạng mà AI cực kì ưa thích



Hôm đó là một bữa đang ngồi làm vài thứ với AI, mình đưa cho Claude một loạt screenshot từ tài liệu cũ và vài đoạn text dài để AI giúp tổng hợp lại. Mình paste ảnh, paste text, hỏi câu này, hỏi câu kia, kì vọng nhanh chóng có kết quả. Ngược lại thì token cháy nhanh đến mức chưa làm xong việc đã hết hạn mức session. Output cũng không tốt: AI bị ngộp, hierarchy bị mất, các phần liên quan không nối được với nhau.

Tìm hiểu một hồi thì mình thử cách khác. Đợi hết session thì mình thử lại với file Markdown có heading, có danh sách, có đánh dấu các phần code. Cùng một việc, lần này AI hiểu được cấu trúc ngay, ít token hơn nhiều, output cũng có cấu trúc rõ ràng. Đây là lúc mình nhận ra: format mình chọn quan trọng không kém gì cách mình viết prompt.

Câu hỏi đáng đào sâu sau tình huống này là vì sao một định dạng được thiết kế từ trước thời AI tồn tại lại đang là "ngôn ngữ chung" tốt nhất giữa con người và AI agent?

Vì sao AI ưu ái nội dung có cấu trúc?


Đầu tiên cần hiểu cách AI đọc text khác cách mắt người scan trang. Khi anh em nhìn một bài blog, mắt sẽ tự lướt qua tiêu đề lớn, dừng lại ở đoạn in đậm, quét các bullet point hay các phần nổi bật mà bỏ qua phần menu điều hướng hay các nội dung quảng cáo. Não anh em quen với việc xử lý layout, font size, khoảng cách trắng để hiểu cấu trúc mà tác giả muốn truyền tải.

Trong khi đó, AI không có mắt. Thay vào đó, nó đọc text như một chuỗi token, từ trái sang phải, không có khái niệm "to chữ này", "bullet này". Nếu anh em paste một đoạn text raw không có tag gì, AI phải tự suy ra đâu là tiêu đề, đâu là danh sách, đâu là code, đâu là chú thích bên lề. Suy đoán này tốn token để xử lý và rất dễ sai.

[​IMG]

Còn khi anh em đưa Markdown hoặc HTML, các tag # ## bold code và code block đóng vai trò "móc câu". Heading nói "đây là chủ đề mới, các phần dưới sẽ liên quan". Hay list nói “đây là các mục song song, không phải là văn xuôi liên tục” hay block code nói với AI rằng đây không phải đoạn văn mô tả, đây là code, đừng paraphrase nội dung bên trong. Mỗi tag trong cái cấu trúc Markdown là một tín hiệu rõ ràng để AI hiểu nó là gì mà không phải đoán.

Nói đơn giản: text thuần anh em cung cấp buộc AI phải đoán cấu trúc trong khi file markup cho AI cấu trúc sẵn. Sự khác biệt này nghe nhỏ trên giấy, nhưng quy ra token và quy ra chất lượng output thì rất lớn.

Một sự trùng hợp tình cờ của lịch sử


Phần thú vị nhất của câu chuyện mà mình thấy được là cả hai format quan trọng nhất với AI hiện nay đều ra đời trong thời đại AI chưa tồn tại.

Đầu tiên là HTML xuất hiện năm 1993, do ông Tim Berners-Lee tạo ra ở CERN. Mục đích gốc rất đời thường: cho các nhà khoa học share tài liệu nghiên cứu lẫn nhau qua mạng, để render được trên trình duyệt cho con người đọc bằng mắt. Lúc đó Berners-Lee không nghĩ đến chuyện một ngày nào đó AI agent sẽ đọc HTML.

Trong khi đó, Markdown ra đời 11 năm sau, năm 2004, do ông John Gruber tạo ra với đóng góp đáng kể từ ông Aaron Swartz. Vấn đề họ giải quyết cũng đơn giản: viết blog HTML mệt vì phải gõ tag, có cách nào viết nhanh kiểu plain text mà vẫn convert được sang HTML không? Markdown là câu trả lời. Cũng chẳng liên quan gì đến AI.



HTML-Blog-scaled.jpeg
HTML ra đời vào năm 1993 và trở thành một phần quan trọng của Internet

Vậy mà 30 năm sau khi HTML ra đời, và 20 năm sau khi Markdown ra đời, cả hai đang là format tốt nhất để giao tiếp với AI agent. Đây là một sự trùng hợp đáng dừng lại để ngẫm nghĩ. Với cá nhân mình, hai format tưởng như cũ kĩ này lại đều là lời giải chung cho một bài toán nền tảng: đánh dấu "đây là gì" trong nội dung. Các thành phần như Heading, list, table, code, link không chỉ là format để render đẹp, mà là cách đánh dấu ngữ nghĩa. Mà ngữ nghĩa chính là cái AI cần.

Có những tình huống cũng tương tự trong lịch sử công nghệ. Bàn phím QWERTY được thiết kế cho máy đánh chữ cơ học hơn 100 năm trước, để tránh các thanh gõ chồng lên nhau khi gõ nhanh. Lý do thiết kế đó đã không còn liên quan từ khi máy đánh chữ điện tử xuất hiện, nhưng QWERTY vẫn sống và thậm chí sống rất tốt vì không có lý do đủ mạnh để thay đổi thói quen của hàng tỷ người. Hay các container vận chuyển được thiết kế năm 1956 cho mục đích đơn giản là bốc xếp hàng lên tàu nhanh hơn, vô tình trở thành nền tảng của toàn bộ logistics toàn cầu hiện đại. Cả hai trường hợp đều là một thiết kế cho mục đích gốc ban đầu, sống sót và lan rộng ở thời đại về sau vì lý do hoàn toàn khác. HTML và Markdown đang trải qua chính câu chuyện đó với AI.

Markdown và lý do trở thành format được AI agent ưa thích


Lý do số một là tính hiệu quả về việc sử dụng token. Một trang web hiện đại có rất nhiều thứ không liên quan đến nội dung: CSS class, JavaScript inline, các thẻ div lồng nhau cho layout, các attribute cho tracking và analytics. Tất cả những thứ này không mang ngữ nghĩa cho AI nhưng vẫn bị tính token khi anh em paste vào.

Trong khi đó, nếu anh em chuyển đổi chúng sang định dạng Markdown thì các thành phần gây nhiễu này biến mất, chỉ còn lại heading, văn bản, danh sách, phần code, các link đi kèm. Tùy vào độ phức tạp của trang gốc, Markdown có thể giảm 5 đến 10 lần số token cho cùng một nội dung. Với người dùng AI thường xuyên, đây không phải tiết kiệm vặt vãnh, đây là sự khác biệt giữa "làm xong việc trong session" và "hết token giữa chừng".



markdown-ava-b58e097e41.jpeg

Lý do thứ hai là ngữ nghĩa được giữ sạch. Markdown chỉ có vài tag cốt lõi: # cho heading, * cho list, ` cho code, ** cho bold, text cho link. Mỗi tag tương ứng với một loại ngữ nghĩa rõ ràng. AI không phải lọc qua hàng tá các phần CSS để tìm ra đâu là tiêu đề của nội dung đang đọc.

Lý do thứ ba là Markdown thật sự thân thiện với người dùng. Có lẽ anh em làm tech ở Việt Nam phần lớn đã quen Markdown qua README GitHub, doc Notion của team, hoặc qua các blog tech. Thật sự Markdown rất dễ đọc, không chỉ với anh em dev. Người không phải dev cũng đọc được trên Notion, Obsidian, Slack, Discord. Cùng một file, cả người và AI đọc được mà không cần các công cụ đặc biệt. Điều này nghe đơn giản nhưng nó là lý do Markdown lan ra ngoài cộng đồng dev nhanh đến vậy lại rất tiện lợi khi là format mà AI ưa thích.

Trong khi đó, HTML vẫn tồn tại và lại càng có lý do để nó tồn tại


Dù Markdown gọn hơn, HTML vẫn là một định dạng nội dung anh em không thể bỏ. Lý do đơn giản: web vẫn chạy trên HTML. Mọi trang web anh em mở, mọi bài viết anh em đọc, mọi trang web thương mại điện tử anh em mua hàng đều có HTML ở dưới. Và khi AI agent muốn duyệt web để lấy thông tin, scrape data, đọc tin tức, nó phải hiểu HTML.

HTML cũng có tiêu chuẩn ngữ nghĩa khá tốt nếu được viết một cách tinh gọn. Các tag h1, h2, table, ul, li, article đều mang ngữ nghĩa rõ ràng. Vấn đề là trong thực tế, các trang web sản xuất hiếm khi viết HTML một cách gọn gàng sạch sẽ. Một div với 5 class lồng trong 10 div khác là chuyện bình thường, và đây là nội dung nhiễu mà AI phải lọc qua.

Và rõ ràng, đó là cái đánh đổi với định dạng này. Cách xử lý phổ biến hiện nay là chuyển đổi HTML sang Markdown trước khi đưa cho AI. Hiện có một vài cách để anh em thực hiện việc này. Một trong số đó là sử dụng các package như html2text (Python) hoặc turndown (JavaScript) để convert tự động. Một số crawler hiện đại cũng đã có sẵn option xuất Markdown thay vì HTML thô, được thiết kế cho việc đưa nội dung vào AI. Trong Claude và một số AI khác, anh em có thể paste link và để hệ thống ở dưới tự xử lý phần convert này.

Ngoài ra, có một vai trò phụ cũng đáng nhắc đến. Đó là khi anh em muốn AI cho ra một nội dung/thành phần dễ dàng để hiển thị trên UI hoặc CMS thì HTML là format cần sử dụng. Ví dụ anh em build một component web, muốn AI sinh ra HTML kèm class Tailwind sẵn để paste thẳng vào project, đây là trường hợp mà HTML có ý nghĩa hơn hẳn file markdown.

Trải nghiệm thực tế và cách Claude phản ứng với format


Nói một chút về trải nghiệm cá nhân thì khi mình làm việc với anh em dev trên các dự án, viết spec hoặc bug report bằng Markdown là một bước nhảy vọt về mặt hiệu quả công việc. Lý do là vì anh em dev hiện nay phần lớn dùng AI assistant tích hợp trong IDE như Cursor, Windsurf, Copilot, hoặc Claude Code. Khi spec viết bằng Markdown, anh em paste thẳng vào AI là mã lệnh có thể dễ dàng được tạo ra mà không cần reformat lại. Trong khi nếu sử dụng cùng nội dung đó dưới dạng Word doc, hoặc tệ hơn là screenshot, AI mất đi ngữ cảnh về cấu trúc, có thể hiểu sai requirement, và code tạo ra có thể sai hoàn toàn.
Screenshot 2026-05-09 at 4.31.15 PM.jpg
Markdown khiến AI làm việc hiệu quả hơn

Tương tự với việc tương tác với dữ liệu. Khi cần, mình thử đưa một bảng số liệu cho AI phân tích, CSV gọn hơn nhiều so với Excel có 10 sheet và format đẹp. Excel có nhiều thứ không phải data: các cell dữ liệu được gộp lại, màu sắc, conditional formatting, sheet ẩn. AI không quan tâm đến những cái đó, nó cần bảng số liệu thuần. Một file CSV 50KB có thể chứa cùng lượng thông tin như một file XLSX 5MB, AI đọc CSV nhanh hơn, ít token hơn, ít sai sót hơn.

Và chính cả Anthropic, công ty làm ra Claude, đã chính thức khuyên trong tài liệu prompt engineering của họ là dùng XML-style tag để bọc các phần khác nhau của prompt. Ví dụ bọc context trong <context>...</context>, instruction trong <instruction>...</instruction>, ví dụ trong <example>...</example>. Đây không phải là gợi ý vô căn cứ. Claude được train để nhận diện và đưa ra phản hồi theo các tag này, kết quả là output có cấu trúc tương ứng. Chính mình prompt với Claude thông qua định dạng markdown, output mà Claude trả về cũng theo định dạng này. Hay khi prompt có XML tag, output cũng theo XML tag. Đây là tín hiệu rằng format không chỉ giúp AI hiểu input, mà còn định hình output. Đầu vào có cấu trúc thì đầu ra có cấu trúc.

Một set practice cho anh em

Viết dông dài, cốt để anh em hiểu rằng Markdown và HTML ra đời lâu rồi, với mục đích cụ thể nhất định nhưng theo dòng thời gian lại trở thành định dạng hữu ích để anh em làm việc với AI. Vì thế, anh em nên cân nhắc

  • Viết các doc kỹ thuật bằng Markdown thay vì Word. README, spec, bug report đều thế.
  • Với Data, anh em có thể dùng file CSV thay vì Excel format đẹp. AI không cần màu sắc, nó cần số liệu.
  • Với Web: chuyển đổi HTML sang Markdown trước khi đưa cho AI xử lý. Anh em có thể search 'html to markdown' để tìm tool phù hợp.
  • Code: luôn paste trong markdown code fence (ba dấu ` liền nhau). AI nhận diện ngay đây là code, không paraphrase.
  • Prompt cho Claude: dùng XML tag để bọc context, instruction, example. Bài bản hơn, output cũng bài bản hơn.

Cơ bản thì, format anh em chọn cho AI cũng quan trọng không kém gì cách anh em viết prompt. Một cái spec viết bằng Markdown đôi khi cho output tốt hơn nhiều một prompt thông minh viết trong file Word. Hai format ra đời từ thời chưa ai nghĩ đến AI, hóa ra lại là chìa khóa để work tốt với AI ngày nay. Đây là một trong những trùng hợp đáng giá nhất của lịch sử công nghệ.

 
==***==

Khoá học: Quản trị Chiến lược Dành cho các Lãnh đạo Doanh nghiệp
Nhấn vào đây để bắt đầu khóa học

Khóa học: Trở thành chuyên gia Bảo mật và tấn công ANM- Hacker mũ trắng
Nhấn vào đây để bắt đầu khóa học

Chuyên gia phân tích, tự động hóa Web iMacros
Nhấn vào đây để bắt đầu khóa học

Xây dựng ứng dụng tự động hóa AutoIT
Nhấn vào đây để bắt đầu khóa học

Khóa đào tạo Hacker và Marketing Facebook từ A - Z
Nhấn vào đây để bắt đầu khóa học

Khóa học: Phân tích và trực quan hóa dữ liệu với Power BI
Nhấn vào đây để bắt đầu khóa học

Khóa học đào tạo Marketing Facebook thông minh
Nhấn vào đây để bắt đầu khóa học

Lập trình Visual Foxpro 9 - Dành cho nhà quản lý và kế toán
Nhấn vào đây để bắt đầu khóa học

Làm chủ xây dựng Game chuyên nghiệp
Nhấn vào đây để bắt đầu khóa học

Trở thành chuyên gia Marketing Facebook thông minh
Nhấn vào đây để bắt đầu khóa học

Kỹ sảo Điện ảnh đỉnh cao với khóa học After Effect
Nhấn vào đây để bắt đầu khóa học

Trở thành chuyên gia Vẽ Đẳng Cấp với khóa học AI
Nhấn vào đây để bắt đầu khóa học

Làm Chủ thiết kế ảnh với Photoshop CC
Nhấn vào đây để bắt đầu khóa học

Dựng Phim Siêu đẳng với Adobe Premiere
Nhấn vào đây để bắt đầu khóa học

Khóa dựng phần mềm quản lý dành cho nhà Quản lý và Kế toán bằng MS ACCESS
Nhấn vào đây để bắt đầu khóa học

Khóa học Machine Learning cơ bản-Khoa học dữ liệu - AI
Nhấn vào đây để bắt đầu khóa học

Khóa học Đào tạo sử dụng Excel Chuyên nghiệp & ứng dụng
Nhấn vào đây để bắt đầu khóa học

Khóa học sử dụng PowerPoint Chuyên nghiệp & ứng dụng
Nhấn vào đây để bắt đầu khóa học

Khóa học xây dựng và quản trị hệ thống đào tạo trực tuyến
Nhấn vào đây để bắt đầu khóa học

Đóng góp nội dung

Gửi ý kiến cho ban biên tập
Gửi thông tin

Thông tin

ĐĂNG KÝ/LIÊN HỆ: