Skip to main content

Dify AI

1. Tổng quan về Dify AI

Dify AI là nền tảng mã nguồn mở giúp phát triển và triển khai ứng dụng AI sinh nhanh chóng. Tích hợp BaaS (Backend as a Service) và LLMOps (Large Language Model Operations) để xây dựng ứng dụng AI.

Đặc điểm chính:

  • Giao diện trực quan: No-code/Low-code
  • Đa dạng mô hình AI: Hỗ trợ OpenAI, Anthropic, Azure OpenAI, Gemini, Hugging Face,... và self-host
  • Triển khai linh hoạt: Self-host hoặc cloud
  • API sẵn sàng: Tích hợp dễ dàng
  • Theo dõi và giám sát: Observability và debugging mạnh mẽ

2. Các loại ứng dụng trong Dify AI (5 loại)

2.1. Text Generator (Trình tạo văn bản)

Định nghĩa: được thiết kế để tạo nội dung văn bản theo yêu cầu, dựa trên prompt template đã định nghĩa. Người dùng nhập input → hệ thống gửi prompt đến LLM → trả về văn bản.

Đặc điểm:

  • Giao diện: Prompt + Variables + Knowwledge + Vision (Tuỳ model) + User Input + Results
  • Hỗ trợ API Endpoint và Streaming
  • Có thể tích hợp biến động trong Prompt Template, ví dụ: {{topic}}, {{style}}, {{length}}
  • Chế độ tương tác: một câu hỏi, một câu trả lời
  • Không lưu trạng thái hội thoại (one-shot tasks)

Khi nào sử dụng: tạo nội dung tự động như viết truyện, viết bài SEO, nội dung email marketing, mô tả sản phẩm cho e-commerce, dịch thuật văn bản

2.2. Chatbot

Định nghĩa: được thiết kế để tương tác hội thoại nhiều lượt (multi-turn conversation) với người dùng, có lưu memory để duy trì ngữ cảnh.

Đặc điểm:

  • Giao diện: Instruction + Variables + Knowwledge + User Input + Results
  • Hỗ trợ API Endpoint và Streaming
  • Chế độ tương tác: hội thoại đa lượt (multi-turn conversation)
  • Bảo toàn ngữ cảnh liên tục, cung cấp cơ chế Conversation Memory để quản lý ngữ cảnh.

Khi nào sử dụng: Trợ lý khách hàng, trợ lý nội bộ, trợ lý học tập, huấn luyện, trợ lý tư vấn và hướng dẫn, FAQ bot cho website hoặc ứng dụng

2.3. Agent

Định nghĩa: được thiết kế để thực hiện tác vụ phức tạp bằng cách kết hợp LLM + công cụ (tools/actions) + logic suy luận nhiều bước.

Đặc điểm:

  • Có thể tích hợp và gọi tools khi phát hiện yêu cầu cần tool (ví dụ: Google Search API, Database query, Calculator, custom API…).
  • Không chỉ trả lời trực tiếp mà có thể suy nghĩ nhiều bước (chain-of-thought).
  • Có thể xử lý tình huống phức tạp: ví dụ vừa tìm thông tin, vừa tính toán, vừa gọi API ngoài.
  • Chế độ tương tác: hội thoại đa lượt (multi-turn conversation)

Khi nào sử dụng:

  • Trợ lý phân tích dữ liệu: kết nối DB hoặc API, cho phép user đặt câu hỏi → Agent query data và trả lời.
  • Trợ lý tích hợp với nhiều công cụ, API, xử lý tác vụ đa bước và tự động ra quyết định

Ưu điểm:

  • Khả năng lập luận mạnh mẽ để giải quyết các tác vụ phức tạp
  • Tích hợp linh hoạt với các công cụ
  • Có thể tự động hóa quy trình

Nhược điểm:

  • Phức tạp hơn để thiết lập
  • Có thể khó debug khi có lỗi
  • Tiêu tốn tài nguyên hơn

2.4. Chatflow

Định nghĩa: Workflow dành cho Chatbot, kết hợp LLM với logic cứng để chatbot "đi theo kịch bản" thay vì tự do quyết định như Agent.

Đặc điểm:

  • Luồng hội thoại nhiều nhánh có thể tùy chỉnh
  • Duy trì conversation ID và session variables
  • Hỗ trợ hội thoại đa vòng với ngữ cảnh
  • Tích hợp tool và knowledge base
  • Publish thành Web App hoặc API endpoint

Khi nào sử dụng:

  • Hội thoại phức tạp cần duy trì trạng thái và hỗ trợ knowledge base
  • Customer support bot: theo kịch bản → xác thực user → lấy dữ liệu DB → trả lời
  • Onboarding bot: hướng dẫn user theo các bước cố định

Ưu điểm:

  • Hỗ trợ hội thoại phức tạp, duy trì ngữ cảnh tốt

Nhược điểm:

  • Phức tạp thiết kế, cần quản lý session variables

2.5. Workflow

Định nghĩa: Trình thiết kế luồng xử lý trực quan bằng node editor, kết nối nhiều bước (LLM, API, tool, condition...) thành pipeline có logic rõ ràng.

Đặc điểm:

  • Giao diện kéo-thả trực quan
  • Kiểm soát luồng logic với rẽ nhánh điều kiện, gộp nhánh, hoặc lặp
  • Tái sử dụng được, có thể nhúng vào Chatbot/Agent. Hỗ trợ parameterization để tái sử dụng cho nhiều tình huống
  • Không có bộ nhớ, logic một vòng
  • Publish thành app riêng hoặc API endpoint

Khi nào sử dụng:

  • Xử lý dữ liệu hàng loạt, tự động hóa quy trình
  • Tác vụ định kỳ hoặc theo lịch trình
  • Data pipeline AI: nhập input → query knowledge base → gọi API phân tích → báo cáo
  • Business automation: nhận form → validate dữ liệu → gửi request đến CRM/ERP → tạo báo cáo
  • AI + API mashup: nhận input từ user → gọi weather API → gợi ý du lịch bằng LLM

Ưu điểm:

  • Kiểm soát cao, hiệu suất ổn định, dễ debug

Nhược điểm:

  • Không có bộ nhớ, ít linh hoạt hơn Agent

3. So sánh chi tiết

Tính năngWorkflowChatflowAgent
Mô hình thực thiStateless, kích hoạt theo lầnStateful, chạy dài hạnStateful, chạy dài hạn
Xử lý ngữ cảnhKhông có bộ nhớ, logic một vòngHỗ trợ bộ nhớ và lập luận đa vòngHỗ trợ bộ nhớ và lập luận đa vòng
Conversation IDKhông cóCó hỗ trợCó hỗ trợ
Session VariablesKhông cóCó thể tham chiếu, gán, sửa đổiCó thể tham chiếu, gán, sửa đổi
Giao diệnTương tác qua tasksTương tác qua conversationsTương tác qua conversations
FlexibilityTrung bình - các bước logic cố địnhTrung bình - theo kịch bản định sẵnCao - có thể gọi tools, APIs và dịch vụ bên ngoài dựa trên phân tích yêu cầu
Use CasesTự động hóa, xử lý hàng loạtHội thoại phức tạp, chatbotAI assistants, chatbot, ra quyết định động

4. Hướng dẫn chọn loại ứng dụng

4.1. Text Generator

  • Cần tạo văn bản một lần
  • Không cần tương tác đa vòng
  • Tập trung vào xử lý văn bản đơn giản

4.2. Chatbot

  • Cần tương tác hội thoại với người dùng
  • Muốn duy trì ngữ cảnh qua nhiều vòng
  • Xây dựng trợ lý ảo cơ bản

4.3. Agent

  • Cần AI có khả năng lập luận phức tạp
  • Muốn tích hợp với nhiều tools và cần một AI có khả năng ra quyết định lựa chọn tools động
  • Xử lý các tác vụ đa bước với việc ra quyết định động

4.4. Chatflow

  • Cần hội thoại phức tạp đa vòng
  • Muốn duy trì trạng thái qua nhiều vòng
  • Tích hợp với knowledge base cho hội thoại nâng cao

4.5. Workflow

  • Cần tự động hóa quy trình nghiệp vụ
  • Xử lý dữ liệu hàng loạt
  • Muốn kiểm soát cao và có thể dự đoán

5. Lợi ích của Dify AI

  • Tăng tốc độ phát triển với các template sẵn có mà không cần kỹ năng lập trình nâng cao.
  • Tiết kiệm chi phí nhờ vào việc giảm thời gian phát triển ứng dụng
  • Tính linh hoạt cao: hỗ trợ đa dạng LLM, API sẵn sàng, mở rộng theo nhu cầu
  • Tính năng mạnh mẽ: RAG (Retrieval-Augmented Generation), Prompt Engineering, Monitoring & Analytics, Version Control

6. Các tính năng AI đề xuất

6.1. Trợ lý số để công dân/khách du lịch/cán bộ hỏi - đáp bằng ngôn ngữ tự nhiên.

  • “Hiện nay quận Hoàn Kiếm có bao nhiêu điểm tắc nghẽn?” - LLM sẽ truy vấn dữ liệu (giao thông, môi trường) và trả lời.
  • “Khi nào đường này sửa xong?”, LLM lấy dữ liệu từ hệ thống quản lý hạ tầng để trả lời.
  • “Cho tôi biết mật độ cây xanh trung bình ở quận 7 năm 2024” → LLM chuyển đổi “Natural Language to SQL” và trả kết quả.
  • Hỗ trợ cán bộ trong trung tâm điều hành (IOC) tra cứu nhanh tình trạng, báo cáo sự cố, gợi ý hành động.

6.2. Phân tích ý kiến công dân → phân loại và tổng hợp insight → phát triển tính năng đánh giá và xếp hạng mức độ quan trọng/cấp thiết của các vấn đề cần giải quyết.

  • Doanh nghiệp, chính quyền, người dân có thể trao đổi qua cùng một kênh, LLM sẽ dịch ngữ cảnh chuyên ngành sang ngôn ngữ phổ thông dễ hiểu.
  • LLM xử lý hàng nghìn góp ý từ người dân (qua app đô thị thông minh, mạng xã hội) → phân loại theo chủ đề: giao thông, vệ sinh, an ninh. Tham khảo

6.3. Tự động hoá báo cáo: từ dữ liệu và sự kiện → sinh tóm tắt ngôn ngữ tự nhiên, giúp lãnh đạo nắm bắt nhanh thay vì chỉ xem dashboard số liệu.

  • LLM tổng hợp dữ liệu cảm biến, camera, GIS thành báo cáo hành chính dễ hiểu (“Trong tuần qua, số điểm ngập tăng 12% so với tuần trước”).
  • Khi xảy ra sự cố (cháy, lụt, tắc đường), LLM đọc dữ liệu realtime + feedback từ người dân, tự động tóm tắt cho lãnh đạo ra quyết định nhanh. Tham khảo

6.4. Viết kịch bản mô phỏng

  • Khi chính quyền định thử một chính sách (ví dụ: “đóng đường X giờ cao điểm”), LLM có thể tạo báo cáo giải thích tác động xã hội – văn bản mô phỏng tình huống để lãnh đạo dễ hình dung.

6.5. Chuyển đổi kết quả mô phỏng (dữ liệu, đồ thị) thành văn bản dễ hiểu cho lãnh đạo, đồng thời tạo bản thuyết minh chính sách dựa trên các kết quả đó.

Tham khảo

6.6. Tương tác đa phương thức

  • Người dùng mô tả bằng ngôn ngữ tự nhiên: “Cho tôi xem mô phỏng lũ lụt nếu mưa 200mm trong 2 giờ tại quận 1” → LLM dịch thành lệnh chạy mô phỏng.
  • Tích hợp với giọng nói (speech-to-text + LLM) để điều khiển mô hình trong VR/AR.

6.7. Phát hiện & giải thích bất thường

  • Khi AI phát hiện bất thường (ví dụ cảm biến báo áp lực nước giảm đột ngột), LLM tạo lời giải thích dễ hiểu: “Áp lực giảm 30% ở quận Tân Bình có thể do rò rỉ đường ống, dựa trên dữ liệu lịch sử năm 2025.”

6.8. Đào tạo & chia sẻ tri thức

  • Tạo trợ giảng số cho cán bộ vận hành: giải thích quy trình, tài liệu kỹ thuật.