OpenAI Operator: AI Agent tự động làm chuỗi việc cho người dùng
Đăng lúc
20:22 27.01.2025
OpenAI vừa cho ra mắt tính năng Operator tích hợp vào ChatGPT để thực hiện các nhiệm vụ trên web, mở đường cho xu thế AI Agent trong năm 2025.
Operator là một AI Agent sử dụng mô hình GPT-4o với khả năng nhận diện hình ảnh và tư duy nâng cao. Công cụ này có thể tương tác trực tiếp với giao diện người dùng trên web bằng cách nhấp chuột, nhập liệu và điều hướng qua các menu. Với khả năng này, Operator có thể thực hiện nhiều tác vụ như đặt vé du lịch hoặc đặt nhà hàng; hỗ trợ người dùng mua sắm trực tuyến với khả năng lọc, tìm kiếm sản phẩm, điền thông tin và thực hiện các tác vụ lặp đi lặp lại; và quản lý quy trình làm việc cá nhân bằng cách lưu trữ các prompt hay thiết lập mà người dùng thường xuyên thực hiện trên một website nào đó.
OpenAI giới thiệu Operator, thúc đẩy xu thế AI Agent
Bên cạnh đó, công cụ này cũng có thể xử lý nhiều nhiệm vụ cùng lúc và tự sửa lỗi khi gặp khó khăn. Đặc biệt, Operator sẽ yêu cầu xác nhận từ người dùng trước khi thực hiện các hành động quan trọng như thanh toán hoặc nhập thông tin nhạy cảm.
Khả năng vượt trội của Operator
Với Operator, người dùng chỉ cần đưa ra lệnh bằng ngôn ngữ tự nhiên, và Operator sẽ chuyển đổi thành các bước hành động cụ thể. Công cụ này sử dụng ảnh chụp màn hình để “nhìn” giao diện và thực hiện các thao tác trên đó. Ví dụ, anh em có thể yêu cầu Operator tìm kiếm vé tàu từ Hà Nội đến Đà Nẵng trên một website đặt vé trực tuyến. Sau khi truy cập trang web và nhập thông tin cần thiết, Operator sẽ hiển thị kết quả và hỏi bạn có muốn tiếp tục đặt vé hay không.
Operator có thể hỗ trợ người dùng thực hiện các tác vụ như đặt vé du lịch, nhà hàng, khách sạn
Ngoài ra, với các tác vụ nhạy cảm (ví dụ: nhập thông tin thanh toán), Operator sẽ yêu cầu sự can thiệp của người dùng để đảm bảo độ chính xác và an toàn. Điều này giúp giảm thiểu rủi ro từ những sai sót không mong muốn trong quá trình xử lý.
Tính năng an toàn được ưu tiên
Với Operator, OpenAI cũng đã triển khai nhiều biện pháp an toàn để giảm thiểu rủi ro. Đầu tiên, Operator sẽ luôn hỏi ý kiến người dùng trước khi thực hiện các hành động quan trọng. Operator cũng sẽ không được phép truy cập vào các trang web bị cấm hoặc có nội dung nhạy cảm. Hơn nữa, hệ thống sẽ phát hiện và ngăn chặn các hoạt động nguy hiểm hoặc không mong muốn, bao gồm các cuộc tấn công “prompt injection”. Đây là hình thức tấn công bằng cách thao túng lệnh đầu vào để AI thực hiện các hành động không mong muốn.
Operator có các cơ chế an toàn bảo vệ người dùng như ngăn chặn prompt injection
Với hình thức này, hệ thống AI sử dụng các bộ phân loại hoặc công cụ giám sát để phân tích đầu vào của người dùng nhằm tìm ra các mẫu lệnh độc hại. Ví dụ, hệ thống có thể phát hiện một lệnh ẩn trong đầu vào của người dùng nhằm thao túng AI tiết lộ thông tin bí mật. Nếu phát hiện hành vi này, hệ thống sẽ chặn phản hồi hoặc dừng xử lý trước khi xảy ra bất kỳ tác hại nào.
Khả năng xử lý lỗi hiệu quả
Ngoài ra, Operator cũng có khả năng xử lý những tình huống lỗi bằng cách giao lại quyền kiểm soát cho người dùng. Theo đó, khi gặp lỗi hoặc tình huống không quen thuộc, hệ thống AI sử dụng cơ chế dự phòng để đảm bảo tính liên tục và giảm thiểu gián đoạn. Một ví dụ cụ thể là khi gặp phải giao diện phức tạp (như CAPTCHA hoặc bố cục web phức tạp), Operator có thể tạm dừng nhiệm vụ và yêu cầu người dùng hỗ trợ. Ví dụ, nếu nó không thể điều hướng qua quy trình xác thực nhiều bước trên một trang web, nó sẽ thông báo cho người dùng hoàn thành bước đó thủ công trước khi tiếp tục.
Operator cũng có khả năng xử lý các tình huống phức tạp như CAPTCHA. Nguồn ảnh: Reddit
Hiện tại, mặc dù được khá hứa hẹn cho một tương lai mới với AI Agent, Operator vẫn gặp phải một số hạn chế nhất định khi hiệu suất vẫn chưa ổn định. Một số người dùng đã báo cáo về khả năng xử lý chậm, mất kết nối hay thông tin mà Operator trả về không chính xác. Ngoài ra, Operator hiện tại cũng gặp nhiều khó khăn trong việc xử lý các tác vụ với giao diện phức tạp như CAPTCHA, điền mật khẩu hay các website được thiết kế phức tạp với cấu trúc động hay sử dụng JavaScript. Bên cạnh những khó khăn trên, chi phí cao cũng là một rào cản khi chỉ chỉ những người đăng ký gói ChatGPT Pro với mức 200 đô/tháng mới có quyền truy cập. Hiện tại tính năng này chỉ được giới hạn cho người dùng tại Mỹ và hiện còn đang trong giai đoạn thử nghiệm.
OpenAI dự định sẽ tiếp tục cải tiến Operator dựa trên phản hồi của người dùng trong giai đoạn thử nghiệm. Hãng cũng sẽ mở rộng và cung cấp tính năng này cho nhiều người dùng với các gói đăng ký khác, đồng thời sẽ tích hợp trực tiếp vào ChatGPT.