Figure AI vừa ra mắt Helix, một mô hình Vision-Language-Action (VLA) giúp robot thực hiện nhiệm vụ thông qua dữ liệu hình ảnh và ngôn ngữ tự nhiên. Đây được coi là một sự kiện đột phá cung cấp cho robot hình người khả năng suy luận và sự khéo léo như con người, hướng đến việc cho phép robot hoạt động trong môi trường phi cấu trúc và khó đoán như nhà ở, vượt ra ngoài môi trường công nghiệp được kiểm soát.
Xem thêm Robot NEO Gamma: Bước tiến mới của robot giúp việc!
Figure vừa công bố Helix, một mô hình Vision-Language-Action (VLA) giúp robot thực hiện nhiệm vụ thông qua dữ liệu hình ảnh và ngôn ngữ tự nhiên. Đây là bước đi mới sau khi công ty từ bỏ hợp tác với OpenAI. Helix hoạt động tương tự Google DeepMind’s RT-2, kết hợp video và mô hình ngôn ngữ lớn (LLM) để hướng dẫn robot. Nó có khả năng nhận diện và thao tác với hàng nghìn vật thể chưa từng thấy trước đó chỉ bằng lệnh thoại. Figure nhấn mạnh rằng Helix có thể điều khiển hai robot làm việc cùng nhau để thực hiện các tác vụ trong nhà, một môi trường phức tạp hơn so với nhà máy hay kho bãi.
- Kiểm soát Toàn bộ Phần Thân Trên: Helix là mô hình VLA đầu tiên có khả năng kiểm soát liên tục, tốc độ cao toàn bộ phần thân trên của robot hình người. Điều này bao gồm 35 bậc tự do, bao gồm cổ tay, thân mình, đầu và từng ngón tay, thể hiện một tiến bộ đáng kể trong sự khéo léo của robot.
- Hợp tác Đa Robot: Helix là mô hình VLA đầu tiên có thể điều khiển đồng thời hai robot. Điều này cho phép hoàn thành nhiệm vụ hợp tác trong các nhiệm vụ thao tác dài hạn với các vật phẩm không quen thuộc, thể hiện khả năng phối hợp và thích ứng nâng cao.
- Xử lý Vật thể Tổng quát (“Nhặt mọi thứ”): Robot được trang bị Helix có thể nhặt hầu như bất kỳ đồ vật gia dụng nhỏ nào, ngay cả những vật phẩm mà chúng chưa từng gặp trước đây, chỉ cần làm theo lệnh bằng ngôn ngữ tự nhiên. Điều này thể hiện khả năng tổng quát hóa của mô hình đối với các đối tượng chưa từng thấy.
- Mạng Nơ-ron Đơn: Không giống như các phương pháp trước đây sử dụng các mô hình riêng biệt cho các nhiệm vụ khác nhau, Helix sử dụng một bộ trọng số mạng nơ-ron duy nhất để quản lý các hành vi khác nhau. Bao gồm nhặt, đặt, vận hành ngăn kéo, các tác vụ liên quan đến tủ lạnh và tương tác đa robot, tất cả đều không cần tinh chỉnh cụ thể cho từng nhiệm vụ.
- Sẵn sàng Thương mại: Helix được thiết kế để triển khai thương mại ngay lập tức. Nó chạy hoàn toàn trên GPU công suất thấp, nhúng, giúp nó tự chủ và loại bỏ nhu cầu về tài nguyên máy tính bên ngoài.
- Kiến trúc Hệ thống Kép: Helix sử dụng kiến trúc hệ thống kép bao gồm Hệ thống 1 và Hệ thống 2. Hệ thống 2 là một mạng biến đổi lớn cho lý luận cấp cao và lập kế hoạch tác vụ từ các lệnh ngôn ngữ tự nhiên. Hệ thống 1 là một chính sách thị giác vận động nhỏ hơn, nhanh hơn để thực hiện kiểm soát mức thấp, chính xác. Sự kết hợp này cho phép cả xử lý lệnh trừu tượng và vận hành robot trong thời gian thực.
- Vượt qua Thách thức Mở rộng Quy mô Robot: Nhà ở đặt ra một thách thức đáng kể cho robot do sự đa dạng và khó đoán của đồ vật. Helix được thiết kế để vượt qua những hạn chế của các hệ thống robot hiện tại vốn yêu cầu lập trình thủ công hoặc trình diễn cụ thể cho từng nhiệm vụ, mở đường cho robot thực sự hữu ích trong môi trường gia đình.
- Tương tác Ngôn ngữ Tự nhiên: Helix cho phép robot hiểu và thực hiện các nhiệm vụ dựa trên các lệnh ngôn ngữ tự nhiên, thu hẹp khoảng cách giữa hướng dẫn của con người và hành động của robot. Điều này cho phép người dùng chỉ định các kỹ năng mới một cách nhanh chóng chỉ bằng cách nói chuyện với robot.
Helix là một tiến bộ đáng kể trong lĩnh vực robot hình người, đưa robot đến gần hơn với việc thực hiện các nhiệm vụ phức tạp trong môi trường sống hàng ngày của con người bằng cách kết hợp AI tiên tiến với khả năng kiểm soát vật lý khéo léo và khả năng hiểu và hành động theo hướng dẫn bằng ngôn ngữ tự nhiên.
Nguồn Hoàng Dũng AI