ByteDance ra mắt hệ thống Robot GR-3: bước tiến mới trong lĩnh vực trí tuệ nhân tạo

ByteDance, công ty mẹ của nền tảng TikTok và là một trong những doanh nghiệp hàng đầu thế giới về phát triển trí tuệ nhân tạo (AI), gần đây đã công bố hệ thống GR-3 – một mô hình thị giác-ngôn ngữ-hành động quy mô lớn dành cho robot. Hệ thống này được thiết kế để hoạt động như “bộ não” cho các robot, cho phép chúng thực hiện các nhiệm vụ gia đình phức tạp dựa trên hướng dẫn ngôn ngữ tự nhiên. Sự ra mắt này đánh dấu một mốc quan trọng trong chiến lược mở rộng của ByteDance sang lĩnh vực robot học, phản ánh xu hướng toàn cầu về tích hợp AI vào các hệ thống vật lý. Với khả năng xử lý các vật thể chưa từng gặp, môi trường mới và khái niệm trừu tượng, GR-3 hứa hẹn sẽ thúc đẩy sự phát triển của các robot đa năng hỗ trợ con người trong cuộc sống hàng ngày.

Mẫu ByteDance GR-3 cho phép robot thực hiện các nhiệm vụ như treo quần áo. Ảnh: Handout.

GR-3 là một mô hình vision-language-action (VLA) được phát triển bởi bộ phận Seed của ByteDance, tập trung vào việc cho phép robot hiểu và thực hiện các lệnh bằng ngôn ngữ tự nhiên, đồng thời thích ứng với các tình huống chưa được huấn luyện trước. Theo báo cáo kỹ thuật, mô hình này sử dụng kiến trúc mixture-of-transformers, kết hợp một mô hình thị giác-ngôn ngữ đã được huấn luyện sẵn (như Qwen2.5-VL-3B-Instruct) với transformer diffusion cho hành động, nhằm dự đoán chuỗi hành động dựa trên quan sát môi trường và trạng thái robot. Điều này cho phép GR-3 xử lý các nhiệm vụ dài hạn và khéo léo, bao gồm thao tác hai tay và di chuyển di động.

Một trong những điểm nổi bật của GR-3 là khả năng tổng quát hóa cao. Trong các thử nghiệm, mô hình chứng minh khả năng xử lý các vật thể mới, môi trường chưa quen thuộc và hướng dẫn trừu tượng liên quan đến kích thước hoặc vị trí không gian. Ví dụ, robot có thể nhận diện và nhặt “đĩa lớn hơn” hoặc vật “ở bên trái”, ngay cả khi dữ liệu huấn luyện không bao gồm các biến thể cụ thể. Trong nhiệm vụ pick-and-place tổng quát, GR-3 đạt tỷ lệ thành công lên đến 86,7% với các vật thể chưa từng thấy sau khi tinh chỉnh với chỉ 10 quỹ đạo dữ liệu từ con người, vượt trội so với mô hình cơ sở π₀. Tương tự, trong nhiệm vụ dọn bàn ăn dài hạn, mô hình đạt 97,5% tỷ lệ thành công theo hướng dẫn, xử lý nhiều vật thể và điểm đến khác nhau, đồng thời tránh các nhiệm vụ không hợp lệ.

Quá trình huấn luyện của GR-3 bao gồm ba giai đoạn chính: học bắt chước từ dữ liệu quỹ đạo robot, đồng huấn luyện với dữ liệu thị giác-ngôn ngữ quy mô lớn từ web, và tinh chỉnh ít mẫu từ dữ liệu quỹ đạo con người thu thập qua thiết bị thực tế ảo (VR) như PICO 4 Ultra Enterprise. Giai đoạn đồng huấn luyện sử dụng các nhiệm vụ như chú thích hình ảnh và hỏi đáp thị giác để nâng cao khả năng theo hướng dẫn ngôn ngữ, trong khi tinh chỉnh VR cho phép thích ứng nhanh chóng với chi phí thấp – chỉ cần khoảng 30 phút dữ liệu cho mỗi vật thể mới. Điều này làm cho GR-3 trở nên hiệu quả hơn trong việc học từ ít dữ liệu, giải quyết thách thức phổ biến trong robot học.

GR-3 được tích hợp với nguyên mẫu robot ByteMini, một robot di động hai tay với 22 độ tự do, bao gồm cánh tay 7 độ tự do và nền tảng di chuyển omni-directional. ByteMini hỗ trợ điều khiển toàn thân tuân thủ và teleoperation, cho phép thu thập dữ liệu và triển khai chính sách một cách mượt mà. Trong các video trình diễn, robot thực hiện nhiệm vụ như chèn móc áo vào áo sơ mi và treo lên giá, ngay cả với áo ngắn tay dù dữ liệu huấn luyện chủ yếu là áo dài tay. Ngoài ra, nó có thể hoàn thành toàn bộ quy trình “dọn bàn ăn” chỉ với một lệnh duy nhất, chứng tỏ khả năng lập kế hoạch dài hạn và thao tác khéo léo với vật liệu linh hoạt như vải.

Sự phát triển này phản ánh ưu tiên chiến lược của ByteDance trong AI và robot học. Bộ phận Seed, thành lập năm 2023 sau sự ra mắt của ChatGPT, chịu trách nhiệm nghiên cứu AI và mô hình ngôn ngữ lớn. Công ty đang tích cực tuyển dụng nhân tài cho robot và AI hiện thân, với hơn 15 vị trí mở tính đến tháng 7/2025, nhằm phát triển các sản phẩm mới. Đồng sáng lập Zhang Yiming, dù không tham gia điều hành hàng ngày, vẫn ảnh hưởng lớn đến các quyết định chiến lược, thường xuyên giám sát tiến độ nghiên cứu tại Bắc Kinh. Điều này phù hợp với cuộc đua toàn cầu về AI tạo sinh, nơi ByteDance cạnh tranh với các ông lớn như OpenAI.

Trong bối cảnh rộng lớn hơn, GR-3 góp phần vào xu hướng ứng dụng AI vào hệ thống vật lý, có thể giảm tải công việc gia đình và mở rộng sang các lĩnh vực khác như sản xuất hoặc chăm sóc y tế. Tuy nhiên, thách thức vẫn tồn tại, chẳng hạn như xử lý các vật liệu phức tạp hoặc đảm bảo an toàn trong môi trường thực tế.

Việc ByteDance ra mắt GR-3 cho thấy một bước tiến đáng kể trong việc xây dựng robot đa năng, kết hợp thị giác, ngôn ngữ và hành động để hỗ trợ con người hiệu quả hơn. Với khả năng tổng quát hóa mạnh mẽ và huấn luyện tiết kiệm, mô hình này không chỉ nâng cao vị thế của ByteDance trong lĩnh vực AI mà còn mở ra tiềm năng cho các ứng dụng thực tế trong tương lai gần. Tuy nhiên, cần tiếp tục nghiên cứu để vượt qua các hạn chế hiện tại và đảm bảo tính bền vững.

Nguồn: TT,TK

Về Nguyễn Thị Loan

Check Also

Tinh thể BGSe lớn nhất thế giới: bước đột phá trong công nghệ vũ khí laser của Trung Quốc

Sự phát triển của công nghệ laser năng lượng cao đang mở ra một kỷ …