OpenAI, công ty nghiên cứu trí tuệ nhân tạo và công nghệ học máy của tỷ phú Elon Musk vừa trình diễn bàn tay robot Dactyl có thể xoay chuyển và sắp xếp thành công khối rubik.
Bàn tay robot Dactyl được đào tạo với hai mạng neuron nhân tạo (neural network), sử dụng kết hợp kỹ thuật Ngẫu nhiên hóa tên miền tự động (Automatic Domain Randomization – ADR) và công nghệ học tăng cường (reinforcement learning). Thuật toán học tăng cường được áp dụng cho Dactyl đã một lần nữa chứng minh công nghệ này vượt trội hơn con người. Tháng 6/2018, công nghệ học tăng cường từng được áp dụng để đánh bại các đội nghiệp dư trong trò chơi Dota 2.
Kỹ thuật ADR là công cụ tạo ra những kịch bản huấn luyện ngày càng khó để Dactyl luyện tập giải mã khối rubik. Phương thức hoạt động của công nghệ này như sau:
ADR bắt đầu với môi trường đơn lẻ, không ngẫu nhiên hóa, trong đó một mạng neuron nhân tạo sẽ học cách giải mã khối rubik. Khi mạng lưới này trở nên thông minh hơn và đạt hiệu quả cao, số lượng miền (domain) sẽ tự động tăng lên. Lúc này, các nhiệm vụ sẽ ngày càng khó khăn và mạng neuron phải học cách khái quát hóa những môi trường ngẫu nhiên. Mạng neuron cần tiếp tục học để vượt qua các ngưỡng cao hơn, với nhiều quá trình phức tạp được lặp đi lặp lại.
Theo nhóm phát triển, ADR là một bước tiến quan trọng của trí tuệ nhân tạo. Việc thiết lập các mô hình đào tạo khó dần giúp chúng ta thoát khỏi ý nghĩa chỉ có một khuôn mẫu nhất định, cho phép chuyển đổi các mạng neuron đã học trong bản mô phỏng vào thực tế. Cuối cùng, sau khi huấn luyện các mạng neuron qua nhiều tình huống, bàn tay robot Dactyl sẽ tự thích nghi một cách khéo léo với những bối cảnh vật lý khác nhau, gồm cả khi bị trói ngón tay, đeo găng tay cao su…
OpenAI đã trình diễn khả năng xoay khối lập phương của Dactyl từ năm ngoái. Tuy nhiên để xoay chuyển và sắp xếp khối rubik cần độ khéo léo vào nhiều thao tác cần thiết hơn. Dmitry Berenson, chuyên gia về chế tác máy tại trường Đại học Michigan nhận xét: “Đây là một vấn đề thực sự khó khăn. Những thao tác cần thiết để xoay các bộ phận của khối rubik khó hơn nhiều so với xoay khối lập phương”.
Leslie Kaelbled, chuyên gia robot tại MIT nói: “Tôi rất ngạc nhiên. Thật không thể tưởng tượng được họ có thể làm được điều này”.
Các nhà nghiên cứu của OpenAI tin rằng kết quả thử nghiệm trên là bằng chứng cho thấy có thể sử dụng những kỹ thuật tương tự để điều chỉnh hành vi robot với nhiều điều kiện khác nhau trong tương lai. Nhà nghiên cứu Marcin Andrychowicz của OpenAI hy vọng công nghệ học tăng cường sẽ ngày càng trở nên phổ biến và áp dụng rộng rãi hơn vào robot.
Bên cạnh đó, cũng có nhiều người hoài nghi và không tin công nghệ này là con đường dành cho robot. Berenson đã gợi ý một số phương pháp truyền thống hơn: “Sẽ có nhiều quá trình huấn luyện khác có thể đào tạo robot trong tương lai, nhưng tôi nghĩ điều đó sẽ còn rất lâu mới thành hiện thực”.
Sự hoài nghi của mọi người bắt nguồn từ bản chất của công nghệ học tăng cường. Vẫn chưa rõ liệu kỹ thuật này có thể thực hiện được các nhiệm vụ đa nhiệm hay chỉ giải quyết được một việc duy nhất. Nhìn chung, rất khó xác định lộ trình tương lai của robot ở thời điểm hiện tại. Dù sao đi nữa, khả năng giải rubik của bàn tay robot Dactyl cũng rất thú vị. Hy vọng kỹ thuật này sẽ tạo cảm hứng cho nhiều nghiên cứu hơn trong thời gian tới.
Theo Neowin