YANN LECUN ĐÃ ĐÚNG? KHÔNG CÓ AGI NẾU KHÔNG CÓ WORLD MODEL

Bài của Hoàng Dũng AI. Bố già AI Yann Lecun luôn nói LLM không thông minh bằng con mèo vì LLM không có world model. Thế nào là thông minh và world model là gì?

Vì sao không có world model mà AI vẫn có thể dự đoán siêu chuẩn?

YANN LECUN ĐÃ ĐÚNG? KHÔNG CÓ AGI NẾU KHÔNG CÓ WORLD MODEL

Xem thêm Trí tuệ nhân tạo tổng quát AGI là gì?

Đó là câu hỏi đặt ra trong paper ‘What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models’ vừa ra ở ICML. Họ train một transformer trên 10 triệu hệ mặt trời, nó dự đoán quỹ đạo hành tinh thì ngon lành. Nhưng hỏi nó về định luật hấp dẫn thì toang luôn.

Paper đặt hai câu hỏi chính:

1. Dự đoán khác gì với world model?

2. Có cách nào đo lường sự khác biệt này không?

Để trả lời, paper quay lại 400 năm trước, thời Kepler và Newton.

Kepler vs Newton: Câu chuyện lịch sử

Hồi đó, Kepler nhìn trời, ghi chép dữ liệu, rồi đưa ra dự đoán về quỹ đạo hành tinh. Chuẩn không cần chỉnh, dự đoán của ổng khớp với thực tế. Nhưng Kepler chỉ dừng ở việc đoán đúng quỹ đạo, không giải thích được tại sao. Rồi Newton xuất hiện, đưa ra định luật hấp dẫn. Định luật này không chỉ giải thích quỹ đạo hành tinh mà còn áp dụng được cho cả quả lắc, đạn đại bác, hay tên lửa bay vào vũ trụ.

Như vậy nếu chỉ cần biết hành tinh di chuyển thế nào, Kepler đủ rồi. Nhưng muốn làm gì đó mới, như tính lực đẩy của tên lửa? Chỉ có Newton mới chơi được.

Điểm khác biệt là dự đoán chỉ giỏi cho một task cụ thể. World model thì khái quát hóa, áp dụng được cho nhiều vấn đề. Newton xây được world model, còn Kepler chỉ có dự đoán.

AI và bài toán world model

YANN LECUN ĐÃ ĐÚNG? KHÔNG CÓ AGI NẾU KHÔNG CÓ WORLD MODEL

Paper này xác định AI giống Newton hơn Kepler. Một foundation model ngon phải có khả năng khái quát, nghĩa là nó không chỉ dự đoán đúng mà còn hiểu được quy luật sâu xa, áp dụng cho nhiều task mới.

Nhưng có cái gọi là No Free Lunch Theorem: không có model nào hoàn hảo cho mọi bài toán. Mỗi model có inductive bias riêng, và bias này bộc lộ world model của nó.

Paper đề xuất một cách đo lường gọi là inductive bias probe. Inductive Bias Probe là phân tích trực tiếp thiên hướng suy luận (inductive bias) của mô hình nền tảng. Nó giúp đánh giá liệu mô hình có tổng quát hóa đúng các quy luật vật lý hay không, hay chỉ đơn thuần là nhớ mặt dữ liệu.

Cách làm đơn giản:

1. Lấy một foundation model, fine-tune nó trên nhiều dataset nhỏ, nhân tạo.

2. Phân tích pattern trong các hàm nó học được để tìm ra inductive bias.

Ví dụ: Transformer và hệ mặt trời

Team research thử nghiệm với một transformer được train trên 10 triệu hệ mặt trời. Nó dự đoán quỹ đạo hành tinh thì chuẩn khỏi bàn. Nhưng khi fine-tune để dự đoán lực hấp dẫn (force vector) trên một dataset nhỏ của các hành tinh trong hệ mặt trời, nó fail.

Cụ thể hơn họ lấy một dataset nhỏ, chỉ vài hành tinh, yêu cầu model tính lực hấp dẫn giữa chúng. Nếu model hiểu định luật Newton, nó phải làm được dễ dàng. Nhưng transformer dự đoán sai bét, kiểu như nó không nắm được quy luật vật lý cơ bản.

Tệ hơn, khi team scale up, fine-tune trên 10.000 hệ mặt trời khác nhau và dùng symbolic regression để so sánh, model không những không tìm ra định luật Newton mà còn đưa ra mấy cái “luật” vớ vẩn, mỗi hệ mặt trời một kiểu.

Còn LLM thì sao?

Mô hình Ngôn ngữ Lớn (LLM) là các mô hình học sâu được đào tạo trên dữ liệu văn bản khổng lồ. Các mô hình ngôn ngữ với hàng tỷ (hoặc hơn) tham số, được đào tạo trên dữ liệu văn bản rộng lớn, chẳng hạn như các mô hình GPT-3, PaLM, Galactica và LLaMA, thường trải qua quá trình đào tạo tự giám sát hoặc bán giám sát.

Team thử các model xịn như o3, Claude Sonnet 4, Gemini 2.5 Pro. Đưa cho chúng vài giá trị lực trong context, không nói rõ là lực gì, rồi yêu cầu đoán các lực còn lại. Dù các model này được train trên tài liệu về định luật Newton, chúng vẫn đoán sai.

Ví dụ: đưa cho model vài con số về lực giữa hai hành tinh, kiểu như “lực này là 10N, lực kia là 20N”. Model không nối được các điểm để tìm ra quy luật F = Gm1m2/r^2. Nó cứ đoán bừa, như kiểu học vẹt mà không hiểu gì.

Chuyện bên lề: Othello và sai lầm của model

Team còn thử với bài toán khác, như Othello (game cờ). Train model để đoán nước đi tiếp theo. Model làm tốt, đoán đúng nước đi hợp lệ. Nhưng khi yêu cầu nó tái hiện lại bàn cờ, nó lại sai be bét.

Cụ thể model hay lẫn lộn giữa các trạng thái bàn cờ khác nhau. Vd hai bàn cờ Othello trông hoàn toàn khác, nhưng nếu nước đi tiếp theo đều là “đặt quân ở ô C4”, model sẽ nghĩ các trạng thái bàn cờ này giống nhau, dù cấu trúc bàn cờ khác xa.

Điều này cho thấy model không xây dựng world model rõ ràng. Nó chỉ học đủ giỏi để đoán đúng bước tiếp theo, chứ không hiểu cấu trúc sâu xa của vấn đề.

Mamba và các model khác

Team thử thêm với các bài toán dạng lưới (gridworld). Với số trạng thái nhỏ, inductive bias của model khá ổn. Nhưng khi số trạng thái tăng lên, bias bắt đầu tệ đi.

Thú vị là các model như Mamba (recurrent hoặc state-space model) lại có inductive bias tốt hơn transformer. Có lẽ vì chúng xử lý sequence theo cách khác, ít bị lẫn lộn giữa các trạng thái hơn.

Tóm lại

1. Inductive bias probe là cách hay để nhìn sâu vào world model của AI. Bias tốt nghĩa là world model tốt.

2. AI có thể dự đoán siêu chuẩn mà vẫn có world model tệ, vì nó chỉ học bề mặt, không hiểu quy luật sâu xa.

3. Một lý do model tệ: chúng hay lẫn lộn các trạng thái khác nhau nếu chúng có cùng “bước tiếp theo” hợp lệ.

Năm ngoái, team này test model trên các task đơn lẻ. Năm nay họ đề xuất để đánh giá foundation model, phải xem nó xử lý task mới thế nào. Đó là sự khác biệt giữa Newton và Kepler.

Xem thêm World Model là gì?

Kết

Câu chuyện này giống như một dev xây app chỉ để pass test case, nhưng không hiểu logic sâu xa. App chạy được, nhưng hỏi gì ngoài test case là toang. AI cũng thế. Dự đoán tốt không có nghĩa là hiểu sâu. Muốn AI giống Newton, con đường phía trước còn dài.

(cre: Hwang)

Leave a Reply

Your email address will not be published. Required fields are marked *