Deepseek: Gã khổng lồ thầm lặng dẫn đầu cuộc đua AI của Trung Quốc, bài phỏng vấn của MediaTalk, ngày 27 tháng 11 năm 2024. Chỉ trong một đêm, DeepSeek trở thành cái tên ‘nóng’ nhất giới công nghệ toàn cầu. Liang Wenfeng (Lương Văn Phong), cổ đông nắm quyền kiểm soát DeepSeek, đã theo đuổi AI nhiều năm và luôn thúc đẩy ứng dụng công nghệ này trong kinh doanh.
Deepseek là một startup AI của Trung Quốc có mô hình R1 mới nhất đã đánh bại o1 của OpenAI trên nhiều benchmark về khả năng suy luận. Mặc dù ít được biết đến, Deepseek là phòng lab AI Trung Quốc đáng chú ý nhất.
Trước Deepseek, dự án kinh doanh chính của CEO Lương Văn Phong (Liang Wenfeng) là High-Flyer, một trong 4 quỹ đầu cơ định lượng hàng đầu Trung Quốc, được định giá gần đây nhất là 8 tỷ đô la. Deepseek được High-Flyer tài trợ hoàn toàn và không có kế hoạch huy động vốn. Họ tập trung xây dựng công nghệ nền tảng và ít quan tâm phát triển các ứng dụng thương mại. DeepSeek cam kết mở mã nguồn tất cả các mô hình của họ. Một mình DeepSeek đã khơi mào cuộc chiến giá ở Trung Quốc bằng cách đưa ra mức giá API rất thấp. Mặc dù vậy, Deepseek có thể đủ khả năng để tiếp tục cuộc chơi mở rộng quy mô: sau khi được cấp quyền truy cập vào các cụm máy tính của High-Flyer, Dylan Patel ước tính họ có “hơn 50 nghìn GPU Hopper”, sức mạnh tính toán lớn hơn nhiều so với con số 10 nghìn A100 mà họ công khai thừa nhận.
Chiến lược của Deepseek dựa trên tham vọng xây dựng AGI (trí tuệ nhân tạo tổng quát). Không giống như những cách tiếp cận trước đây về chủ đề này, tuyên bố sứ mệnh của Deepseek không đề cập đến sự an toàn, cạnh tranh hoặc lợi ích cho nhân loại, mà chỉ “giải mã bí ẩn của AGI bằng sự tò mò”. Theo đó, phòng lab đã tập trung cao độ vào nghiên cứu các đổi mới về kiến trúc và thuật toán có khả năng thay đổi cuộc chơi.
Deepseek đã đạt được một loạt đột phá kỹ thuật ấn tượng. Trước R1-Lite-Preview, họ đã có một bề dày thành tích chiến thắng: các cải tiến về kiến trúc như multi-head latent attention (MLA) và sparse mixture-of-experts (DeepseekMoE) đã giảm chi phí suy luận đến mức kích hoạt một cuộc chiến giá giữa các nhà phát triển Trung Quốc. Trong khi đó, mô hình coding của Deepseek được đào tạo trên các kiến trúc này đã vượt trội hơn các đối thủ mã nguồn mở như GPT4-Turbo ra mắt vào tháng 7.
Bước đầu tiên để hiểu rõ điều gì đang diễn ra tại Deepseek, chúng tôi đã dịch một cuộc phỏng vấn hiếm hoi, chuyên sâu với CEO Lương Văn Phong, ban đầu được đăng tải vào tháng 7 vừa qua trên một thương hiệu con của 36Kr. Cuộc phỏng vấn này chứa đựng một số insight sâu sắc về:
- Tham vọng AGI của DeepSeek ảnh hưởng đến chiến lược nghiên cứu của họ như thế nào
- Tại sao họ coi mã nguồn mở là chiến lược chủ đạo và tại sao họ lại khơi mào cuộc chiến giá
- Cách tuyển dụng và tổ chức các nhà nghiên cứu để tận dụng nhân tài trẻ trong nước tốt hơn nhiều so với các phòng lab khác đã vung tiền vào việc chiêu mộ nhân tài hồi hương
- Tại sao các công ty Trung Quốc hài lòng với việc sao chép và thương mại hóa thay vì “đổi mới cốt lõi” trong khi Lương Văn Phong hy vọng Deepseek sẽ khơi dậy nhiều “đổi mới cốt lõi” hơn trên khắp nền kinh tế Trung Quốc như thế nào.
Xem thêm Vì sao DeepSeek lại gây chấn động thế giới?
Khám phá DeepSeek: Câu chuyện về chủ nghĩa lý tưởng công nghệ Trung Quốc
Trong số bảy startup mô hình lớn của Trung Quốc, DeepSeek là kín tiếng nhất — nhưng họ luôn tìm cách gây ấn tượng theo những cách bất ngờ.
Một năm trước, sự bất ngờ này đến từ việc họ được hậu thuẫn bởi High-Flyer, quỹ đầu tư định lượng, khiến họ trở thành công ty duy nhất không phải là gã khổng lồ công nghệ lớn sở hữu 10.000 chip A100 dự trữ. Một năm sau, họ được biết đến là chất xúc tác cho cuộc chiến giá mô hình AI ở Trung Quốc.
Vào tháng 5, giữa bối cảnh phát triển AI liên tục, DeepSeek bất ngờ nổi lên. Lý do là họ đã phát hành một mô hình mã nguồn mở có tên DeepSeek V2, cung cấp tỷ lệ giá/hiệu suất chưa từng có: chi phí suy luận giảm xuống chỉ còn 1 Nhân dân tệ (RMB) cho mỗi triệu token, bằng khoảng một phần bảy chi phí của Llama3 70B và một phần bảy mươi chi phí của GPT-4 Turbo.
DeepSeek nhanh chóng được mệnh danh là “Pinduoduo của AI”, và các gã khổng lồ công nghệ lớn khác như ByteDance, Tencent, Baidu và Alibaba không thể khoanh tay đứng nhìn, lần lượt giảm giá của họ. Một cuộc chiến giá cho các mô hình lớn ở Trung Quốc đã trở nên cận kề.
Làn khói chiến tranh lan tỏa trên thị trường này thực sự che giấu một sự thật: không giống như nhiều công ty lớn đốt tiền và sống nhờ trợ cấp của chính phủ, DeepSeek có lợi nhuận.
Thành công này bắt nguồn từ sự đổi mới toàn diện của DeepSeek trong kiến trúc mô hình. Họ đề xuất một kiến trúc MLA mới lạ, giúp giảm mức sử dụng bộ nhớ xuống 5-13% so với kiến trúc MHA thường dùng. Ngoài ra, cấu trúc DeepSeekMoESparse nguyên bản của họ đã giảm chi phí tính toán, dẫn đến giảm chi phí tổng thể.
Tại Thung lũng Silicon, DeepSeek được biết đến với cái tên “lực lượng bí ẩn đến từ phương Đông”.
Chuyên gia phân tích trưởng của SemiAnalysis tin rằng bài báo về DeepSeek V2 “có thể là bài báo hay nhất trong năm”. Andrew Carr, cựu nhân viên OpenAI, nhận thấy bài báo “chứa đầy trí tuệ đáng kinh ngạc”, và đã áp dụng thiết lập đào tạo của nó cho các mô hình của riêng mình. Và Jack Clark, cựu trưởng bộ phận chính sách tại OpenAI và đồng sáng lập Anthropic, tin rằng DeepSeek “đã thuê một nhóm thiên tài khó dò”, đồng thời nói thêm rằng các mô hình lớn được tạo ra ở Trung Quốc “sẽ là một thế lực không thể xem thường như máy bay không người lái và xe điện”.
Trong làn sóng AI — nơi câu chuyện phần lớn được dẫn dắt bởi Thung lũng Silicon — đây là một sự kiện hiếm hoi. Một số người trong ngành nói với chúng tôi rằng phản ứng mạnh mẽ này bắt nguồn từ sự đổi mới ở cấp độ kiến trúc, điều mà các công ty mô hình lớn trong nước và thậm chí cả các mô hình quy mô lớn mã nguồn mở toàn cầu ít khi quan tâm. Một nhà nghiên cứu AI cho biết kiến trúc Attention hầu như không được sửa đổi kể từ ngày ra đời. “Ý tưởng nâng cấp kiến trúc Attention sẽ bị dập tắt ngay ở giai đoạn ra quyết định, vì hầu hết mọi người đều thiếu tin tưởng vào thành công”.
Mặt khác, các mô hình lớn trong nước hiếm khi thử nghiệm đổi mới ở cấp độ kiến trúc trước đây, một phần là do niềm tin phổ biến rằng người Mỹ vượt trội trong đổi mới nền tảng, trong khi người Trung Quốc vượt trội trong đổi mới ứng dụng. Hơn nữa, loại hành vi này rất không có lợi nhuận — xét cho cùng, một thế hệ mô hình mới chắc chắn sẽ xuất hiện sau vài tháng, vì vậy các công ty Trung Quốc chỉ cần đi theo và tập trung vào các ứng dụng xây trên các mô hình mới. Đổi mới kiến trúc mô hình có nghĩa là đi vào ngõ cụt, đồng nghĩa với nhiều thất bại và chi phí thời gian và kinh tế đáng kể.
DeepSeek rõ ràng đang đi ngược lại xu hướng. Giữa sự ồn ào rằng công nghệ mô hình lớn chắc chắn sẽ hội tụ và việc đi theo là một lối tắt thông minh hơn, DeepSeek coi trọng những bài học tích lũy được thông qua “đường vòng”, và tin rằng các doanh nhân mô hình lớn Trung Quốc có thể tham gia vào đổi mới công nghệ toàn cầu thay vì chỉ đổi mới ứng dụng đơn thuần.
Nhiều lựa chọn của DeepSeek khác với thông lệ. Cho đến nay, trong số bảy startup mô hình lớn chính của Trung Quốc, họ là công ty duy nhất từ bỏ cách tiếp cận “muốn tất cả”, họ chỉ tập trung vào nghiên cứu và công nghệ, không có các ứng dụng hướng đến người tiêu dùng. Họ cũng là công ty duy nhất chưa nghĩ nhiều đến việc thương mại hóa, kiên quyết chọn con đường mã nguồn mở mà vẫn không thèm huy động vốn. Mặc dù những lựa chọn này thường khiến họ ít được biết đến, nhưng DeepSeek thường xuyên nhận được sự quảng bá hữu cơ từ người dùng trong cộng đồng.
DeepSeek đã đạt được tất cả những điều này như thế nào? Chúng tôi đã phỏng vấn người sáng lập DeepSeek hiếm khi xuất hiện, Lương Văn Phong, để tìm hiểu.
Triết lý khác người của ông chủ DeepSeek
Nhà sáng lập thuộc thế hệ 8x, người đã làm việc âm thầm trong lĩnh vực công nghệ từ thời High-Flyer, tiếp tục phong cách kín tiếng của mình trong kỷ nguyên DeepSeek — “đọc bài báo khoa học, viết mã và tham gia thảo luận nhóm” mỗi ngày, giống như mọi nhà nghiên cứu khác.
Và không giống như nhiều nhà sáng lập quỹ định lượng — những người có kinh nghiệm quỹ đầu cơ ở nước ngoài và bằng cấp về vật lý hoặc toán học — Lương Văn Phong luôn duy trì nền tảng trong nước: trong những năm đầu, anh học trí tuệ nhân tạo tại Khoa Điện tử của Đại học Chiết Giang.
Nhiều người trong ngành và các nhà nghiên cứu DeepSeek nói với chúng tôi rằng Lương Văn Phong là một người rất hiếm có trong ngành công nghiệp AI của Trung Quốc — một người “vừa có khả năng kỹ thuật hạ tầng và mô hình hóa tốt, vừa có khả năng huy động nguồn lực”, anh ấy “có thể đưa ra những đánh giá tổng quan chính xác, đồng thời nắm rõ chi tiết hơn các nhà nghiên cứu tuyến đầu”. Anh ấy có “khả năng học đáng kinh ngạc”, và đồng thời, anh “hoàn toàn không giống một ông chủ mà giống một người lập dị hơn.”
Đây là một cuộc phỏng vấn đặc biệt hiếm hoi. Tại đây, con người theo chủ nghĩa lý tưởng công nghệ này đưa ra một tiếng nói đặc biệt hiếm trong thế giới công nghệ Trung Quốc: anh là một trong số ít người coi “đúng và sai” quan trọng hơn “lợi nhuận và thua lỗ”, người nhắc nhở chúng ta nhìn nhận sức ỳ của thời đại, và người đặt “đổi mới độc đáo” lên thành mối quan tâm hàng đầu.
Một năm trước, khi DeepSeek lần đầu tiên ra mắt thị trường, chúng tôi đã phỏng vấn Lương Văn Phong: “High-Flyer điên rồ: Con đường đến mô hình lớn của một gã khổng lồ AI ẩn mình”. Nếu cụm từ “nhất định phải ôm ấp tham vọng điên rồ và cũng phải điên rồ chân thành” chỉ đơn thuần là một khẩu hiệu đẹp vào thời điểm đó, thì một năm sau, nó đã trở thành hành động.
Phần 1: Phát súng đầu tiên của cuộc chiến giá được khai hỏa như thế nào?
Waves: Sau khi DeepSeek V2 ra mắt, nó đã nhanh chóng kích hoạt một cuộc chiến giá khốc liệt trên thị trường mô hình lớn. Một số người nói rằng ông đã trở thành người nổi loạn trong ngành.
Lương Văn Phong: Chúng tôi không có ý định trở thành người nổi loạn — chúng tôi chỉ vô tình trở thành người nổi loạn (nguyên văn ‘catfish’ tượng trưng cho những kẻ phá rối thị trường do bản chất ăn thịt đồng loại của chúng).
Waves: Kết quả này có phải là một bất ngờ đối với ông không?
Lương Văn Phong: Rất bất ngờ. Chúng tôi không ngờ rằng giá lại nhạy cảm với mọi người đến vậy. Chúng tôi chỉ làm mọi thứ theo tốc độ của riêng mình và sau đó tính toán và đặt giá. Nguyên tắc của chúng tôi là chúng tôi không bán lỗ mà cũng như không kiếm lợi nhuận cắt cổ. Mức giá này mang lại cho chúng tôi một biên lợi nhuận nhỏ so với chi phí.
Waves: Zhipu AI đã làm theo cách này năm ngày sau đó, tiếp theo là ByteDance, Alibaba, Baidu, Tencent và các công ty lớn khác.
Lương Văn Phong: Zhipu AI giảm giá một sản phẩm cấp thấp, trong khi các mô hình của họ có thể so sánh với mô hình của chúng tôi vẫn đắt. ByteDance thực sự là công ty đầu tiên làm theo, giảm giá mô hình chủ lực của họ để phù hợp với giá của chúng tôi, điều này sau đó đã kích hoạt các gã khổng lồ công nghệ khác giảm giá. Vì chi phí mô hình của các công ty lớn cao hơn nhiều so với chúng tôi, chúng tôi chưa bao giờ nghĩ rằng họ sẽ chịu lỗ để giảm giá, nhưng cuối cùng nó đã biến thành thói quen đốt tiền trợ cấp quen thuộc của kỷ nguyên internet.
Waves: Từ bên ngoài, việc cắt giảm giá trông giống như một cuộc đua giành người dùng, thường là trường hợp trong các cuộc chiến giá thời internet.
Lương Văn Phong: Lôi kéo người dùng không phải là mục đích chính của chúng tôi. Chúng tôi cắt giảm giá vì một mặt, chi phí của chúng tôi giảm khi tìm ra các kiến trúc mô hình thế hệ tiếp theo, và mặt khác, chúng tôi cũng cảm thấy rằng cả API và AI cần có giá phải chăng cho tất cả mọi người tiếp cận AI.
Waves: Trước đây, hầu hết các công ty Trung Quốc sẽ sao chép trực tiếp kiến trúc Llama thế hệ hiện tại cho các ứng dụng. Tại sao ông lại bắt đầu từ cấu trúc mô hình?
Lương Văn Phong: Nếu mục tiêu là tạo ra các ứng dụng, thì việc sử dụng cấu trúc Llama để triển khai sản phẩm nhanh chóng là hợp lý. Nhưng đích đến của chúng tôi là AGI, có nghĩa là chúng tôi cần nghiên cứu các cấu trúc mô hình mới để hiện thực hóa khả năng mô hình mạnh mẽ hơn với nguồn lực hạn chế. Đây là một trong những lĩnh vực nghiên cứu cơ bản cần thiết để mở rộng quy mô lên các mô hình lớn hơn. Và ngoài cấu trúc mô hình, chúng tôi đã thực hiện nghiên cứu sâu rộng trong các lĩnh vực khác, bao gồm xây dựng dữ liệu và làm cho mô hình giống con người hơn — tất cả đều được phản ánh trong các mô hình mà chúng tôi đã phát hành. Ngoài ra, cấu trúc của Llama, về hiệu quả đào tạo và chi phí suy luận, ước tính có khoảng cách hai thế hệ so với trình độ tiên tiến quốc tế về hiệu quả đào tạo và chi phí suy luận.
Waves: Khoảng cách thế hệ này chủ yếu đến từ đâu?
Lương Văn Phong: Trước hết, có một khoảng cách về hiệu quả đào tạo. Chúng tôi ước tính rằng so với trình độ quốc tế tốt nhất, khả năng tốt nhất của Trung Quốc có thể có khoảng cách gấp đôi về cấu trúc mô hình và training dynamics — có nghĩa là chúng tôi phải tiêu thụ gấp đôi sức mạnh tính toán để đạt được kết quả tương tự. Ngoài ra, cũng có thể có khoảng cách gấp đôi về hiệu quả dữ liệu, nghĩa là chúng tôi phải tiêu thụ gấp đôi dữ liệu đào tạo và sức mạnh tính toán để đạt được kết quả tương tự. Kết hợp lại, cần sức mạnh tính toán gấp bốn lần. Những gì chúng tôi đang cố gắng làm là tiếp tục thu hẹp những khoảng cách này.
Waves: Hầu hết các công ty Trung Quốc chọn cả mô hình và ứng dụng. Tại sao DeepSeek lại chọn chỉ tập trung vào nghiên cứu và khám phá?
Lương Văn Phong: Bởi vì chúng tôi tin rằng điều quan trọng nhất hiện nay là tham gia vào làn sóng đổi mới toàn cầu. Trong nhiều năm, các công ty Trung Quốc đã quen với việc người khác thực hiện đổi mới công nghệ, trong khi chúng tôi tập trung vào việc kiếm tiền từ ứng dụng — nhưng điều này không phải là bắt buộc. Trong làn sóng này, điểm khởi đầu của chúng tôi không phải là tận dụng cơ hội để kiếm lợi nhuận nhanh chóng, mà là đạt đến đỉnh cao kỹ thuật và thúc đẩy sự phát triển của toàn bộ hệ sinh thái.
Waves: Kỷ nguyên Internet và Internet di động đã khiến hầu hết mọi người tin rằng Hoa Kỳ vượt trội trong đổi mới công nghệ, trong khi Trung Quốc vượt trội trong việc tạo ra các ứng dụng.
Lương Văn Phong: Chúng tôi tin rằng khi nền kinh tế phát triển, Trung Quốc nên dần dần trở thành một người đóng góp thay vì ăn theo. Trong hơn 30 năm qua của làn sóng CNTT, về cơ bản chúng ta đã không tham gia vào đổi mới công nghệ thực sự. Chúng ta đã quen với việc Định luật Moore từ trên trời rơi xuống, nằm ở nhà chờ đợi 18 tháng để phần cứng và phần mềm tốt hơn xuất hiện. Đó là cách ứng xử phổ biến với Scaling Law.
Nhưng trên thực tế, đây là điều đã được tạo ra thông qua những nỗ lực không mệt mỏi của nhiều thế hệ cộng đồng công nghệ do phương Tây dẫn đầu. Chỉ là vì trước đây chúng ta không tham gia vào quá trình này nên chúng ta đã bỏ qua sự tồn tại của nó.
Phần 2: Khoảng cách thực sự không phải là một hoặc hai năm. Mà là giữa đổi mới độc đáo và bắt chước.
Waves: Tại sao DeepSeek V2 lại gây bất ngờ cho rất nhiều người ở Thung lũng Silicon?
Lương Văn Phong: Trong số vô số đổi mới đang diễn ra hàng ngày ở Hoa Kỳ, đây là điều khá bình thường. Họ ngạc nhiên vì đó là một công ty Trung Quốc tham gia vào cuộc chơi của họ với tư cách là một người đóng góp đổi mới. Xét cho cùng, hầu hết các công ty Trung Quốc đã quen với việc đi theo, không phải đổi mới.
Waves: Nhưng việc chọn đổi mới trong bối cảnh Trung Quốc là một quyết định rất xa xỉ. Các mô hình lớn là một cuộc chơi đầu tư tốn kém, và không phải công ty nào cũng có vốn để chỉ nghiên cứu và đổi mới thay vì nghĩ đến thương mại hóa trước tiên.
Lương Văn Phong: Chi phí đổi mới chắc chắn không hề thấp, và xu hướng vay mượn bừa bãi trong quá khứ cũng liên quan đến điều kiện trước đây của Trung Quốc. Nhưng bây giờ bạn thấy đấy, cho dù đó là quy mô kinh tế của Trung Quốc, hay lợi nhuận của những gã khổng lồ như ByteDance và Tencent — không có gì là thấp so với tiêu chuẩn toàn cầu. Điều chúng ta thiếu trong đổi mới chắc chắn không phải là vốn, mà là sự thiếu tự tin và kiến thức về cách tổ chức nhân tài mật độ cao để đổi mới hiệu quả.
Waves: Tại sao các công ty Trung Quốc —gồm cả các gã khổng lồ công nghệ khổng lồ — mặc định thương mại hóa nhanh chóng là ưu tiên số 1 của họ?
Lương Văn Phong: Trong 30 năm qua, chúng ta chỉ nhấn mạnh đến việc kiếm tiền mà bỏ qua đổi mới. Đổi mới không nhất thiết phải gắn với kinh doanh; nó cũng đòi hỏi sự tò mò và mong muốn sáng tạo. Chúng ta chỉ bị ràng buộc bởi những thói quen cũ, nhưng điều này gắn liền với một giai đoạn kinh tế cụ thể.
Waves: Nhưng xét cho cùng, ông là một tổ chức kinh doanh, không phải là một tổ chức nghiên cứu vì lợi ích công cộng — vậy ông xây dựng lợi thế cạnh tranh của mình ở đâu khi chọn đổi mới và sau đó mở mã nguồn các đổi mới của mình? Kiến trúc MLA mà ông phát hành vào tháng 5 sẽ không bị sao chép nhanh chóng bởi những người khác sao?
Lương Văn Phong: Đối mặt với các công nghệ đột phá, lợi thế cạnh tranh được tạo ra bởi mã nguồn đóng chỉ là tạm thời. Ngay cả cách tiếp cận mã nguồn đóng của OpenAI cũng không thể ngăn cản người khác tiến bộ. Vì vậy, giá trị chúng tôi nằm ở đội ngũ của mình — các đồng nghiệp của chúng tôi trưởng thành thông qua quá trình này, tích lũy bí quyết và hình thành một tổ chức và văn hóa có khả năng đổi mới. Đó là lợi thế cạnh tranh của chúng tôi.
Mã nguồn mở, xuất bản bài báo khoa học, trên thực tế, không tốn kém gì cho chúng tôi. Đối với nhân tài kỹ thuật, việc những người khác đi theo sự đổi mới của bạn mang lại cảm giác thành công lớn lao. Trên thực tế, mã nguồn mở mang tính văn hóa hơn là thương mại, và việc đóng góp cho nó giúp chúng tôi nhận được sự tôn trọng. Cũng có một sức hút văn hóa đối với một công ty khi làm điều này.
Waves: Ông nghĩ gì về những người tin vào thị trường, như Zhu Xiaohu của GSR Ventures?
Lương Văn Phong: Zhu Xiaohu nhất quán về mặt logic, nhưng phong cách chơi của ông phù hợp hơn với các công ty kiếm tiền nhanh chóng. Và nếu bạn nhìn vào các công ty có lợi nhuận cao nhất của Mỹ, tất cả đều là các công ty công nghệ cao đã tích lũy được nền tảng kỹ thuật sâu rộng trước khi tạo ra những đột phá lớn.
Waves: Nhưng khi nói đến các mô hình lớn, sự dẫn đầu kỹ thuật thuần túy hiếm khi tạo thành một lợi thế tuyệt đối. Ông đang đặt cược vào điều gì lớn hơn?
Lương Văn Phong: Điều chúng tôi thấy là AI Trung Quốc không thể ở vị thế đi theo mãi mãi. Chúng ta thường nói rằng có một khoảng cách một hoặc hai năm giữa AI Trung Quốc và Hoa Kỳ, nhưng khoảng cách thực sự là sự khác biệt giữa tính độc đáo và sự bắt chước. Nếu điều này không thay đổi, Trung Quốc sẽ luôn chỉ là một người đi theo — vì vậy cần phải khám phá cái mới.
Sự dẫn đầu của Nvidia không chỉ là nỗ lực của một công ty, mà là kết quả của toàn bộ cộng đồng kỹ thuật và ngành công nghiệp phương Tây cùng nhau làm việc. Họ nhìn thấy xu hướng công nghệ thế hệ tiếp theo và có một lộ trình trong tay. Sự phát triển AI của Trung Quốc cần một hệ sinh thái như vậy. Sự phát triển chip trong nước gặp khó khăn vì họ thiếu các cộng đồng kỹ thuật hỗ trợ và chỉ có thông tin thứ cấp. Trung Quốc chắc chắn cần những người có trình độ kỹ thuật đỉnh cao.
Phần 3: Đầu tư nhiều hơn không đồng nghĩa với đổi mới hơn
Waves: DeepSeek, hiện tại, có một hào quang lý tưởng gợi nhớ đến những ngày đầu của OpenAI, và thời điểm họ còn là mã nguồn mở. Ông có thay đổi sang mã nguồn đóng sau này không? Cả OpenAI và Mistral đều chuyển từ mã nguồn mở sang mã nguồn đóng.
Lương Văn Phong: Chúng tôi sẽ không thay đổi sang mã nguồn đóng. Chúng tôi tin rằng việc có một hệ sinh thái kỹ thuật mạnh mẽ trước tiên quan trọng hơn.
Waves: Ông có kế hoạch tài chính nào không? Tôi thấy các báo cáo truyền thông nói rằng High-Flyer có kế hoạch tách DeepSeek ra để IPO. Các startup AI ở Thung lũng Silicon cuối cũng sẽ trở thành các công ty lớn.
Lương Văn Phong: Chúng tôi không có kế hoạch tài chính trong thời gian ngắn. Tiền chưa bao giờ là vấn đề đối với chúng tôi; lệnh cấm chip tiên tiến mới là vấn đề.
Waves: Nhiều người tin rằng phát triển AGI và tài chính định lượng là những nỗ lực hoàn toàn khác nhau. Tài chính định lượng có thể được theo đuổi một cách thầm lặng, nhưng AGI có thể đòi hỏi một cách tiếp cận công khai và táo bạo, hình thành các liên minh để khuếch đại các khoản đầu tư.
Lương Văn Phong: Đầu tư nhiều hơn không đồng nghĩa với đổi mới hơn. Nếu không, các công ty lớn đã độc quyền tất cả sự đổi mới rồi.
Waves: Ông không tập trung vào các ứng dụng ngay bây giờ có phải vì ông thiếu chuyên môn vận hành không?
Lương Văn Phong: Chúng tôi tin rằng giai đoạn hiện tại là giai đoạn tăng trưởng bùng nổ về đổi mới công nghệ, không phải về ứng dụng. Về lâu dài, chúng tôi hy vọng sẽ tạo ra một hệ sinh thái nơi ngành công nghiệp trực tiếp sử dụng công nghệ và đầu ra của chúng tôi. Trọng tâm của chúng tôi sẽ vẫn là các mô hình nền tảng và đổi mới tiên tiến, trong khi các công ty khác có thể xây dựng các doanh nghiệp B2B và B2C dựa trên nền tảng của DeepSeek. Nếu một chuỗi giá trị ngành hoàn chỉnh có thể được thiết lập, chúng tôi không cần phải tự phát triển các ứng dụng. Tất nhiên, nếu cần, không có gì ngăn cản chúng tôi tạo các ứng dụng, nhưng nghiên cứu và đổi mới công nghệ sẽ luôn là ưu tiên hàng đầu của chúng tôi.
Waves: Nhưng khi khách hàng chọn API, tại sao họ nên chọn DeepSeek thay vì các dịch vụ từ các công ty lớn hơn?
Lương Văn Phong: Thế giới tương lai có khả năng sẽ là một thế giới phân công lao động chuyên biệt. Các mô hình lớn nền tảng đòi hỏi sự đổi mới liên tục, và các công ty lớn có giới hạn về khả năng của họ, điều này có thể không nhất thiết khiến họ trở thành lựa chọn phù hợp nhất.
Waves: Nhưng bản thân công nghệ có thực sự tạo ra một khoảng cách đáng kể không? Ông cũng đã đề cập rằng không có bí mật công nghệ tuyệt đối nào.
Lương Văn Phong: Không có bí mật nào trong công nghệ, nhưng việc sao chép đòi hỏi thời gian và chi phí. Về lý thuyết, card đồ họa của Nvidia không có bí mật công nghệ nào và dễ sao chép. Tuy nhiên, việc xây dựng một đội ngũ từ đầu và bắt kịp với thế hệ công nghệ tiếp theo cần có thời gian, vì vậy lợi thế cạnh tranh thực tế vẫn còn khá lớn.
Waves: Một khi DeepSeek hạ giá, ByteDance đã làm theo, điều này cho thấy họ cảm thấy một mức độ đe dọa nhất định. Ông nhìn nhận như thế nào về các cách tiếp cận cạnh tranh mới giữa các startup và các công ty lớn?
Lương Văn Phong: Thành thật mà nói, chúng tôi không thực sự quan tâm, vì đó chỉ là một trong những điều chúng tôi làm khi đi theo lộ trình phát triển của công ty. Cung cấp dịch vụ đám mây không phải là mục tiêu chính của chúng tôi. Mục tiêu cuối cùng của chúng tôi vẫn là đạt được AGI.
Hiện tại, tôi không thấy bất kỳ cách tiếp cận mới nào, nhưng các công ty lớn không có lợi thế rõ ràng. Các công ty lớn có khách hàng hiện tại tạo ra dòng tiền cho họ nhưng cũng là gánh nặng họ phải phục vụ, và điều này khiến họ dễ bị vượt qua bất cứ lúc nào.
Waves: Ông thấy kết cục của sáu startup mô hình lớn khác là gì?
Lương Văn Phong: Hai hoặc ba công ty có thể sống sót. Tất cả họ đều đang trong giai đoạn “đốt tiền” ngay bây giờ, vì vậy những người có định vị bản thân rõ ràng và điều chỉnh hoạt động tốt hơn có cơ hội thành công cao hơn. Các công ty khác có thể trải qua những chuyển đổi đáng kể. Những thứ có giá trị sẽ không đơn giản biến mất mà thay vào đó sẽ mang một hình thức khác.
Waves: Cách tiếp cận cạnh tranh của High-Flyer đã được mô tả là “không hề lay chuyển”, vì nó ít chú ý đến cạnh tranh với các đối thủ. Điểm khởi đầu của ông khi nghĩ về cạnh tranh là gì?
Lương Văn Phong: Điều tôi thường nghĩ đến là liệu một điều gì đó có thể cải thiện hiệu quả hoạt động của xã hội hay không, và liệu bạn có thể tìm thấy một điểm mạnh trong chuỗi công nghiệp hay không. Miễn là mục tiêu cuối cùng là làm cho xã hội hiệu quả hơn, thì điều đó là cần làm. Nhiều thứ ở giữa chỉ là các giai đoạn tạm thời, và việc tập trung quá nhiều vào chúng có thể dẫn đến nhầm lẫn.
Phần 4: Một nhóm thanh niên làm những việc khó
Waves: Jack Clark, cựu giám đốc chính sách tại OpenAI và đồng sáng lập Anthropic, nói rằng DeepSeek đã thuê “những phù thủy bí ẩn”. Kiểu người nào đang làm ở DeepSeek V2?
Lương Văn Phong: Không có phù thủy nào cả. Chúng tôi chủ yếu là sinh viên mới tốt nghiệp từ các trường đại học hàng đầu, nghiên cứu sinh tiến sĩ năm thứ tư hoặc thứ năm và một số người trẻ mới tốt nghiệp vài năm trước.
Waves: Nhiều công ty LLM bị ám ảnh bởi việc tuyển dụng nhân tài từ nước ngoài, và người ta thường nói rằng 50 nhân tài hàng đầu trong lĩnh vực này thậm chí có thể không làm việc cho các công ty Trung Quốc. Các thành viên trong nhóm của ông đến từ đâu?
Lương Văn Phong: Đội ngũ đằng sau mô hình V2 không bao gồm bất kỳ ai trở về Trung Quốc từ nước ngoài — tất cả đều là người địa phương. 50 chuyên gia hàng đầu có thể không ở Trung Quốc, nhưng có lẽ chúng tôi có thể tự đào tạo những nhân tài như vậy.
Waves: Đổi mới MLA này đã ra đời như thế nào? Tôi nghe nói ý tưởng này bắt nguồn từ sở thích cá nhân của một nhà nghiên cứu trẻ?
Lương Văn Phong: Sau khi tóm tắt một số xu hướng phát triển chủ đạo của cơ chế chú ý, anh ấy chỉ nghĩ đến việc thiết kế một giải pháp thay thế. Tuy nhiên, việc biến ý tưởng thành hiện thực là một quá trình dài. Chúng tôi đã thành lập một đội đặc biệt cho việc này và mất nhiều tháng để làm cho nó hoạt động.
[Jordan: thực sự gợi nhớ đến đóng góp ban đầu của Alec Radford cho loạt GPT và nói lên luận điểm rộng hơn mà chúng tôi đã tranh luận trong quá khứ trên ChinaTalk rằng đổi mới thuật toán về cơ bản khác với việc đẩy mạnh giới hạn công nghệ trong các ngành ví dụ chế tạo chất bán dẫn. Thay vì cần bằng tiến sĩ và nhiều năm kinh nghiệm trong ngành để làm việc có kết quả, có thể đẩy xa giới hạn bằng cách mà chỉ cần 20 tuổi cộng thêm sự sắc sảo và khao khát (Trung Quốc có rất nhiều người như vậy!). Cuộc phỏng vấn của Dwarkesh với Sholto Douglass của OpenAI và Trenton Bricken của Anthropic minh họa rõ động lực này. Dwarkesh mở đầu bằng câu: “Noam Brown, người viết bài báo về game Diplomacy, đã nói điều này về Sholto: “cậu ta vừa mới tham gia lĩnh vực AI được 1,5 năm, nhưng những người trong ngành AI đều biết rằng cậu ta là một trong những người quan trọng nhất làm nên thành công của Gemini.””]
Waves: Sự xuất hiện của tư duy khác biệt như vậy dường như liên quan mật thiết đến cấu trúc tổ chức hướng đến đổi mới của ông. Trở lại kỷ nguyên High-Flyer, đội ngũ của ông hiếm khi giao mục tiêu hoặc nhiệm vụ từ trên xuống. Nhưng AGI liên quan đến khám phá tiên phong với nhiều điều không chắc chắn — điều đó có dẫn đến sự can thiệp quản lý nhiều hơn không?
Lương Văn Phong: DeepSeek vẫn hoàn toàn từ dưới lên. Nói chung, chúng tôi không xác định trước vai trò; thay vào đó, sự phân công lao động diễn ra một cách tự nhiên. Mỗi người có hành trình độc đáo của riêng mình, và họ mang theo ý tưởng, vì vậy không cần phải thúc ép bất kỳ ai. Trong khi chúng tôi khám phá, nếu ai đó thấy một vấn đề, họ sẽ tự nhiên thảo luận với người khác. Tuy nhiên, nếu một ý tưởng cho thấy tiềm năng, chúng tôi sẽ phân bổ nguồn lực từ trên xuống.
Waves: Tôi nghe nói rằng DeepSeek rất linh hoạt trong việc huy động các nguồn lực như GPU và con người.
Lương Văn Phong: Bất kỳ ai trong nhóm đều có thể truy cập GPU hoặc con người bất kỳ lúc nào. Nếu ai đó có một ý tưởng, họ có thể truy cập vào các training cluster cards bất cứ lúc nào mà không cần phê duyệt. Tương tự, vì chúng tôi không có hệ thống phân cấp hoặc các bộ phận riêng biệt, mọi người có thể cộng tác giữa các nhóm, miễn là có sự quan tâm lẫn nhau.
Waves: Phong cách quản lý lỏng lẻo như vậy dựa trên việc có những người có tính tự giác cao. Tôi nghe nói ông giỏi xác định nhân tài đặc biệt thông qua các tiêu chí đánh giá phi truyền thống.
Lương Văn Phong: Tiêu chuẩn tuyển dụng của chúng tôi luôn là niềm đam mê và sự tò mò. Nhiều thành viên trong nhóm của chúng tôi có những kinh nghiệm khác thường, và điều đó rất thú vị. Mong muốn nghiên cứu của họ thường đến trước việc kiếm tiền.
Waves: Transformers được sinh ra tại Phòng Lab AI của Google, và ChatGPT tại OpenAI. Ông so sánh giá trị của các đổi mới tại phòng lab AI của các công ty lớn so với các startup như thế nào?
Lương Văn Phong: Phòng Lab AI của Google, OpenAI và thậm chí cả phòng lab AI của các công ty công nghệ Trung Quốc đều vô cùng giá trị. Việc OpenAI thành công một phần là do một vài sự trùng hợp lịch sử.
Waves: Vậy, đổi mới phần lớn là vấn đề may mắn sao? Tôi nhận thấy rằng hàng giữa của các phòng họp trong văn phòng của ông có cửa ở cả hai bên mà bất kỳ ai cũng có thể mở. Các đồng nghiệp của ông nói rằng thiết kế này chừa chỗ cho các khám phá ngẫu hứng. Sự ra đời của transformers liên quan đến việc ai đó vô tình nghe được một cuộc thảo luận và tham gia nhóm, cuối cùng biến nó thành một framework chung.
Lương Văn Phong: Tôi tin rằng đổi mới bắt đầu bằng sự tin tưởng. Tại sao Thung lũng Silicon lại đổi mới đến vậy? Bởi vì họ dám làm mọi thứ. Khi ChatGPT ra mắt, cộng đồng công nghệ ở Trung Quốc thiếu tự tin vào đổi mới tiên phong. Từ các nhà đầu tư đến các công ty công nghệ lớn, tất cả họ đều nghĩ rằng khoảng cách là quá lớn và chọn tập trung vào các ứng dụng thay thế. Nhưng đổi mới bắt đầu bằng sự tự tin, điều mà chúng ta thường thấy nhiều hơn ở những người trẻ tuổi.
Waves: Nhưng ông không huy động vốn hoặc thậm chí nói chuyện với công chúng, vì vậy mức độ tên tuổi của ông thấp hơn so với các công ty tích cực huy động vốn. Làm thế nào ông đảm bảo DeepSeek vẫn là lựa chọn hàng đầu cho những người làm việc về LLM?
Lương Văn Phong: Bởi vì chúng tôi đang giải quyết những vấn đề khó khăn nhất. Nhân tài hàng đầu bị thu hút nhất bởi việc giải quyết những thách thức khó khăn nhất của thế giới. Trên thực tế, nhân tài hàng đầu ở Trung Quốc bị đánh giá thấp vì có quá ít đổi mới cốt lõi đang diễn ra ở cấp độ xã hội, khiến họ không được công nhận. Chúng tôi đang giải quyết những vấn đề khó khăn nhất, điều này khiến chúng tôi thu hút họ.
Waves: Khi bản phát hành mới nhất của OpenAI không mang đến GPT5, nhiều người cảm thấy rằng điều này cho thấy tiến bộ công nghệ đang chậm lại và bắt đầu đặt câu hỏi về Scaling Law. Ông nghĩ gì?
Lương Văn Phong: Chúng tôi tương đối lạc quan. Ngành công nghiệp của chúng ta nói chung dường như đang đáp ứng được kỳ vọng. OpenAI không phải là thần thánh, họ sẽ không nhất thiết phải luôn đi đầu.
Waves: Mất bao lâu nữa thì AGI sẽ được hiện thực hóa? Trước khi phát hành DeepSeek V2, ông đã có các mô hình cho toán học và tạo code và cũng đã chuyển từ dense models sang Mixture of Experts. Những điểm chính trong lộ trình AGI của ông là gì?
Lương Văn Phong: Có thể là hai, năm hoặc mười năm — trong mọi trường hợp, nó sẽ xảy ra trong đời chúng ta. Không có ý kiến thống nhất về lộ trình ngay cả trong công ty của chúng tôi. Điều đó nói rằng, chúng tôi đã đặt cược thực sự vào ba hướng. Thứ nhất là toán học và code, thứ hai là đa phương thức và thứ ba là ngôn ngữ tự nhiên.
Toán học và code là sân chơi thử nghiệm AGI tự nhiên, hơi giống cờ vây. Chúng là các hệ thống khép kín, có thể kiểm chứng, nơi AI có mức độ thông minh cao có thể tự học. Mặt khác, đa phương thức và sự tương tác với thế giới loài người thực có thể cũng là một yêu cầu đối với AGI. Chúng tôi vẫn sẵn sàng cho các khả năng khác nhau.
Waves: Ông nghĩ kết cục của các mô hình lớn là gì?
Lương Văn Phong: Sẽ có các công ty chuyên biệt cung cấp các mô hình và dịch vụ nền tảng, đạt được sự chuyên môn hóa sâu rộng trong mọi nút của chuỗi cung ứng. Nhiều người hơn sẽ xây dựng dựa trên tất cả những điều này để đáp ứng nhu cầu đa dạng của xã hội.
Phần 5: Tất cả các phương pháp đều là sản phẩm của thế hệ trước
Waves: Trong năm qua, đã có nhiều thay đổi trong các startup mô hình lớn của Trung Quốc. Ví dụ, Vương Hưng Văn (Wang Huiwen) (đồng sáng lập RenRen, một bản sao Facebook, và Meituan, một công ty giao đồ ăn), người rất tích cực vào đầu năm ngoái, đã rút lui giữa chừng, còn các công ty tham gia sau đó bắt đầu thể hiện sự khác biệt.
Lương Văn Phong: Vương Hưng Văn tự mình gánh chịu mọi tổn thất, cho phép những người khác rút lui mà không bị tổn hại. Ông ấy đã đưa ra một lựa chọn tồi tệ nhất cho bản thân nhưng tốt cho mọi người khác, vì vậy ông ấy rất tử tế trong cách hành xử của mình – đây là điều tôi thực sự ngưỡng mộ. (Vương Hưng Nguyên đã thành lập công ty mô hình nền tảng Lightyear sau đó chóng sát nhập gấp nó vào Meituan).
Waves: Bây giờ ông đang tập trung phần lớn năng lượng của mình vào đâu?
Lương Văn Phong: Năng lượng chính của tôi tập trung vào nghiên cứu thế hệ mô hình lớn tiếp theo. Vẫn còn nhiều vấn đề chưa được giải quyết.
Waves: Các startup mô hình lớn khác kiên quyết theo đuổi cả hai (công nghệ và thương mại hóa), xét cho cùng, công nghệ sẽ không mang lại sự dẫn đầu vĩnh viễn vì việc tận dụng cơ hội để chuyển lợi thế công nghệ thành sản phẩm cũng rất quan trọng. Phải chẳng DeepSeek tập trung vào nghiên cứu mô hình vì mô hình hiện tại của ông chưa đủ tốt để thương mại hóa?
Lương Văn Phong: Tất cả các mô hình kinh doanh này đều là sản phẩm của thế hệ trước và có thể không còn đúng trong tương lai. Sử dụng logic kinh doanh Internet để thảo luận về các mô hình lợi nhuận AI trong tương lai giống như thảo luận về General Electric và Coca-Cola khi Pony Ma bắt đầu công việc kinh doanh của mình. Đó là một việc làm vô nghĩa.
Waves: Trước đây, quỹ định lượng High-Flyer của ông có nền tảng vững chắc về công nghệ và đổi mới, và sự tăng trưởng của nó tương đối suôn sẻ. Đây có phải là lý do cho sự lạc quan của ông không?
Lương Văn Phong: Ở một khía cạnh nào đó, High-Flyer đã củng cố niềm tin của chúng tôi vào đổi mới dựa trên công nghệ, nhưng không phải mọi thứ đều suôn sẻ. Chúng tôi đã trải qua một quá trình tích lũy lâu dài. Những gì người ngoài nhìn thấy là một phần của High-Flyer sau năm 2015, nhưng trên thực tế, chúng tôi đã làm việc đó trong 16 năm.
Waves: Quay trở lại chủ đề đổi mới. Bây giờ nền kinh tế bắt đầu suy giảm và nguồn vốn không còn dồi dào như trước, liệu điều này có kìm hãm nghiên cứu cơ bản không?
Lương Văn Phong: Tôi không nhất thiết nghĩ như vậy. Sự điều chỉnh cơ cấu công nghiệp của Trung Quốc chắc chắn sẽ dựa nhiều hơn vào đổi mới công nghệ cốt lõi. Khi mọi người nhận ra rằng việc kiếm tiền nhanh chóng trong quá khứ có thể là do những cơ hội may mắn, họ sẽ khiêm tốn hơn và tham gia vào đổi mới thực sự.
An Yong: Vậy ông cũng lạc quan về điều này sao?
Lương Văn Phong: Tôi lớn lên vào những năm 1980 ở một thành phố cấp năm ở Quảng Đông. Cha tôi là một giáo viên tiểu học. Vào những năm 1990, có rất nhiều cơ hội kiếm tiền ở Quảng Đông. Vào thời điểm đó, nhiều phụ huynh đến nhà tôi; về cơ bản, họ nghĩ học hành là vô ích. Nhưng nhìn lại bây giờ, tất cả họ đã thay đổi quan điểm. Bởi vì kiếm tiền không còn dễ dàng nữa — ngay cả cơ hội lái taxi có thể sớm biến mất. Chỉ mất một thế hệ.
Trong tương lai, đổi mới cốt lõi sẽ ngày càng trở nên phổ biến. Thật không dễ để hiểu ngay bây giờ, bởi vì toàn xã hội cần được giáo dục về điểm này. Một khi xã hội cho phép những người cống hiến cho đổi mới cốt lõi đạt được danh tiếng và tài sản, thì tư duy tập thể của chúng ta sẽ thay đổi. Chúng ta chỉ cần một vài ví dụ và một quá trình.