Xem nhanh
DeepSeek gây bão toàn cầu
Phòng thí nghiệm AI Trung Quốc DeepSeek đã tạo nên cơn sốt khi ứng dụng chatbot của họ leo lên vị trí dẫn đầu trên bảng xếp hạng App Store của Apple và Google Play. Các mô hình AI của DeepSeek, được huấn luyện bằng kỹ thuật tiết kiệm tài nguyên tính toán, đã khiến các nhà phân tích Phố Wall và giới công nghệ nghi ngờ liệu Mỹ có thể duy trì vị thế dẫn đầu trong cuộc đua AI và liệu nhu cầu về chip AI có còn bền vững.
Nguồn gốc từ ngành tài chính
DeepSeek được hậu thuẫn bởi High-Flyer Capital Management, một quỹ phòng hộ định lượng Trung Quốc sử dụng AI để đưa ra quyết định giao dịch.
Doanh nhân đam mê AI Liang Wenfeng đồng sáng lập High-Flyer năm 2015. Wenfeng từng bắt đầu thử nghiệm giao dịch từ thời sinh viên tại Đại học Chiết Giang và chính thức ra mắt quỹ này vào năm 2019, tập trung vào phát triển thuật toán AI.
Đến năm 2023, High-Flyer thành lập DeepSeek như một phòng thí nghiệm nghiên cứu AI độc lập với mảng tài chính. Sau đó, DeepSeek tách ra thành công ty riêng.
Ngay từ đầu, DeepSeek đã xây dựng các cụm trung tâm dữ liệu để huấn luyện mô hình. Tuy nhiên, giống như các công ty AI khác ở Trung Quốc, họ chịu ảnh hưởng từ lệnh cấm xuất khẩu phần cứng của Mỹ. Để huấn luyện một trong những mô hình gần đây, DeepSeek buộc phải dùng chip Nvidia H800 — phiên bản yếu hơn của H100 vốn được bán cho các công ty Mỹ.
Đội ngũ kỹ thuật của DeepSeek có độ tuổi trung bình trẻ, chủ yếu là tiến sĩ từ các trường đại học hàng đầu Trung Quốc. Họ thậm chí tuyển dụng cả những người không có nền tảng khoa học máy tính để giúp mô hình hiểu nhiều lĩnh vực hơn, theo New York Times.
Mô hình mạnh mẽ và giá rẻ
Tháng 11/2023, DeepSeek công bố loạt mô hình đầu tiên: DeepSeek Coder, DeepSeek LLM, và DeepSeek Chat. Tuy nhiên, đến mùa xuân năm sau, khi DeepSeek-V2 ra mắt — một hệ thống xử lý văn bản và hình ảnh đa dụng — ngành công nghiệp AI mới thực sự chú ý.
DeepSeek-V2 đạt hiệu năng cao trong nhiều bài kiểm tra chuẩn, đồng thời có chi phí vận hành thấp hơn nhiều so với các đối thủ. Điều này khiến các công ty Trung Quốc như ByteDance và Alibaba phải giảm giá hoặc miễn phí sử dụng mô hình.
Cuối năm 2024, DeepSeek ra mắt DeepSeek-V3, nâng tầm tên tuổi.
Theo kết quả nội bộ, DeepSeek V3 vượt mặt cả những mô hình mã nguồn mở như Llama của Meta và mô hình đóng như GPT-4o của OpenAI.
Điểm nổi bật khác là DeepSeek R1 — một mô hình suy luận được ra mắt tháng 1. DeepSeek khẳng định R1 sánh ngang với mô hình o1 của OpenAI trong nhiều chỉ số. Với khả năng "tự kiểm tra", mô hình này tránh được các lỗi phổ biến của AI hiện nay, đặc biệt mạnh ở các lĩnh vực như vật lý, khoa học, toán học — dù thời gian xử lý lâu hơn.
Mặt trái của thành công
Là AI phát triển tại Trung Quốc, các mô hình của DeepSeek phải tuân theo quy định kiểm duyệt nội dung của chính phủ. Ví dụ, R1 trong ứng dụng chatbot sẽ không trả lời về các chủ đề như Thiên An Môn hay vấn đề Đài Loan.
Tháng 3, DeepSeek ghi nhận hơn 16,5 triệu lượt truy cập, dù giảm 25% so với tháng 2, vẫn đứng thứ hai về lưu lượng. Tuy nhiên, còn kém xa ChatGPT — với hơn 500 triệu người dùng hoạt động hàng tuần trong cùng kỳ.
Tháng 5, DeepSeek phát hành bản cập nhật của R1 trên nền tảng Hugging Face dành cho nhà phát triển.
Chiến lược gây nhiễu ngành
Mô hình kinh doanh của DeepSeek hiện vẫn chưa rõ ràng. Họ định giá thấp hơn thị trường và thậm chí cung cấp miễn phí một số sản phẩm. Công ty cũng không gọi vốn dù được nhiều quỹ đầu tư quan tâm.
Theo họ, nhờ đột phá hiệu suất nên có thể duy trì mức chi phí thấp. Một số chuyên gia thì hoài nghi về các con số mà DeepSeek công bố.
Dù vậy, các nhà phát triển đã đón nhận các mô hình của DeepSeek một cách nồng nhiệt. Dù không hoàn toàn mã nguồn mở, các mô hình vẫn được cấp phép sử dụng thương mại. Theo CEO Clem Delangue của Hugging Face, đã có hơn 500 mô hình dẫn xuất từ R1 được tạo ra và thu hút 2,5 triệu lượt tải.
Sự trỗi dậy của DeepSeek — vượt mặt nhiều ông lớn — được miêu tả là "đảo lộn ngành AI" hoặc "quá cường điệu". Thậm chí, sự phát triển của họ là một phần lý do khiến cổ phiếu Nvidia giảm 18% trong tháng 1, và khiến CEO Sam Altman của OpenAI phải lên tiếng.
Tháng 3, các cơ quan thuộc Bộ Thương mại Mỹ thông báo cấm sử dụng DeepSeek trên thiết bị chính phủ. Hàn Quốc, tiểu bang New York và nhiều tổ chức khác cũng đã đưa ra lệnh cấm tương tự.
Microsoft cho biết đã tích hợp DeepSeek vào nền tảng Azure AI Foundry. Trong khi đó, Meta vẫn duy trì đầu tư lớn vào hạ tầng AI như một lợi thế chiến lược. Tháng 3, OpenAI gọi DeepSeek là “được nhà nước tài trợ và kiểm soát” và đề xuất chính phủ Mỹ nên cân nhắc cấm mô hình này.
Trong báo cáo quý IV, CEO Jensen Huang của Nvidia thừa nhận sự đổi mới của DeepSeek, và cho rằng các mô hình suy luận như vậy sẽ giúp thúc đẩy nhu cầu về hạ tầng tính toán.
Cũng trong tháng 5, phó chủ tịch Microsoft Brad Smith phát biểu trước Thượng viện rằng nhân viên Microsoft không được phép sử dụng DeepSeek vì lo ngại về an ninh dữ liệu và tuyên truyền.
Tương lai bất định
Tương lai của DeepSeek hiện chưa rõ ràng. Việc ra mắt các mô hình tốt hơn là điều tất yếu. Tuy nhiên, với quan điểm ngày càng thận trọng từ phía Mỹ về ảnh hưởng nước ngoài trong lĩnh vực AI, DeepSeek nhiều khả năng sẽ tiếp tục đối mặt với các rào cản chính trị, đặc biệt tại phương Tây.