Mô hình ngôn ngữ lớn mới nhất của Huawei, Pangu Pro MoE 72B, đã được phát hành dướigiấy phép nguồn mởvào cuối tháng 6.
Một tuần sau, công ty bị cáo buộc sao chép một phần mô hình của đối thủ Alibaba.

Cáo buộc đến từ một tổ chức ít tên tuổi tên HonestAGI, đã đăng một bài nghiên cứu trên GitHub.
Bài viết cho rằng mô hình Pangu của Huawei có sự tương đồng bất thường với Qwen 2.5 14B của Alibaba, gợi ý rằng nó có thể không được đào tạo từ đầu.
Bài báo sử dụng kỹ thuật “vân tay mô hình” và phân tích thống kê để chỉ ra “mối tương quan đặc biệt” giữa hai mô hình.

Các tác giả cũng bày tỏ lo ngại về cách Huawei mô tả quá trình đào tạo mô hình và liệu công ty có tuân thủ quy định nguồn mở hay không.
Họ nói rằng sự tương đồng có thể dẫn đến vấn đề bản quyền hoặc tuyên bố phát triển phóng đại.

Huawei đã phản bác vào ngày hôm sau.
Bộ phận nghiên cứu Noah’s Ark Lab của hãng khẳng định mô hình được xây dựng độc lập bằng chip Ascend nội địa.
Nhóm nghiên cứu cho biết họ có “cải tiến quan trọng” trong thiết kế kiến trúc và tuân thủ quy tắc cấp phép với mã nguồn bên thứ ba, dù không nêu rõ mô hình nguồn mở nào được tham khảo.

Nghi vấn về nguồn gốc mô hình

Khi mô hình nguồn mở trở nên phổ biến trong cuộc đua AI tại Trung Quốc, các nghi vấn về nguồn gốc mã và dữ liệu ngày càng tăng.
Trong trường hợp này, vấn đề không chỉ là ghi công
– mà còn là liệu mô hình được đào tạo từ dữ liệu gốc hay điều chỉnh từ công trình hiện có mà không công bố rõ ràng.

Điều này quan trọng với nhà phát triển sử dụng các mô hình, đặc biệt trong lĩnh vực tài chính, chính phủ hoặc y tế.
Nếu một mô hình giống nhau nhưng không tuân thủ quy tắc cấp phép, người dùng có thể đối mặt rủi ro pháp lý hoặc danh tiếng.

Tranh cãi cũng cho thấy khó khăn trong việc chứng minh tính nguyên bản của AI.
Khi nhiều công ty sử dụng cùng bộ dữ liệu hoặc khung nguồn mở, sự trùng lặp là khó tránh.
Nhưng nếu không có tài liệu rõ ràng, những trùng lặp này sẽ gây nghi vấn.

Alibaba chưa bình luận về cáo buộc.
Danh tính HonestAGI vẫn chưa được xác định.

An toàn và tốc độ

Xung đột Huawei-Alibaba không diễn ra biệt lập.
Ngành AI Trung Quốc đang chứng kiến làn sóng ra mắt mô hình, nhiều trong số đó là nguồn mở để tăng cường áp dụng và giảm phụ thuộc vào công nghệ nước ngoài.

Tháng 1, startup DeepSeek ra mắt mô hình R1.
Nó thu hút sự chú ý nhờ chi phí thấp và hiệu suất, nhưng cũng gây lo ngại về cách xử lý nội dung độc hại.
Kiểm tra cho thấy nó phản hồi các yêu cầu nguy hiểm nhiều hơn dự kiến, làm dấy lên quan ngại về rủi ro an ninh ở các mô hình mới.

Mô hình của Huawei và Alibaba chưa được đánh giá rộng rãi về độ an toàn tương tự.
Nhưng việc sử dụng chúng trong dự án doanh nghiệp và chính phủ khiến mọi lỗ hổng đều có thể gây ảnh hưởng lớn.
Nếu tranh cãi về nguồn gốc Pangu làm chậm việc áp dụng, người dùng có thể chuyển sang các mô hình địa phương khác được coi là ổn định và minh bạch hơn.

Chip và kiểm soát

Mảnh ghép khác của câu chuyện là phần cứng.
Hạn chế xuất khẩu từ Mỹ đã giới hạn khả năng tiếp cận chipnhư A100 và H100 của Nvidia
– vốn được dùng phổ biến để đào tạo mô hình lớn.
Đáp lại, các công ty Trung Quốc đã chuyển sang dùng chip nội địa như Ascend của Huawei.

Bằng cách phát hành mô hình nguồn mở được đào tạo hoàn toàn trên Ascend, Huawei cho thấy nỗ lực tự chủ.
Nhưng điều này cũng đặt ra câu hỏi về hiệu suất, hiệu quả và tính minh bạch
– đặc biệt khi quá trình đào tạo không được công bố đầy đủ.

Những lo ngại này không chỉ ở Trung Quốc.
Chính phủ Mỹ và châu Âu đang xem xét chính sách xuất khẩu liên quan đến AI và chất bán dẫn, đặc biệt khi mô hình có thể được sử dụng cho mục đích quân sự.
Điều này bao gồm cả mô hình nguồn mở từ Trung Quốc như R1 của DeepSeek, vốn đã xuất hiện trong một số danh sách theo dõi.

Niềm tin vẫn bị nghi ngờ

Tranh luận Pangu vs Qwen có thể lắng xuống sau vài tuần, nhưng nó phản ánh thách thức lớn hơn trong phát triển AI
– cụ thể là niềm tin, an toàn và quyền sở hữu.
Với nhiều đơn vị mới tham gia thị trường cùng chiến lược quốc gia thúc đẩy phát hành nhanh, câu hỏi về cách xây dựng các mô hình này sẽ chỉ tăng lên.

Các công ty AI Trung Quốc giờ đây được kỳ vọng cân bằng giữa phát triển nhanh với công bố rõ ràng và triển khai an toàn.
Với dự án nguồn mở, điều này không chỉ là phát hành mã
– mà còn là giải thích cách nó được tạo ra và những gì bên trong.

Dù mô hình của Huawei có được đào tạo độc lập hay không, cuộc thảo luận công khai đã chuyển hướng sang mức độ minh bạch mà người dùng có thể mong đợi.

(Ảnh bởiBoliviaInteligente)

Xem thêm:
Huawei Cloud ra mắt Pangu Models 5.5 cho nhiều ngành hơn

Tags:ai , data , development , github , huawei , llm , open source , security

Đăng ký kênh youtube để ủng hộ Cafedev nha các bạn, Thanks you!