Ông là Arthur Mensch, Người sáng lập Mistral.
Điều này liên quan đến tình trạng hiện tại về số lượng người tham dự buổi phát biểu chính.
Rất có khả năng điều này sẽ xảy ra nếu bạn hạn chế những người xây dựng thực sự và chỉ cho phép các quan chức + <chỉ mời> những ông lớn. Thật đáng thất vọng.
họ đã xây dựng GLM-5 mà không dựa vào các cụm NVIDIA lớn mà chủ yếu dựa vào phần cứng nội địa Trung Quốc, điều này ít trưởng thành hơn như một hệ sinh thái và thú vị là họ đã chơi rất thông minh ở đây với các tối ưu hóa về lượng tử hóa, kernel, lập lịch bất đồng bộ, song song hóa, v.v.
Giới thiệu Báo cáo Kỹ thuật GLM-5!
Sau khi ra mắt GLM-5, chúng tôi sẽ tiết lộ cách nó được xây dựng. Những đổi mới chính bao gồm:
- Chấp nhận DSA: Giảm đáng kể chi phí đào tạo và suy diễn trong khi vẫn giữ được độ trung thực của ngữ cảnh dài
- Hạ tầng RL không đồng bộ: Cải thiện đáng kể hiệu quả sau đào tạo bằng cách tách biệt việc tạo ra khỏi đào tạo
- Thuật toán RL của tác nhân: Cho phép mô hình học hỏi từ các tương tác phức tạp, dài hạn một cách hiệu quả hơn
Thông qua những đổi mới này, GLM-5 đạt được hiệu suất SOTA trong số các mô hình mã nguồn mở, với kết quả đặc biệt mạnh mẽ trong các nhiệm vụ kỹ thuật phần mềm thực tế.