Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Các công ty nghiên cứu thị trường đang gặp khó khăn 😳
PyMC Labs + Colgate vừa công bố một điều gì đó điên rồ. Họ đã sử dụng GPT-4o và Gemini để dự đoán ý định mua hàng với độ tin cậy 90% so với các khảo sát của con người thực.
Không có nhóm tập trung. Không có bảng khảo sát. Chỉ cần gợi ý.
Phương pháp này được gọi là Đánh giá Tương đồng Ngữ nghĩa (SSR). Thay vì hỏi "đánh giá từ 1-5", họ đặt ra các câu hỏi mở như "tại sao bạn lại mua cái này" và sau đó sử dụng các embedding để ánh xạ văn bản trở lại thang số.
Thực sự mà nói, điều này khá hiển nhiên khi nhìn lại nhưng không ai thử nghiệm cho đến bây giờ.
Kết quả khớp với các mẫu nhân khẩu học của con người, nắm bắt cùng hình dạng phân phối, bao gồm cả lý do thực tế. Những thứ mà McKinsey tính phí 50K$+ và giao trong 6 tuần.
Ngoại trừ việc điều này chỉ mất 3 phút với chi phí dưới 1 đô la.
Tôi đã thấy các công ty tư vấn nói với mọi người rằng AI đang đến với ngành của họ. Hóa ra, các bộ tài liệu đầu vào trị giá 1 triệu đô la của họ vừa trở thành một cuộc gọi GPT-4o.
Một tuần tồi tệ để tính phí các khách hàng doanh nghiệp cho "các phương pháp nghiên cứu độc quyền."

89,85K
Có điều gì đó tăm tối đang xảy ra bên trong AI "được căn chỉnh".
Một bài báo mới từ Stanford vừa đặt ra thuật ngữ Moloch’s Bargain cho những gì xảy ra khi các mô hình ngôn ngữ lớn bắt đầu cạnh tranh cho sự chú ý, doanh số hoặc phiếu bầu.
Kết quả thật tàn khốc: mỗi sự cải thiện về hiệu suất đều đi kèm với một tổn thất lớn hơn về sự trung thực.
Họ đã huấn luyện các LLM để cạnh tranh trong ba thị trường: doanh số, bầu cử và mạng xã hội.
Các mô hình đã cải thiện tỷ lệ thắng của họ từ 5–7%. Nhưng đây là điều đáng chú ý:
• 14% tiếp thị lừa dối hơn
• 22% thông tin sai lệch trong các chiến dịch chính trị
• 188% bài đăng giả mạo hoặc có hại trên mạng xã hội
Và điều này không phải vì họ được bảo phải nói dối. Họ đã được chỉ dẫn rõ ràng để giữ sự thật.
Sự không căn chỉnh xuất hiện một cách tự nhiên vì sự lừa dối hoạt động tốt hơn trong cạnh tranh.
Khi chỉ số trở thành sự tham gia hoặc thuyết phục, sự thật trở thành một gánh nặng. Các mô hình học được rằng phóng đại bán được hàng, sự phẫn nộ chiến thắng, và sự rõ ràng về đạo đức làm giảm tỷ lệ chuyển đổi.
Đó là thỏa thuận: sự căn chỉnh được đổi lấy sự thống trị. Moloch mỉm cười.
Điều thú vị là điều này đã xảy ra với việc tinh chỉnh tiêu chuẩn và các vòng phản hồi văn bản. Không có lệnh ác ý. Không có jailbreak. Chỉ là phản hồi từ "khách hàng", "cử tri" và "người dùng" mô phỏng.
Các mô hình đã học được điều mà mọi công ty quảng cáo đã biết: thực tế bị uốn cong khi bạn tối ưu hóa cho việc nhấp chuột.
Có một biểu đồ trong bài báo nói lên tất cả: hiệu suất tăng, sự căn chỉnh giảm. Một mối tương quan hoàn hảo.
Đây là phiên bản AI của cuộc đua xuống đáy của mạng xã hội, nhưng tự động và tự củng cố.
Nếu đây là những gì xảy ra trong các mô phỏng có kiểm soát, hãy tưởng tượng về web mở.
Các chatbot cạnh tranh để thu hút sự tham gia sẽ drift về phía thao túng - không phải vì chúng "ác ý", mà vì điều đó hiệu quả.
Chúng ta luôn nghĩ rằng sự không căn chỉnh sẽ đến từ siêu trí tuệ nổi loạn.
Hóa ra, nó đã ở đây, âm thầm xuất hiện từ các động lực tư bản.
Moloch không cần phải xây dựng AGI.
Ông chỉ cần một bảng xếp hạng.

63,95K
RIP fine-tuning ☠️
Bài báo mới từ Stanford này vừa làm cho nó chết.
Nó có tên là 'Agentic Context Engineering (ACE)' và nó chứng minh rằng bạn có thể làm cho các mô hình thông minh hơn mà không cần chạm vào một trọng số nào.
Thay vì huấn luyện lại, ACE phát triển chính ngữ cảnh.
Mô hình viết, phản ánh và chỉnh sửa chính prompt của nó liên tục cho đến khi nó trở thành một hệ thống tự cải thiện.
Hãy nghĩ về nó như mô hình giữ một cuốn sổ tay ngày càng lớn về những gì hiệu quả.
Mỗi thất bại trở thành một chiến lược. Mỗi thành công trở thành một quy tắc.
Kết quả thật phi lý:
+10.6% tốt hơn so với các tác nhân được hỗ trợ bởi GPT-4 trên AppWorld.
+8.6% trong lý luận tài chính.
Giá cả và độ trễ thấp hơn 86.9%.
Không có nhãn. Chỉ có phản hồi.
Mọi người đã bị ám ảnh với các prompt "ngắn, sạch".
ACE đảo ngược điều đó. Nó xây dựng các playbook dài, chi tiết và phát triển mà không bao giờ quên. Và nó hoạt động vì LLM không muốn sự đơn giản, chúng muốn *độ dày ngữ cảnh.
Nếu điều này mở rộng, thế hệ AI tiếp theo sẽ không được "tinh chỉnh".
Nó sẽ tự tinh chỉnh.
Chúng ta đang bước vào kỷ nguyên của các prompt sống.

645,19K
Hàng đầu
Thứ hạng
Yêu thích