距离撰写 Chatbots Review 已经过去了一年多,这一年里我沉迷恋爱学习,同时也跟进着最新最前沿的 AI 研究。
至于为什么不在原文章上直接修改,我给出的答案是 懒 。 发展速度太快,要修改的地方太多,还不如重新写一篇。
序
预告
根据最新消息,接下来的几个月将是新一轮的大语言模型发布潮:
- OpenAI: GPT-5、o3、o4-mini 和 第一个"开放权重"(open-weight)语言模型 (预计 2025 中下旬)
- Meta: Llama 4 Behemoth (近期)
- Alibaba: Qwen 3 (预计 2025.4)
- DeepSeek: Deepseek R2 (消息来源不可靠)
回看
在我消失的这段时间,AI 领域也发生了翻天覆地的变化,其中不乏有改变世界 AI 格局的产品出现。以下是一些关键事件回顾:
时间 | 事件及详情 |
---|---|
2024-05-13 | OpenAI 发布 GPT-4o,支持文本、图像、音频输入,优化速度和价格 |
2024-06-20 | Anthropic 发布 Claude 3.5 Sonnet 发布,AI 代码能力再次被刷新 |
2024-10-28 | 苹果发布 Apple Intelligence(依托答辩) |
2024-12-05 至 20 | OpenAI 举办 12 天直播系列,发布 o3 和 Sora Turbo |
2025-01-20 | DeepSeek-R1 由中国公司深度求索发布,号称 600 万美元实现持平 O1 的性能,打破世界 AI 训练烧钱格局 |
2025-01-25 | 阿里云发布 Qwen2.5-Max,一个超大规模的混合专家(MoE)模型,具备强大的语言处理、编程辅助和多模态处理能力。 |
2025-02-17 | Grok 3 发布,AI 深度搜索与多模态再次跨上新台阶 |
2025-02-24 | Anthropic 更新 Claude 3.7,主打混合推理,128K 上下文,编码性能提升 |
2025-02-27 | GPT-4.5 发布,AI 价格出现新高,逆风而行 |
2025-03-05 | 阿里云通义团队推出 QwQ-32B,专为数学推理、科学分析和编码任务设计,性能媲美更大规模的模型。 |
2025-03-06 | 中国公司 Butterfly Effect 发布 Manus,号称全球首个完全自主 AI 代理,可独立执行复杂任务 |
2025-03-12 | 谷歌使 Gemini 2.0 Flash 原生图像生成功能可供测试 |
2025-03-17 | Mistral AI 发布 Mistral Small 3.1,基于 Apache 2.0 许可证,是一款更小、更高效的模型 |
2025-03-21 | 腾讯正式发布混元T1深度思考模型,采用混合Mamba架构,吐字速度可达每秒60到80个token,推理能力与DeepSeek-R1相当,但价格更为亲民。 |
2025-03-24 | DeepSeek发布了DeepSeek-V3-0324模型,增强了复杂提示处理、编程能力和数学推理性能。已在HuggingFace上开源。 |
2025-03-25 | 谷歌发布 Gemini 2.5 Pro,再次霸榜 |
2025-03-25 | ChatGPT 推出 4o 图像生成功能,开始向所有用户(包括免费用户)开放,引发“吉卜力”风格图像热潮 |
2025-03-26 至 31 | ChatGPT 的“吉卜力”风格图像生成功能在社交媒体上闹得沸沸扬扬,OpenAI 因需求过高临时限制免费用户每日 3 张生成配额 |
2025-04-05 | Meta AI 发布 LLaMA 4 Scout 和 LLaMA 4 Maverick,号称最先进的多模态 AI 模型 |
另外,得收回之前的话,腾讯的混元系列现在也做得风生水起… 当初是谁说腾讯没怎么卷 AI 来着?原来是在暗暗发力。(还嘲讽人家菜)
正文
本文仅包含 LMSYS Chatbot Arena Leaderboard 前20位选手 (2025-04-02版)
下面我会列举主要的(或者说是我体验过的)生成式人工智能公司并简单说说我的心得
目前基本上都使用原生对话界面,各家的网页版功能已经很丰富了。
美国:
OpenAI
UI界面倒还是一等的好看,但是发展陷入停滞,如果 GPT-5 或 O4 不爆火的话很可能投资者会失去兴趣
只能说,现在的 OpenAI 仍然在啃老本。如果不扔掉PPT,避免内部竞争和矛盾激化,很可能会失去自己的领先优势好的,基本上已经失去了,只能整点像图片生成这样未曾设想的道路重新拉回热度
Anthropic
接连发布 3.5 Sonnet 和 3.7 Sonnet,从 3.7 开始加入思考模式,代码和文稿生成基本通杀,就是跑分差点意思,但是群众的肯定不是纸面的跑分能改变的,Cursor改变了多少程序员啊
很稳,没出什么幺蛾子,公司前途光明。
Gemini系列由谷歌DeepMind训练并免费向大众提供。
上一篇中被我小看了,25年发布了很多惊艳的产品。
新出的 Gemini 2.5 Pro Experimental 是谷歌入局深度思考模型的第二部作品,从最开始的落后到现在的迎头赶上,还是非常有实力,但是安卓版APP不是很好用,建议除了图像生成和编辑还是用API挂到第三方对话面板去。
开源模型 Gemma-3-27b-it 同级别最强,分数比 O1 和 o3 mini high 还高?你敢信??
有免费的API接口,很多工具比如 ImageFX 、 Video FX 只需要填个 Google Docs 申请一下就可以,还是愿意烧钱的
Meta
Llama 4 Maverick 还没试过
基于 Llama 的开源模型:
中国:
Alibaba
Qwen 通义千问系列算是我用过的国产AI中比较上等的,起步确实比较晚,但是追赶速度真的非常快。
这里保持之前说过的原话,希望加油!期待通义千问系列能带来更多惊喜。
DeepSeek
这位更是重量级,早在2024年就得到了本人的认可
梁文峰显然践行了他曾提到的(2024年07月22日):
我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
仅凭一个低成本的开源模型就几乎让美AI股价暴跌,在技术和能力上可以说是属于思考模型的"GPT-3.5"时刻
总结
- Gemini 2.5 Pro
- Claude 3.7 Sonnet
- o3 mini
- Deepseek R1\v3 速度偏慢了,而且APP功能不完善
选择建议
-
追求稳定和全能: Anthropic (Claude) 是首选,尤其适合需要处理复杂文稿和代码生成的专业人士。
-
追求前沿技术和生态: Google (Gemini) 是理想选择,可以体验到谷歌最新的 AI 技术,并享受其丰富的生态资源和免费API。
-
追求性价比和技术创新: DeepSeek 值得尝试,尤其适合开发者和对开源模型感兴趣的用户。