Chatbots Review 2
Eric Lee Lv999

距离撰写 Chatbots Review 已经过去了一年多,这一年里我沉迷恋爱学习,同时也跟进着最新最前沿的 AI 研究。

至于为什么不在原文章上直接修改,我给出的答案是 。 发展速度太快,要修改的地方太多,还不如重新写一篇。

预告

根据最新消息,接下来的几个月将是新一轮的大语言模型发布潮:

  • OpenAI: GPT-5、o3、o4-mini 和 第一个"开放权重"(open-weight)语言模型 (预计 2025 中下旬)
  • Meta: Llama 4 Behemoth (近期)
  • Alibaba: Qwen 3 (预计 2025.4)
  • DeepSeek: Deepseek R2 (消息来源不可靠)

回看

在我消失的这段时间,AI 领域也发生了翻天覆地的变化,其中不乏有改变世界 AI 格局的产品出现。以下是一些关键事件回顾:

时间 事件及详情
2024-05-13 OpenAI 发布 GPT-4o,支持文本、图像、音频输入,优化速度和价格
2024-06-20 Anthropic 发布 Claude 3.5 Sonnet 发布,AI 代码能力再次被刷新
2024-10-28 苹果发布 Apple Intelligence(依托答辩)
2024-12-05 至 20 OpenAI 举办 12 天直播系列,发布 o3Sora Turbo
2025-01-20 DeepSeek-R1 由中国公司深度求索发布,号称 600 万美元实现持平 O1 的性能,打破世界 AI 训练烧钱格局
2025-01-25 阿里云发布 Qwen2.5-Max,一个超大规模的混合专家(MoE)模型,具备强大的语言处理、编程辅助和多模态处理能力。
2025-02-17 Grok 3 发布,AI 深度搜索与多模态再次跨上新台阶
2025-02-24 Anthropic 更新 Claude 3.7,主打混合推理,128K 上下文,编码性能提升
2025-02-27 GPT-4.5 发布,AI 价格出现新高,逆风而行
2025-03-05 阿里云通义团队推出 QwQ-32B,专为数学推理、科学分析和编码任务设计,性能媲美更大规模的模型。
2025-03-06 中国公司 Butterfly Effect 发布 Manus,号称全球首个完全自主 AI 代理,可独立执行复杂任务
2025-03-12 谷歌使 Gemini 2.0 Flash 原生图像生成功能可供测试
2025-03-17 Mistral AI 发布 Mistral Small 3.1,基于 Apache 2.0 许可证,是一款更小、更高效的模型
2025-03-21 腾讯正式发布混元T1深度思考模型,采用混合Mamba架构,吐字速度可达每秒60到80个token,推理能力与DeepSeek-R1相当,但价格更为亲民。
2025-03-24 DeepSeek发布了DeepSeek-V3-0324模型,增强了复杂提示处理、编程能力和数学推理性能。已在HuggingFace上开源。
2025-03-25 谷歌发布 Gemini 2.5 Pro,再次霸榜
2025-03-25 ChatGPT 推出 4o 图像生成功能,开始向所有用户(包括免费用户)开放,引发“吉卜力”风格图像热潮
2025-03-26 至 31 ChatGPT 的“吉卜力”风格图像生成功能在社交媒体上闹得沸沸扬扬,OpenAI 因需求过高临时限制免费用户每日 3 张生成配额
2025-04-05 Meta AI 发布 LLaMA 4 ScoutLLaMA 4 Maverick,号称最先进的多模态 AI 模型

另外,得收回之前的话,腾讯的混元系列现在也做得风生水起… 当初是谁说腾讯没怎么卷 AI 来着?原来是在暗暗发力。(还嘲讽人家菜)

正文

本文仅包含 LMSYS Chatbot Arena Leaderboard 前20位选手 (2025-04-02版)


下面我会列举主要的(或者说是我体验过的)生成式人工智能公司并简单说说我的心得

目前基本上都使用原生对话界面,各家的网页版功能已经很丰富了。

美国:

OpenAI

UI界面倒还是一等的好看,但是发展陷入停滞,如果 GPT-5 或 O4 不爆火的话很可能投资者会失去兴趣

只能说,现在的 OpenAI 仍然在啃老本。如果不扔掉PPT,避免内部竞争和矛盾激化,很可能会失去自己的领先优势好的,基本上已经失去了,只能整点像图片生成这样未曾设想的道路重新拉回热度

Anthropic

接连发布 3.5 Sonnet 和 3.7 Sonnet,从 3.7 开始加入思考模式,代码和文稿生成基本通杀,就是跑分差点意思,但是群众的肯定不是纸面的跑分能改变的,Cursor改变了多少程序员啊

很稳,没出什么幺蛾子,公司前途光明。

Google

Gemini系列由谷歌DeepMind训练并免费向大众提供。

上一篇中被我小看了,25年发布了很多惊艳的产品。

新出的 Gemini 2.5 Pro Experimental 是谷歌入局深度思考模型的第二部作品,从最开始的落后到现在的迎头赶上,还是非常有实力,但是安卓版APP不是很好用,建议除了图像生成和编辑还是用API挂到第三方对话面板去。

开源模型 Gemma-3-27b-it 同级别最强,分数比 O1 和 o3 mini high 还高?你敢信??

有免费的API接口,很多工具比如 ImageFX 、 Video FX 只需要填个 Google Docs 申请一下就可以,还是愿意烧钱的

Meta

Llama 4 Maverick 还没试过

基于 Llama 的开源模型:

中国:

Alibaba

Qwen 通义千问系列算是我用过的国产AI中比较上等的,起步确实比较晚,但是追赶速度真的非常快。

这里保持之前说过的原话,希望加油!期待通义千问系列能带来更多惊喜。

DeepSeek

这位更是重量级早在2024年就得到了本人的认可

梁文峰显然践行了他曾提到的(2024年07月22日):

我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

仅凭一个低成本的开源模型就几乎让美AI股价暴跌,在技术和能力上可以说是属于思考模型的"GPT-3.5"时刻

总结

推荐
其他
  1. Gemini 2.5 Pro
  2. Claude 3.7 Sonnet
  3. o3 mini
  1. Deepseek R1\v3 速度偏慢了,而且APP功能不完善

选择建议

  • 追求稳定和全能: Anthropic (Claude) 是首选,尤其适合需要处理复杂文稿和代码生成的专业人士。

  • 追求前沿技术和生态: Google (Gemini) 是理想选择,可以体验到谷歌最新的 AI 技术,并享受其丰富的生态资源和免费API。

  • 追求性价比和技术创新: DeepSeek 值得尝试,尤其适合开发者和对开源模型感兴趣的用户。

image

Powered by Hexo & Theme Keep
This site is deployed on