很快啊!来骗,来偷袭,我这个老同志
更新于2024/8/14
本文仅包含 LMSYS Chatbot Arena Leaderboard 前15位选手
序
别的不多说,整个赛道基本只剩下中美的几个巨头,国内还有几个初创公司,估计用不了多久就会被合并
tx是少数没怎么卷大模型的巨头之一,主要是因为太菜。。。
(估计是怕用用户数据训练会被骂死)
下面我会列举主要的(或者说是我体验过的)生成式人工智能公司并简单说说我的心得
请注意部分模型我使用的只有它们的API,并没有去尝试原生对话界面。
由于API与指令精调对话版可能有一些细微的区别,我的体验并不代表最终结论。
美国:
OpenAI
OpenAI 无疑仍在为我们提供目前市场上最强大的模型 GPT-4o(Omni)。官网提供的交互式对话页面也不断在进化,现在使用免费计划的用户也能体验有限的几次 GPT-4o 聊天次数。
但是,文件上传功能不如死对头 Anthropic 做的好,长文本对话也是略逊一筹
只能说,现在的 OpenAI 仍然在啃老本。如果不扔掉PPT,避免内部竞争和矛盾激化,很可能会失去自己的领先优势
Anthropic
最有希望打倒 OpenAI 的公司,老员工基本上都是那边跳槽过去的 官网
自从发布 Claude 3.5 Sonnet ,纸面数据平齐4o之后就有点飘了,也开始限制免费计划用户聊天次数 (这是要把白嫖党逼去Gemini啊)
主打一个文档上传与分析,代码生成也不错,比4o对于指令的听从度高一个档次,应该是 RLHF 做的好
说人话就是
听话。
Gemini系列由谷歌DeepMind训练并免费向大众提供。官网
新出的 Gemini 1.5 Pro Experimental 0801 都说进步很大,为啥我感觉还是很稀烂?可以说除了货真价实的 2,105,344 Tokens 没什么过人之处
开源模型 Gemma-2-27b-it 同级别最强,猜测可能和自家 Pixel9 手机的端侧AI有关?
有免费的API接口,很多工具比如 ImageFX 只需要填个 Google Docs 申请一下就可以,还是愿意烧钱的
Mistral AI
最早开始训练 MoE 混合专家架构的法国独角公司,开源界的一颗新星,今年2月份选择拥入微软的怀抱。官网
数学模型 Mathstral 以及代码模型 Codestral Mamba 还不错
架构都很新,开发理念我个人比较喜欢,可惜中文支持不是很好
与 Mistral 类似的还有 Cohere RekaAI ,仅适合对话,生产力还是选上面的
Meta
Llama 3.1 额滴神!但是我不用
另有一些基于 Llama 的开源模型,挂在 HuggingFace 上面:
中国:
其实国内的我用的比较少,怎么说呢,不是我崇洋媚外,国外的产品居然还更适合中国宝宝你说怎么办?!
没办法,加油追赶吧
Alibaba
Qwen 通义千问系列算是我用过的国产AI中比较上等的,起步确实比较晚,但是追赶速度真的非常快。
01.ai
零一万物早些时候被揪出使用Llama同架构,并存在刷跑分嫌疑,现在安分了,不过我很少用
适合个人做Instruct
DeepSeek
深度求索因其激进的价格策略引发了中国大模型市场的价格战,被称为“AI界的拼多多”
此外,有人质疑其背后的量化私募巨头幻方是否在利用公司进行市场操控
应该是少数注重盈利的开源公司 (就很神奇) ,又属于那种技术理想主义的公司,很像 GPT-3 发布前的OpenAI,希望不忘初心。。。
Zhipu AI
GLM-4 算是给了国内大模型打了一针兴奋剂,但也仅限于兴奋剂了。
刚出的时候体验不是特别好,不过智谱清言和清华大学的合作确实创造了一波流量。
总结
- GPT-4o:最强大的AI大模型,适合各种任务
- Claude 3.5:长文理解和总结能力出色,可以作为GPT-4o的替代品
- Qwen Max
- Google:表现中规中矩,有超长文本需求再选择它
- 对于国内AI我没有太多发言权,于是引用幻方量化、DeepSeek创始人梁文锋的话
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。