虎视 AI
2024-05-15
No.57

谷歌2024I/O大会:发布Gemini 1.5 Pro与Gemini 1.5 Flash、AI 搜索引擎

主理人:
虎嗅出品,每日推送AI领域资讯新闻,追踪AI的每一步进展。

巨头动态

1.【谷歌2024I/O大会:发布Gemini 1.5 Pro与Gemini 1.5 Flash、AI 代理产品Project Astra、AI 搜索引擎AI Overviews】

在5月15日凌晨召开的I/O大会上,谷歌宣布已全面进入Gemini时代,发布了Gemini 1.5 Pro,该模型上下文长度达到200万(即2000K)token,相比之下,GPT-4Turbo只有128K,Claude3也只有200K。意味着用户可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。谷歌还推出了Gemini系列模型中的最新成员Gemini 1.5 Flash,表示1.5 Flash是通过API提供的速度最快的Gemini模型,在具备突破性的长文本能力的情况下,针对大规模地处理高容量、高频次任务进行了优化,部署起来更具性价比。1.5 Flash能够一次性分析1500页的文档或超过30000行的代码库。此外,Project Astra的视觉识别和语音交互效果跟GPT-4o不相上下。文生视频模型Veo时长超过1分钟,打破Sora纪录。最后谷歌表示,谷歌搜索将被Gemini重塑,用户不再需要自己点进搜索结果,而是由多步骤推理的AI Overview来代办。

 

2.【ChatGPT桌面版亮相,提供多模态交互】

OpenAI 推出了ChatGPT桌面版应用程序,发布公告:“从今天开始,我们将首先向Plus用户推出macOS应用,并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出 Windows 版本。” OpenAI的演示显示,用户可以将处于最小化窗口的ChatGPT桌面应用与其他程序并排打开,通过输入或语音的方式向ChatGPT提问屏幕上显示的内容,ChatGPT则能根据其“所见”进行回答。

 

3. 【谷歌携手惠普推动全息视频聊天技术Project Starline的商业化】

谷歌通过新闻稿宣布,将与惠普于2025年开始推动全息视频聊天技术Project Starline的商业化。谷歌表示,该项目利用AI、三维成像和其他技术,可以使用户在通话时就像与对方“同处一室”一样。未来,这项技术将会走出实验室,将从明年开始在Google Meet或Zoom等视频会议服务中启用。惠普个人系统总裁Alex Cho表示,“一半以上的意义和意图是通过肢体语言而不是单纯的语言来传达的。身临其境的协作体验,在混合环境中创造真实的人际联系方面发挥着重要作用。”

 

4.【腾讯混元文生图大模型升级并开源,业内首个中文原生DiT架构文生图模型】

腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在Hugging Face 及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。升级后的混元文生图大模型采用了与Sora一致的DiT架构,腾讯表示混元DiT是首个中英双语DiT架构。混元DiT是一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力,能够与用户进行多轮对话,根据上下文生成并完善图像。同时,混元也是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。

 

5.【阿里巴巴通义实验室开源FunClip:精准高效的视频自动化剪辑工具】

阿里巴巴通义实验室开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音内容裁剪视频。FunClip集成了阿里巴巴开源的工业级模型Paraformer-Large,Modelscope下载量1300w+次,并且能够一体化准确预测时间戳。FunClip也集成了SeACo-Paraformer的热词定制化功能,在ASR过程中可以指定一些实体词、人名等作为热词,提升识别效果。

 

技术突破

1.【Anthropic的Claude登陆欧洲,多语言AI助手助力金融酒店业】

Anthropic宣布其生成式AI助手Claude将在欧洲上线。Anthropic 表示,Claude精通法语、德语、意大利语、西班牙语和其他多种欧洲语言。Anthropic还将提供付费订阅版本Claude Pro,向用户开放其所有模型(包括最先进的Claude 3 Opus)。此外,Anthropic 推出了面向企业的Claude Team订阅计划,月费 28 欧元(当前约 219 元人民币)。

 

2.【智谱AI发布大模型平台,集成GLM系列大模型以及完整商业套件】

智谱AI上线大模型开放平台bigmodel.cn,该平台集成了GLM系列大模型,包括企业版 GLM-4/4V、个人版GLM-3Turbo、文本描述创作图像的CogView-3、角色定制模型CharacterGLM、中文向量模型Embedding-2和代码模型 CodeGeeX 等。这些模型由智谱 AI 自主研发,用户在bigmodel.cn 上可以找到完整的商业化套件。

 

投融资信息

1.【Monitaur获600万美元A轮融资,加速AI治理软件研发】

美国AI模型治理的初创公司Monitaur宣布筹集了600万美元的A轮融资。本轮融资Cultivation Capital领投,Rockmont Partners、Defy VC、Techstars和Studio VC等参投。该公司计划将筹集的资金用于加速公司增长,招募各职能领域的人才。Monitaur成立于2019年,由Anthony Habayeb担任首席执行官和联合创始人。公司的主营业务是为高度受监管的企业提供模型治理软件,帮助这些企业及其合作伙伴构建更好的人工智能和模型,以赢得商业、监管和消费者的信任。Monitaur提供的解决方案帮助企业和合作伙伴在整个建模项目生命周期中定义、管理和自动化基本的最佳实践,以确保模型系统的透明度、性能、公平性、安全性和合规性。