AI精选(207)-人工智能领域内的最新进展:Perplexity AI 推出了两个全新功能

主理人:
今日精选,深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值

一、Perplexity AI 推出了两个全新功能:内部知识搜索 和 Spaces 空间

内部知识搜索:允许用户同时搜索公共网页和内部知识库内容。 用户可以结合企业内部文件和网络数据,进行快速、全面的知识获取。

适用于金融、销售、HR 和初创公司等各类团队,帮助加快尽职调查、提案编写、员工问题解答等流程。

Space空间:可以创建一个 Space,邀请团队成员加入并共同工作,AI 助理也可以根据你的指令进行个性化的支持。 • 上传和存储文件 • 除了网络搜索之外还可以搜索文件 • 选择自己喜欢的AI模型 • 为答案编写自定义提示说明

 

 

 

 

二、ChatGPT Plus、Enterprise、Team 和 Edu 用户可以开始测试 

 

Windows 桌面应用程序的早期版本。 使用 Alt + Space 快捷键可以在您的 PC 上更快地访问 ChatGPT。

来源:https://openai.com/chatgpt/download/

 

 

 

三、全球首创桌面双轮足式 AI 机器人 :XGO-Rider  

 

接入了ChatGPT 能跑、能看、能说、倒不了... XGO Rider 是一款桌面双轮足式机器人,可以灵活移动,并且具备自平衡功能,它可以在桌面上快速移动,并且不会失去平衡倒下。

 XGO-Rider 集成了 ChatGPT 自然语言处理功能,这使得机器人不仅可以识别手势和动作,还能与用户进行自然语言的交流。

 

 

 

四、GPT 4o Canvas 新增了一个“显示更改”功能

 

可以查看写作或者编码被修改的变化。 也就是可以查看AI 修改了哪些位置,改了什么内容,怎么改的。 这个功能类似于文档编辑中的“修订模式”,帮助你追踪并理解每次的内容修改变动。

 

 

 

五、法国AI初创公司 Mistral 推出了名为 Les Ministraux

 

新一代生成式AI模型。 专为笔记本电脑和智能手机等边缘设备设计 针对本地、隐私优先的AI任务优化,支持如设备内翻译、智能助手、局部分析和自主机器人等应用。 模型分为 Ministral 3B 和 Ministral 8B。

这两个模型均具备 128k上下文窗口,能够处理长达50页书籍的文本。 Mistral 的模型声称在多个AI基准测试中表现优于同类型的 Llama 和 Gemma 模型。

 

 

 

六、百度之前的发布的根据单张图像和音频生成视频的Hallo

 

更新了 Hallo 2 版本能够根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频 并能控制人物表情和姿态 - 生成视频时长:最多支持生成1小时的连续人像视频,

且保持视觉一致性。 - 4K分辨率支持:最高支持4K分辨率视频输出, 生成的人像动画在细节和清晰度方面表现出色。 - 表情和风格控制:通过语音和文本标签的结合,生成的内容表现出高水平的可控性,能够根据不同输入生成情感丰富的多样化内容。

 视觉一致性与时间连贯性:Hallo2 通过补丁丢弃和噪声增强技术,在生成长时视频时极大程度上减少了表情抖动和外观漂移等问题。

 

 

 

七、AMT-APC:自动生成钢琴伴奏模型

 

将任意音乐转换成与原曲匹配的钢琴伴奏 该模型能通过从音频文件(例如一首歌或音乐片段)中提取信息,并根据音频中的旋律、和弦和节奏等特征,生成与原曲匹配的钢琴伴奏。 还可以根据不同风格生成多种风格的钢琴伴奏。用户可以选择生成欢快、平静、激烈等不同情感风格的伴奏。

项目地址:https://misya11p.github.io/amt-apc/

 

 

 

 

八、OpenAI 发布 gpt-4o-audio-preview 模型

 

主要功能包括: - 根据文本生成语音响应。 

 分析音频输入的情感、语调和音调。 

 支持语音到语音的互动,音频既可以作为输入也可以作为输出。

与Realtime API的区别: gpt-4o-audio-preview:主要用于语音生成、语音情感分析、语音到语音交互,注重语音输入和输出的细节处理,如语调、情感等。 Realtime API:侧重实时数据处理,适用于需要即时反馈的场景,如实时语音转文本、即时翻译等连续互动的应用。