2024-07-17

AI精选（120）-人工智能领域内的最新进展：Mistral AI 推出生成代码 Codestral Mamba

主理人：

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、Mistral AI 推出生成代码 Codestral Mamba和用推理的 Mathstral

这两者均可在 Apache 2.0 许可证下免费使用和定制

Codestral Mamba，一种用于使用 7B 参数生成代码的 Mamba2 语言模型，可在 Apache 2.0 许可证下免费使用，提供线性时间推理以实现高效的代码生产力

Mathstral，一个专为数学推理和科学发现而设计的 7B 模型，也在 Apache 2.0 许可下发布，在数学基准测试中展现出卓越的性能，并支持广泛的微调和适配

Codestral Mamba试用：https://mistral.ai/news/codestral-mamba/

Mathstral试用：https://mistral.ai/news/mathstral/

二、K-pop男团Seventeen在他们最新的专辑和单曲《Maestro》中使用了AI技术

成员Woozi表示他们在创作音乐时“实验”了AI，尽管他后来在Instagram上澄清所有音乐都是由人类创作者编写和作曲的。

AI在K-pop中的应用：除了Seventeen，女团Aespa也在其最新的音乐视频中使用了AI技术。粉丝和行业内人士对这一趋势有不同看法，有人认为AI技术能够帮助艺术家跟上技术进步，但也有人担心AI会削弱音乐的情感联系和艺术家的原创性。

未来的AI与音乐：尽管AI技术在音乐创作中被逐渐接受，但公众对AI技术的使用存在担忧。包括Billie Eilish和Nicki Minaj在内的西方音乐明星曾公开呼吁停止对AI音乐生成工具的“掠夺性”使用，强调保护人类创作艺术的重要性

来源：https://www.bbc.com/news/articles/c4ngr3r0914o

三、AI工具帮助记者在特朗普遇刺事件后核实图像真实性

西雅图非营利组织TrueMedia.org提供的AI工具被用来评估这些图像的真实性。关键图像核实：例如，一张显示子弹在特朗普头部后面飞行的照片被TrueMedia.org的AI工具确认未被操纵。这张照片由《纽约时报》摄影师Doug Mills拍摄。

实验性质：TrueMedia.org的创始人Oren Etzioni表示，尽管其结果是实验性的，但这些AI工具在事件的即时反应中表现出色。

广泛传播的信息：事件发生后，社交媒体上未经验证的信息迅速传播，助长了各种阴谋论。

来源：https://www.geekwire.com/2024/ai-tools-help-reporters-separate-fact-from-fiction-in-immediate-aftermath-of-trump-shooting/

四、调查显示许多人认为像ChatGPT这样的AI聊天机器人是有意识的

一项新的调查显示，超过三分之二（67%）的受访者认为生成性AI语言工具（如ChatGPT）具有某种程度的意识。

调查细节：这项由滑铁卢大学进行的研究对300名美国人进行了调查，询问他们是否认为ChatGPT有意识和规划、推理、感受情绪的能力。

评分系统：参与者需要在1到100的评分系统上评价ChatGPT的回应，其中100表示完全相信ChatGPT有意识，1表示完全不相信。

使用频率的影响：调查显示，使用ChatGPT越多的人越倾向于相信它具有某种形式的意识。

心理学教授观点：滑铁卢大学艺术学院心理学教授Clara Colombatto表示，这些结果展示了语言的力量，因为仅仅通过对话就能让人们认为一个看起来和我们完全不同的代理人也能拥有心智。

来源：https://www.techspot.com/news/103814-survey-shows-many-people-believe-ai-chatbots-like.html

五、谷歌开发出一个实时语音转换系统

在不改变语音内容和语调的情况下改变说话者音色它可以在手机上直接运行，在 Pixel 7智能手机上的端到端延迟为 70.8 毫秒。并适用于电话和视频会议等实时通信场景，还能实现语音匿名化。

主要应用场景包括： • 电话会议：在企业电话会议中使用，转换语音以保护与会者的隐私。 • 视频通话：在视频通话中使用，实时改变语音音色以达到特定效果。 • 在线游戏：在多人在线游戏中使用，改变玩家的语音音色以增强游戏体验。

论文：https://arxiv.org/pdf/2401.03078

六、H2O-Danube3：无需联网可以直接在手机上运行的开源模型

H2O-Danube3 是一系列小型语言模型。该模型能够提供聊天、问答服务、文本分类、数据分析等功能。能够在普通边缘硬件设备（如智能手机）上运行，而且无需连接网络。多任务能力： -通用语言任务：模型在序列分类、问答系统、token 分类等任务中表现优异，经过微调后能够在特定任务上超过一些大型模型。 -聊天能力：提供了 H20-Danube3-4B-Chat 和 H20-Danube3-500M-Chat 版本，专门针对聊天任务进行了优化和微调。 -多语言处理：支持处理多种语言的文本，能够进行多语言生成和理解。 -语言翻译：将文本从一种语言翻译到另一种语言，支持多种语言对。 -数据摘要：对结构化数据进行分析和总结，生成数据报告。从数据中提取有价值的洞察，生成分析报告。

链接： http://H2O.ai

七、Qwen2-Audio 要来了，音频+文字作为输入大模型

并生成相应的文字输出。这一革命性的技术为多种应用场景带来了前所未有的便捷和创新，特别适合以下几种场景：

语音聊天（voice chat）： Qwen2-Audio能够即时将语音转换为文字，极大地提升了语音聊天的效率和准确性。无论是个人沟通还是企业会议，这一功能都能让交流变得更加顺畅，减少了语言障碍和误解的可能性。

音频分析（audio analysis）：通过将音频数据转化为文字，Qwen2-Audio为音频分析提供了强大的工具。无论是音乐、播客还是录音内容，这款模型都能迅速解析出关键信息，帮助用户深入理解和分析音频内容，应用于市场调研、内容创作和学术研究等领域。

实时翻译（real-time translation）： Qwen2-Audio在实时翻译方面展现了强大的潜力。通过将不同语言的语音输入转换为文字，并进行即时翻译，用户可以在跨语言交流中无缝沟通。这一功能对国际会议、跨国商务谈判和多语言客服等场景尤为重要，极大地提升了交流效率。

来源：https://github.com/QwenLM/Qwen2-Audio

八、AutoGPT下一代发布

AutoGPT的下一代版本通过开源和模块化设计，使得AI代理的构建和部署更加简便，

主要特点：开源，从第一天起就在GitHub上开放。重点是简化AI代理的构建、运行和共享，同时提高其可靠性。项目包括两个主要组件：AutoGPT服务器（后端）AutoGPT构建器（前端）

增强了系统的可靠性和可用性，用户和开发者可以通过GitHub和社区参与，共同推动项目的发展。