AI精选(92)-人工智能领域内的最新进展:谷歌宣布新技术“V2A”从视频生成音频

主理人:
今日精选,深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值

一、Google 发布根据视频生成音频技术:V2A

 

也就是给 AI 视频自动配音、配乐 V2A可以根据视频画面和用户提供的文字描述,自动生成与视频内容同步的音轨。 这包括背景音乐、环境音效甚至与视频内容匹配的对话。

试用链接:dpmd.ai/v2a

 

 

 

二、Color Health 与OpenAI 合作,开发出Cancer Copilot 加速癌症患者治疗 Color’s

 

Copilot工具能够收集和分析患者的个人健康背景信息,包括遗传因素、家族病史、生活习惯等,确定患者罹患各种类型癌症的可能性,进行早期癌症筛查。 当患者被初步诊断为癌症时,该工具会立即分析其病历和检查结果,确定所需的预治疗检查项目。 在患者首次见到肿瘤学家之前安排必要的检查,如血液检查、影像学检查等,以减少等待时间。 在患者初次会诊时,工具提供综合的检查结果报告,帮助肿瘤学家做出更准确的治疗决策。

来源:https://www.wsj.com/articles/openai-expands-healthcare-push-with-color-healths-cancer-copilot-86594ff1?mod=e2tw

 

 

三、麦当劳暂停了AI驱动的语音点餐技术测试,计划在2024年底前评估长期解决方案

 

麦当劳正在停止在美国超过100家餐厅的驱动窗口系统中测试的人工智能点餐技术,这可能是快餐行业快速推出AI的一个小问题。该公司与IBM合作开发和测试了AI驱动的语音自动化点餐系统。尽管如此,麦当劳表示仍在进行与AI相关的解决方案的开发,其竞争对手也在进行类似的投资。

 

计划在2024年7月26日之前关闭参与测试的餐厅中的该技术。麦当劳在发给特许经营商的电子邮件中表示,IBM仍然是一个值得信赖的合作伙伴,并将在全球系统中继续使用其许多产品,但也暗示将考虑IBM以外的AI合作伙伴。

 

麦当劳和IBM于2021年开始合作,宣布开发自动点餐技术(AOT),作为其“加速拱门”增长计划的一部分,旨在为客户和餐厅团队创造更便捷和简化的点餐体验。IBM表示,与麦当劳合作开发的AOT技术在苛刻条件下表现出行业内最全面、快速且准确的能力。

来源:https://edition.cnn.com/2024/06/17/tech/mcdonalds-ai-drive-thru-program/index.html

 

 

 

四、TikTok 推出拟人化AI生成头像及语言配音功能

 

TikTok在戛纳国际创意节上宣布推出新的AI工具,包括数字头像和语言配音功能,旨在帮助品牌和创作者将品牌信息翻译成不同语言。这些新功能是TikTok于5月推出的生成式AI产品套件“Symphony”的一部分。

Symphony包含多种工具,旨在简化创作者和营销人员的创意开发和内容制作流程。品牌和创作者现在可以在内容中使用预制的库存头像,这些头像看起来和移动起来都像真人,并设计成反映各种国籍和语言。

用户还可以创建自己的定制版本,将头像定制为自己的肖像或知识产权,或开发多语言角色,以在全球范围内分享内容。新的配音功能将帮助用户将自己的内容翻译成10多种语言,从而扩大创作者和品牌的影响范围。该工具使用AI识别视频中的语言,转录对话,翻译并生成所选语言的配音版本。

来源:https://www.thedrum.com/news/2024/06/17/tiktok-debuts-humanlike-ai-generated-avatars-language-dubbing-brands-creators

 

 

 

五、AI 之父 Geoffrey Hinton 将担任英国绿色材料初创公司的顾问

Geoffrey Hinton,被誉为“AI之父”,将为一家英国绿色材料初创公司担任顾问。该初创公司专注于开发环保材料,旨在减少环境污染和资源消耗。Hinton的加入被视为该公司的重大利好,预计将提升其技术创新能力和市场影响力。此次合作标志着AI技术在绿色科技领域应用的进一步深化,显示了AI在推动可持续发展方面的潜力。

来源:https://www.bloomberg.com/news/articles/2024-06-18/ai-legend-geoffrey-hinton-to-advise-uk-green-materials-startup?utm_source=twitter&cmpid=socialflow-twitter-business&utm_content=business&utm_medium=social&utm_campaign=socialflow-organic

 

 

 

六、Adobe允许免费在PDF中创建AI生成的图像

Adobe宣布在其Acrobat PDF软件中加入多项新的AI功能,包括使用Adobe Firefly生成AI图像。用户可以在PDF中直接创建和编辑图像,使用Firefly功能如生成填充、去除背景、擦除和裁剪等。

从6月18日开始,所有Acrobat Standard和Pro的个人用户每月将免费获得250个生成积分,用于图像编辑和生成功能,具体免费时长未明确说明。Acrobat成为首个提供应用内生成图像功能的PDF解决方案,初期支持英语,并且仅限于桌面版本。新功能还包括升级的Acrobat AI助手,允许用户对多个PDF文件及其他文档(如Microsoft Word、PowerPoint和文本文件)进行问答、获取见解和创建内容。

AI助手的会议记录功能也得到了改进,增加了生成摘要功能,包括关键点和行动项目。Adobe重申其安全和隐私原则,表示不会使用客户数据训练生成式AI模型,所有生成内容都会自动附加内容凭证。从6月18日至6月28日,用户可以免费访问所有Acrobat AI助手功能。之后,免费版Reader用户和付费版Acrobat用户可以以每月5美元的价格购买助手附加订阅,直至9月4日。

来源:https://www.zdnet.com/article/adobe-will-let-you-create-ai-generated-images-in-your-pdfs-for-free/

 

 

 

七、Youcom初创公司筹集5000万美元,瞄准AI助手市场

Youcom是一家人工智能初创公司,正在筹集5000万美元资金,目标是扩展其在AI助手市场的业务。知情人士透露,这轮融资将帮助Youcom扩大其技术开发和市场推广力度。Youcom的AI助手能够处理各种任务,包括信息检索、内容生成和用户互动。该公司计划利用这笔资金提升产品的功能和用户体验,以更好地与市场上的其他AI助手竞争。

Youcom的创始团队表示,他们致力于打造一个多功能、高效的AI助手,满足用户在不同场景下的需求。

官网:http://You.com 

 

 

 

八、提高AI图像文字渲染的准确性的模型 Glyph-ByT5 升级到V 2版本

 

与之前专注于英文文本版本相比 Glyph-ByT5-v2能够支持10种不同语言的准确拼写,显著提升了多语言文本渲染的准确性和广泛性。 采用了最新的步骤感知偏好学习(SPO)方法,显著提升了视觉美学质量,使生成的图像在视觉上更加吸引人。

项目地址:https://glyph-byt5-v2.github.io

 

 

 

九、StreamSpeech: 为国际会议、旅游、直播等场景打造的跨语言低延时交流利器

 

交互延迟低至320毫秒 StreamSpeech是一个“All in One” seamless语音模型,可以同时支持离线/任意延时下的语音识别、翻译、合成。

论文:https://arxiv.org/pdf/2406.03049

Github:https://github.com/ictnlp/StreamSpeech