2024-06-19

AI精选（92）-人工智能领域内的最新进展：谷歌宣布新技术“V2A”从视频生成音频

主理人：

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、Google 发布根据视频生成音频技术：V2A

也就是给 AI 视频自动配音、配乐 V2A可以根据视频画面和用户提供的文字描述，自动生成与视频内容同步的音轨。这包括背景音乐、环境音效甚至与视频内容匹配的对话。

二、Color Health 与OpenAI 合作，开发出Cancer Copilot 加速癌症患者治疗 Color’s

Copilot工具能够收集和分析患者的个人健康背景信息，包括遗传因素、家族病史、生活习惯等，确定患者罹患各种类型癌症的可能性，进行早期癌症筛查。当患者被初步诊断为癌症时，该工具会立即分析其病历和检查结果，确定所需的预治疗检查项目。在患者首次见到肿瘤学家之前安排必要的检查，如血液检查、影像学检查等，以减少等待时间。在患者初次会诊时，工具提供综合的检查结果报告，帮助肿瘤学家做出更准确的治疗决策。

来源：https://www.wsj.com/articles/openai-expands-healthcare-push-with-color-healths-cancer-copilot-86594ff1?mod=e2tw

三、麦当劳暂停了AI驱动的语音点餐技术测试，计划在2024年底前评估长期解决方案

麦当劳正在停止在美国超过100家餐厅的驱动窗口系统中测试的人工智能点餐技术，这可能是快餐行业快速推出AI的一个小问题。该公司与IBM合作开发和测试了AI驱动的语音自动化点餐系统。尽管如此，麦当劳表示仍在进行与AI相关的解决方案的开发，其竞争对手也在进行类似的投资。

计划在2024年7月26日之前关闭参与测试的餐厅中的该技术。麦当劳在发给特许经营商的电子邮件中表示，IBM仍然是一个值得信赖的合作伙伴，并将在全球系统中继续使用其许多产品，但也暗示将考虑IBM以外的AI合作伙伴。

麦当劳和IBM于2021年开始合作，宣布开发自动点餐技术（AOT），作为其“加速拱门”增长计划的一部分，旨在为客户和餐厅团队创造更便捷和简化的点餐体验。IBM表示，与麦当劳合作开发的AOT技术在苛刻条件下表现出行业内最全面、快速且准确的能力。

来源：https://edition.cnn.com/2024/06/17/tech/mcdonalds-ai-drive-thru-program/index.html

四、TikTok 推出拟人化AI生成头像及语言配音功能

TikTok在戛纳国际创意节上宣布推出新的AI工具，包括数字头像和语言配音功能，旨在帮助品牌和创作者将品牌信息翻译成不同语言。这些新功能是TikTok于5月推出的生成式AI产品套件“Symphony”的一部分。

Symphony包含多种工具，旨在简化创作者和营销人员的创意开发和内容制作流程。品牌和创作者现在可以在内容中使用预制的库存头像，这些头像看起来和移动起来都像真人，并设计成反映各种国籍和语言。

用户还可以创建自己的定制版本，将头像定制为自己的肖像或知识产权，或开发多语言角色，以在全球范围内分享内容。新的配音功能将帮助用户将自己的内容翻译成10多种语言，从而扩大创作者和品牌的影响范围。该工具使用AI识别视频中的语言，转录对话，翻译并生成所选语言的配音版本。

来源：https://www.thedrum.com/news/2024/06/17/tiktok-debuts-humanlike-ai-generated-avatars-language-dubbing-brands-creators

五、AI 之父 Geoffrey Hinton 将担任英国绿色材料初创公司的顾问

Geoffrey Hinton，被誉为“AI之父”，将为一家英国绿色材料初创公司担任顾问。该初创公司专注于开发环保材料，旨在减少环境污染和资源消耗。Hinton的加入被视为该公司的重大利好，预计将提升其技术创新能力和市场影响力。此次合作标志着AI技术在绿色科技领域应用的进一步深化，显示了AI在推动可持续发展方面的潜力。

来源：https://www.bloomberg.com/news/articles/2024-06-18/ai-legend-geoffrey-hinton-to-advise-uk-green-materials-startup?utm_source=twitter&cmpid=socialflow-twitter-business&utm_content=business&utm_medium=social&utm_campaign=socialflow-organic

六、Adobe允许免费在PDF中创建AI生成的图像

Adobe宣布在其Acrobat PDF软件中加入多项新的AI功能，包括使用Adobe Firefly生成AI图像。用户可以在PDF中直接创建和编辑图像，使用Firefly功能如生成填充、去除背景、擦除和裁剪等。

从6月18日开始，所有Acrobat Standard和Pro的个人用户每月将免费获得250个生成积分，用于图像编辑和生成功能，具体免费时长未明确说明。Acrobat成为首个提供应用内生成图像功能的PDF解决方案，初期支持英语，并且仅限于桌面版本。新功能还包括升级的Acrobat AI助手，允许用户对多个PDF文件及其他文档（如Microsoft Word、PowerPoint和文本文件）进行问答、获取见解和创建内容。

AI助手的会议记录功能也得到了改进，增加了生成摘要功能，包括关键点和行动项目。Adobe重申其安全和隐私原则，表示不会使用客户数据训练生成式AI模型，所有生成内容都会自动附加内容凭证。从6月18日至6月28日，用户可以免费访问所有Acrobat AI助手功能。之后，免费版Reader用户和付费版Acrobat用户可以以每月5美元的价格购买助手附加订阅，直至9月4日。

来源：https://www.zdnet.com/article/adobe-will-let-you-create-ai-generated-images-in-your-pdfs-for-free/

七、Youcom初创公司筹集5000万美元，瞄准AI助手市场

Youcom是一家人工智能初创公司，正在筹集5000万美元资金，目标是扩展其在AI助手市场的业务。知情人士透露，这轮融资将帮助Youcom扩大其技术开发和市场推广力度。Youcom的AI助手能够处理各种任务，包括信息检索、内容生成和用户互动。该公司计划利用这笔资金提升产品的功能和用户体验，以更好地与市场上的其他AI助手竞争。

Youcom的创始团队表示，他们致力于打造一个多功能、高效的AI助手，满足用户在不同场景下的需求。

官网：http://You.com

八、提高AI图像文字渲染的准确性的模型 Glyph-ByT5 升级到V 2版本

与之前专注于英文文本版本相比 Glyph-ByT5-v2能够支持10种不同语言的准确拼写，显著提升了多语言文本渲染的准确性和广泛性。采用了最新的步骤感知偏好学习（SPO）方法，显著提升了视觉美学质量，使生成的图像在视觉上更加吸引人。

项目地址：https://glyph-byt5-v2.github.io

九、StreamSpeech: 为国际会议、旅游、直播等场景打造的跨语言低延时交流利器

交互延迟低至320毫秒 StreamSpeech是一个“All in One” seamless语音模型，可以同时支持离线/任意延时下的语音识别、翻译、合成。

论文：https://arxiv.org/pdf/2406.03049

Github：https://github.com/ictnlp/StreamSpeech