也就是给 AI 视频自动配音、配乐 V2A可以根据视频画面和用户提供的文字描述,自动生成与视频内容同步的音轨。 这包括背景音乐、环境音效甚至与视频内容匹配的对话。
试用链接:dpmd.ai/v2a
Copilot工具能够收集和分析患者的个人健康背景信息,包括遗传因素、家族病史、生活习惯等,确定患者罹患各种类型癌症的可能性,进行早期癌症筛查。 当患者被初步诊断为癌症时,该工具会立即分析其病历和检查结果,确定所需的预治疗检查项目。 在患者首次见到肿瘤学家之前安排必要的检查,如血液检查、影像学检查等,以减少等待时间。 在患者初次会诊时,工具提供综合的检查结果报告,帮助肿瘤学家做出更准确的治疗决策。

麦当劳正在停止在美国超过100家餐厅的驱动窗口系统中测试的人工智能点餐技术,这可能是快餐行业快速推出AI的一个小问题。该公司与IBM合作开发和测试了AI驱动的语音自动化点餐系统。尽管如此,麦当劳表示仍在进行与AI相关的解决方案的开发,其竞争对手也在进行类似的投资。
计划在2024年7月26日之前关闭参与测试的餐厅中的该技术。麦当劳在发给特许经营商的电子邮件中表示,IBM仍然是一个值得信赖的合作伙伴,并将在全球系统中继续使用其许多产品,但也暗示将考虑IBM以外的AI合作伙伴。
麦当劳和IBM于2021年开始合作,宣布开发自动点餐技术(AOT),作为其“加速拱门”增长计划的一部分,旨在为客户和餐厅团队创造更便捷和简化的点餐体验。IBM表示,与麦当劳合作开发的AOT技术在苛刻条件下表现出行业内最全面、快速且准确的能力。
来源:https://edition.cnn.com/2024/06/17/tech/mcdonalds-ai-drive-thru-program/index.html

TikTok在戛纳国际创意节上宣布推出新的AI工具,包括数字头像和语言配音功能,旨在帮助品牌和创作者将品牌信息翻译成不同语言。这些新功能是TikTok于5月推出的生成式AI产品套件“Symphony”的一部分。
Symphony包含多种工具,旨在简化创作者和营销人员的创意开发和内容制作流程。品牌和创作者现在可以在内容中使用预制的库存头像,这些头像看起来和移动起来都像真人,并设计成反映各种国籍和语言。
用户还可以创建自己的定制版本,将头像定制为自己的肖像或知识产权,或开发多语言角色,以在全球范围内分享内容。新的配音功能将帮助用户将自己的内容翻译成10多种语言,从而扩大创作者和品牌的影响范围。该工具使用AI识别视频中的语言,转录对话,翻译并生成所选语言的配音版本。

Geoffrey Hinton,被誉为“AI之父”,将为一家英国绿色材料初创公司担任顾问。该初创公司专注于开发环保材料,旨在减少环境污染和资源消耗。Hinton的加入被视为该公司的重大利好,预计将提升其技术创新能力和市场影响力。此次合作标志着AI技术在绿色科技领域应用的进一步深化,显示了AI在推动可持续发展方面的潜力。

Adobe宣布在其Acrobat PDF软件中加入多项新的AI功能,包括使用Adobe Firefly生成AI图像。用户可以在PDF中直接创建和编辑图像,使用Firefly功能如生成填充、去除背景、擦除和裁剪等。
从6月18日开始,所有Acrobat Standard和Pro的个人用户每月将免费获得250个生成积分,用于图像编辑和生成功能,具体免费时长未明确说明。Acrobat成为首个提供应用内生成图像功能的PDF解决方案,初期支持英语,并且仅限于桌面版本。新功能还包括升级的Acrobat AI助手,允许用户对多个PDF文件及其他文档(如Microsoft Word、PowerPoint和文本文件)进行问答、获取见解和创建内容。
AI助手的会议记录功能也得到了改进,增加了生成摘要功能,包括关键点和行动项目。Adobe重申其安全和隐私原则,表示不会使用客户数据训练生成式AI模型,所有生成内容都会自动附加内容凭证。从6月18日至6月28日,用户可以免费访问所有Acrobat AI助手功能。之后,免费版Reader用户和付费版Acrobat用户可以以每月5美元的价格购买助手附加订阅,直至9月4日。
来源:https://www.zdnet.com/article/adobe-will-let-you-create-ai-generated-images-in-your-pdfs-for-free/

Youcom是一家人工智能初创公司,正在筹集5000万美元资金,目标是扩展其在AI助手市场的业务。知情人士透露,这轮融资将帮助Youcom扩大其技术开发和市场推广力度。Youcom的AI助手能够处理各种任务,包括信息检索、内容生成和用户互动。该公司计划利用这笔资金提升产品的功能和用户体验,以更好地与市场上的其他AI助手竞争。
Youcom的创始团队表示,他们致力于打造一个多功能、高效的AI助手,满足用户在不同场景下的需求。

与之前专注于英文文本版本相比 Glyph-ByT5-v2能够支持10种不同语言的准确拼写,显著提升了多语言文本渲染的准确性和广泛性。 采用了最新的步骤感知偏好学习(SPO)方法,显著提升了视觉美学质量,使生成的图像在视觉上更加吸引人。
项目地址:https://glyph-byt5-v2.github.io
交互延迟低至320毫秒 StreamSpeech是一个“All in One” seamless语音模型,可以同时支持离线/任意延时下的语音识别、翻译、合成。