2024-09-06

AI精选（171）-人工智能领域内的最新进展：字节跳动的新项目，通过音频驱动静态照片生成动态视频

主理人：

今日精选，深度丰富、精彩纷呈！我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、字节跳动的新项目，通过音频驱动静态照片生成动态视频

并且生成头部和面部的自然动作，如表情变化、头部移动等。模型不仅支持各种音频和视觉风格，还能够生成高度逼真的细节，包括面部的微表情、眉毛和眼睛的细微变化以及头部的自然运动。它还支持生成非言语动作（如叹息、情感驱动的面部表情），使动画更加生动。效果非常不错... Loopy 摒弃了传统音频驱动生成方法中需要手动设定空间运动模板的限制。通过自主学习音频中的运动模式。可以自动生成逼真的肖像动画，无需人为干预，提升了生成过程的效率和灵活性。

项目地址及更多演示：https://loopyavatar.github.io

二、OpenAI前首席科学家llya Sutskever 的AI初创公司 SSI 融资10亿美元，

用于开发安全人工智能系统。此次融资由Andreessen Horowit、红杉资本和DST Global等知名投资公司领投，Nat Friedman的NFDG投资公司也参与其中。 SSI目前仅有约10名员工，计划利用这笔资金扩展计算能力并招聘顶尖人才。该公司拒绝分享其估值，但知情人士表示，其估值为50亿美元。

来源：reuters.com/technology/artificial-intelligence/openai-co-founder-sutskevers-new-safety-focused-ai-startup-ssi-raises-1-billion-2024-09-04/

三、新型类ChatGPT AI模型可检测多种癌症

一项研究发现，科学家设计了一种新型人工智能（AI）模型，可能能够诊断和评估多种癌症。

该模型名为临床组织病理学成像评估基础（CHIEF），在检测癌症、确定肿瘤来源和预测患者预后方面，比现有的深度学习模型有效性高出36%。该模型由哈佛医学院的研究人员开发，旨在更广泛地应用于不同的诊断任务，而不是像现有的癌症深度学习模型那样只执行特定功能。

CHIEF模型通过超过1500万张病理图像进行了训练，从而提高了其在诊断具有非典型特征的癌症时的可靠性。研究人员使用超过6万张高分辨率的组织切片图像，进一步开发了该AI模型，并对其进行了特定的遗传和临床预测任务的微调。该模型在来自全球24家医院和患者群体的19,400多张图像上进行了测试，并将研究结果发表在《自然》期刊上。

来源：https://www.euronews.com/health/2024/09/05/new-chatgpt-like-ai-model-could-detect-multiple-different-cancers-study-finds

四、Google DeepMind 刚刚推出了另一个大型 AI 生物技术系统：AlphaProteo

它设计可以与目标分子结合的新型蛋白质例如，这可以促进药物设计，为癌症、自身免疫性疾病等疾病创造更有针对性、副作用更小的治疗方法。

> 3-300x比当前方法更强的结合力

> 将数年的实验室工作缩短至几天或几周

> 成功设计针对不同靶点的结合剂，包括癌症相关蛋白

来源：dpmd.ai/3XuMqbX

五、特斯拉FSD路线图重点聚焦机器人出租车发布

该公司表示计划在明年初推出其自动驾驶辅助技术，并准备下个月在加利福尼亚推出其“Cybercab”机器人出租车。

特斯拉在CEO埃隆·马斯克的社交媒体平台上发布了投资者路线图，指出其高级自动驾驶软件（FSD）预计将在明年获得欧洲和中国的最终监管批准后上线。马斯克强调了AI技术的利润潜力，特别是在特斯拉计划为全球近700万辆电动车提供自动驾驶软件的背景下。

特斯拉的资本支出今年可能会增加到约100亿美元，主要用于投资AI技术和超级计算机Dojo，Dojo专注于计算机视觉处理和识别。特斯拉将在下个月的洛杉矶举行发布会，正式揭开其首款机器人出租车“Cybercab”的面纱。原计划在八月初发布的机器人出租车因车辆改进而推迟。

机器人出租车是特斯拉迈向自动驾驶领域的重要一步，预计到2024年底将开始无监督乘车试验。

来源：https://www.investors.com/news/tesla-stock-china-fsd-ai-roadmap/

六、Anthropic 推出企业版Claude

可以将 GitHub 仓库与 Claude 集成，同步代码库，可以管理和操作整个代码库。

扩展到 500K 上下文窗口

原生 GitHub 集成

企业级安全功能

与企业内部的知识库相结合，帮助不同职能团队协作完成项目，提高整体工作效率。

七、零一万物发布了 Yi-Coder 系列模型

是专为编码任务设计的小参数模型，有1.5B和9B两种参数，在代码生成、理解、调试等方面效果显著！可以在端侧部署。支持 52 种主要编程语言，可以处理长达 128K tokens 的上下文，在复杂项目级代码理解和生成中具有显著优势。 Yi-Coder-9B 的表现优于其他 10B 参数以下的模型，如 CodeQwen1.5 7B 和 CodeGeex4 9B，甚至能够与 DeepSeek-Coder 33B 相媲美。

GitHub：https://github.com/01-ai/Yi-Coder

八、推出我们的新旗舰型号 Phind-405B！

Phind-405B 在 HumanEval 上的得分为 92%，与 Claude 3.5 Sonnet 相当。我们对它在实际任务中的表现特别满意，特别是在设计和实施 Web 应用方面。我们对技术主题的关注也使 Phind 能够很好地回答所有问题。我们认为，我们新的 Phind Instant 模型（与 Phind-405B 的训练方式类似）是快速获得互联网来源答案的最佳方式。

来源：phind.com/blog/introducing-phind-405b-and-better-faster-searches