Blog

  • AI编程初创公司Augment获2.27亿美元B轮融资

    Augment

    2024年4月25日,总部位于美国加利福尼亚州的AI编程助手初创公司 Augment 宣布已经从隐秘模式中退出,并完成了 2.27 亿美元的 B 轮融资,投后估值接近独角兽(9.77 亿美元)。本轮融资的投资方包括 Sutter Hill Ventures、Index Ventures 和 Innovation Endeavors 、Lightspeed Venture Partners 和 Meritech Capital等风险投资公司。加上此前 Sutter Hill Ventures 领投的 2500 万美元 A 轮融资,Augment 的总融资额达到了 2.52 亿美元。

    该公司计划将筹集的资金用于开发与GitHub Copilot竞争的产品,即一个AI编程助手。

    Augment 由前微软和PureStorage工程师 Igor Ostrovsky 和前 Google 人工智能研究科学家 Guy Gur-Ari 联合成立于 2022 年,其人工智能平台旨在对代码库有专业的理解,以思考的速度运行,支持团队而不仅仅是个人,并仔细保护知识产权。该公司的目标是为软件团队提供人工智能支持,并颠覆当今软件开发的方式。

    (消息来源:TechCrunchAugment

  • OpenELM – 苹果开源的高效语言模型系列

    OpenELM是什么

    OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

    苹果OpenELM

    OpenELM的基本信息

    • 参数规模:OpenELM总共有八个模型,其中四个是预训练的,四个是指令微调的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数规模(270M、450M、1.1B和3B)。
    • 技术架构:OpenELM采用了基于Transformer的架构,使用了层间缩放(layer-wise scaling)策略,通过调整注意力头数和前馈网络(FFN)的乘数来实现参数的非均匀分配。该模型采用了分组查询注意力(Grouped Query Attention, GQA)代替多头注意力(Multi-Head Attention, MHA),使用SwiGLU激活函数代替传统的ReLU,以及RMSNorm作为归一化层。
    • 预训练数据:OpenELM使用了多个公共数据集进行预训练,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,总计约1.8万亿个token。
    • 开源许可:OpenELM的代码、预训练模型权重和训练指南都是在开放源代码许可证下发布的。此外,苹果还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。

    OpenELM的官网入口

    OpenELM模型

    OpenELM的技术架构

    • Transformer架构:OpenELM采用了仅解码器(decoder-only)的Transformer模型架构,这是一种在自然语言处理中广泛使用的架构,特别适用于处理序列数据。
    • 层间缩放(Layer-wise Scaling):OpenELM通过层间缩放技术有效地在模型的每一层分配参数。这意味着模型的早期层(接近输入端)使用较小的注意力维度和前馈网络维度,而接近输出端的层则逐渐增加这些维度的大小。
    • 分组查询注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替传统的多头注意力(Multi-Head Attention, MHA)。GQA是一种注意力机制的变体,旨在提高模型处理长距离依赖的能力。
    • RMSNorm归一化:OpenELM使用了RMSNorm作为其归一化层,一种有助于稳定训练过程的技术。
    • SwiGLU激活函数:在前馈网络(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函数,一种门控激活函数,有助于模型捕捉复杂的模式。
    • RoPE位置编码:为了编码位置信息,OpenELM使用了旋转位置编码(Rotary Positional Embedding, RoPE),一种可以处理序列中元素顺序的编码方式。
    • Flash注意力:在计算缩放点积注意力(scaled dot-product attention)时,OpenELM使用了Flash注意力,这是一种快速且内存高效的注意力计算方法。

    OpenELM的性能表现

    研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

    OpenELM基准测试得分

  • AI预测安全平台BforeAI获1500万美元A轮融资

    BforeAI

    2024年4月24日,总部位于法国蒙彼利埃和美国纽约的AI驱动的预测性安全平台 BforeAI 宣布筹集了1500万美元的A轮融资。本轮融资由SYN Ventures领投,早期投资者Karma Ventures、Karista、Addendum Capital以及新投资者纽约市合作伙伴基金参投。

    该公司计划将筹集的资金用于加速在美国的扩张,以及增强服务更复杂客户的能力。

    BforeAI由Luigi Lenguito成立于2020年,提供预测性攻击情报和数字风险保护服务(DRPS),利用行为AI技术,通过其PreCrime™平台,旨在将网络安全防御从被动反应转变为主动预防。BforeAI提供品牌保护和威胁情报解决方案,其自动化在线欺诈保护服务速度快、准确率高。

    (消息来源:PR Newswire

  • AI电话营销初创公司Nooks获2200万美元A轮融资

    Nooks

    2024年4月24日,总部位于美国旧金山的AI驱动的电话营销初创公司 Nooks 宣布筹集了2200万美元的A轮融资。本轮融资由前Stripe高管Lachy Groom领投,Tola Capital和Stifel Venture Banking参投。

    该公司计划将筹集的资金用于进一步开发其AI平台以自动化销售代表经常执行的重复性任务。

    Nooks由Dan Lee在2020年创立,主要业务是为销售团队提供自动化工具,以提高销售效率。公司最初的想法是构建一个远程工作协作平台,以使数字空间中的工作比现实生活更智能和有效,但由于疫情后向办公室的过渡,这一想法未能获得足够的关注。Nooks转型利用AI技术帮助销售代表避免销售电话中的机械部分,如在无人接听时跳过数字,并提供笔记、呼叫记录和无效化处理功能。此外,Nooks还提供呼叫转录和评分功能,并且可以与Salesforce、HubSpot等CRM平台以及Outreach、SalesLoft和Apollo等销售参与平台集成。目前,Nooks已经拥有超过200个客户,并累计已筹集了超过2600万美元的风险资金。

    (消息来源:PR Newswire

  • Arctic – Snowflake开源的企业级AI大模型

    Arctic是什么

    Arctic是由云计算巨头Snowflake的AI研究团队开发的一款高效、开源的企业级大型语言模型,该大模型是一个拥有480亿(480B)的参数规模,由128个细粒度的专家构成的混合专家模型(MoE)模型。在成本效益、训练效率和推理效率方面具有显著优势,特别适合执行企业任务,如SQL生成、编程和指令遵循。Arctic采用Apache 2.0许可,提供对模型权重和代码的开放访问,并开源了数据集和研究洞察。

    Snowflake Arctic

    Arctic的主要特点

    • 参数规模:Arctic拥有480亿参数,但在推理时仅激活170亿参数,以提高效率。
    • 技术架构:采用混合架构,结合了密集变换器(Dense Transformer)和128个专家的MoE模型,每个专家有3.66亿参数。
    • 上下文窗口:模型训练时使用4K的注意力上下文窗口,并计划扩展至32K,以支持更长序列的处理。
    • 训练成本:Arctic的训练计算预算大约在200万美元以下(即少于3000个GPU周)即可达到顶级大模型的能力
    • 模型许可:Arctic在开放的Apache 2.0许可下发布,允许自由使用和修改。
    • 主要用途:专为企业设计,擅长执行SQL生成、编程和指令遵循等任务,适合创建定制企业模型。

    Arctic的训练效率

    Arctic的模型架构

    • 架构组成:Arctic采用了Dense-MoE Hybrid Transformer架构,这种架构结合了密集变换器(Dense Transformer)和混合专家模型(MoE)的特点。
    • 密集变换器规模:模型包含一个具有10B(10 billion,即10亿)参数的密集变换器模型。
    • MoE架构规模:在MoE部分,Arctic设计了128个细粒度的专家,每个专家拥有3.66B(3.66 billion,即36.6亿)参数。因此,MoE部分的总参数量为128×3.66B,即约470B(470 billion,即4700亿)参数。
    • 总参数量:结合密集变换器和MoE部分,Arctic的总参数量达到了480B(480 billion,即4.8万亿)参数。
    • 活跃参数选择:在推理过程中,Arctic使用top-2门控机制从128个专家中选择两个最合适的专家,这意味着在任何给定时间,大约有17B(17 billion,即170亿)的参数是活跃的。
    • 通信与计算重叠:为了提高训练效率,Arctic的架构设计允许在训练过程中将专家间的通信开销与计算任务重叠,从而隐藏了通信开销。
    • 推理效率:在小批量(如批量大小为1)的交互式推理中,Arctic模型的内存读取次数比Code-Llama 70B少4倍,比Mixtral 8x22B少2.5倍,这有助于提高推理性能。
    • 系统优化:Arctic与NVIDIA合作,利用TensorRT-LLM和vLLM团队的技术,为Arctic提供了初步的推理实现,并通过FP8量化技术,使得Arctic可以在单个GPU节点上运行。
    • 注意力上下文窗口:Arctic训练时使用的注意力上下文窗口为4K,团队正在开发基于attention-sinks的滑动窗口实现,以支持无限序列生成能力,未来计划扩展到32K注意力窗口。

    Arctic的性能表现

    Snowflake将Arctic与DBRX、Llama、Mixtral等模型在企业指标和学术指标方面的基准测试进行了对比,Arctic在企业智能指标上表现更好,在如MMLU等通用知识基准上的性能可能略低于一些最新模型,但它在这些基准上仍然保持了竞争力。

    Snowflake基准测试得分

    企业指标:与所有其他开源模型相比,Arctic 都表现出顶级性能,这些任务包括:

    • 编码(Coding):通过HumanEval+ 和 MBPP+ 基准测试编码能力。
    • SQL生成(SQL Generation):使用Spider基准测试SQL查询生成能力。
    • 指令遵循(Instruction Following):IFEval基准测试遵循复杂指令的能力。

    如何使用Arctic

    Snowflake Arctic 现已可从 Hugging Face、Replicate 等平台使用,后续将在包括 Snowflake Cortex、Amazon Web Services (AWS)、Microsoft Azure、NVIDIA API Catalog、Lamini、Perplexity 和 Together 等在内的平台陆续上线。

  • 英伟达宣布收购AI基础设施编排和管理平台Run:ai

    Run:ai

    2024年4月24日,GPU和AI芯片巨头NVIDIA英伟达正式宣布已与以色列人工智能初创公司Run:ai达成最终协议,将收购这家基于Kubernetes的工作负载管理和编排软件提供商。该交易的价值并未披露,但估计约为 7 亿美元。

    总部位于以色列特拉维夫的 Run:ai 成立于 2018 年,是一家提供基于 Kubernetes 的工作负载管理和编排软件的公司。专门为企业客户设计,帮助他们管理和优化计算基础设施,无论是在本地、云中还是在混合环境中。Run:ai 的平台支持所有流行的 Kubernetes 变体,并与第三方的 AI 工具和框架集成。

    NVIDIA计划在可预见的未来继续以相同的商业模式提供Run:ai产品,并将其整合到NVIDIA DGX Cloud中,后者是一个为企业提供的、针对生成性AI优化的AI平台。NVIDIA的客户,特别是使用NVIDIA DGX和DGX Cloud服务的客户,将能够利用Run:ai的技术来优化他们的AI工作负载,特别是大型语言模型的部署。

    (消息来源:NVIDIACTech

  • AI客服对话平台Parloa获6600万美元B轮融资

    Parloa

    2024年4月24日,总部位于德国柏林的AI客服对话平台初创公司 Parloa 宣布筹集了6600万美元的B轮融资。本轮融资的投资方包括美国的Altimeter Capital,以及EQT Ventures、Newion、Senovo、Mosaic Ventures和La Familia Growth。

    该公司计划将筹集的资金用于加强其在欧洲和美国市场的增长,特别是加速在美国市场的扩张。Parloa还打算利用这笔资金来进一步发展其AI驱动的语音对话技术,以提供更人性化的客服体验。

    Parloa成立于2018年,由联合创始人兼首席执行官Malte Kosub和联合创始人兼首席技术官Stefan Ostwald领导。公司的主营业务是提供对话AI平台,专注于客服自动化,包括电子邮件和即时消息的自动化。Parloa利用大型语言模型和生成式AI基础设施,为客户提供更智能的对话式AI解决方案。

    (消息来源:TechCrunch

  • Hyper-SD – 字节跳动推出的高效的图像合成框架

    Hyper-SD是什么

    Hyper-SD是由字节跳动的研究人员推出的一个高效的图像合成框架,旨在解决现有扩散模型在多步推理过程中计算成本高昂的问题。Hyper-SD通过轨迹分割一致性蒸馏(TSCD)技术,在不同时间段内保持数据的一致性,从而有效保留了原始的ODE(常微分方程)轨迹。此外,它还融入了人类反馈学习,优化了在低步数推理情况下的模型性能,并利用分数蒸馏进一步提升了单步推理的图像质量。该框架能够在保持高图像质量的同时,大幅减少必要的推理步骤,实现快速生成高分辨率图像,进一步推动了生成AI领域的发展。

    Hyper-SD

    Hyper-SD的官网入口

    Hyper-SD的工作原理

    • 轨迹分割一致性蒸馏(TSCD)将训练时间步长范围[0, T]划分为k个均匀的时间段。在每个时间段内部执行一致性蒸馏,使用原始模型作为教师,学生模型逐步学习教师模型的行为。通过逐步减少时间段的数量(如8 → 4 → 2 → 1),训练学生模型以逼近教师模型的全局行为。
    • 人类反馈学习(ReFL)利用人类对图像的偏好反馈来优化模型。训练奖励模型,使其能够识别并奖励更符合人类审美的图像。通过迭代去噪和直接预测,结合奖励模型的反馈,微调学生模型。
    • 分数蒸馏使用真实分布和假分布的得分函数来指导单步推理过程。通过最小化两个分布之间的KL散度,优化学生的单步生成性能。
    • 低秩适应(LoRA)使用LoRA技术来适配和训练学生模型,使其成为一个轻量级的插件,可以快速部署和使用。
    • 训练和损失函数优化定义损失函数,结合一致性损失、人类反馈损失和分数蒸馏损失。使用梯度下降等优化算法来训练学生模型,同时更新LoRA插件。
    • 推理和图像生成在训练完成后,使用学生模型进行图像生成的推理过程。根据应用场景的需求,选择适当的推理步骤数量,以平衡生成质量和效率。
    • 性能评估使用定量指标(如CLIP分数、美学分数)和定性指标(如用户研究)来评估生成图像的质量。根据评估结果,进一步调整和优化模型参数。
  • AI基础设施初创公司FlexAI获3000万美元种子轮融资

    FlexAI

    2024年4月24日,总部位于法国巴黎的人工智能计算基础设施初创公司 FlexAI 宣布筹集了2850万欧元(约合3000万美元)的种子轮融资。本轮融资的投资方包括Alpha Intelligence Capital (AIC)、Elaia Partners和Heartcore Capital领投,Frst Capital、Motier Ventures、Partech和InstaDeep的CEO Karim Beguir跟投。

    该公司计划将筹集的资金用于简化开发者构建和训练人工智能应用程序的计算基础设施,并推出其首个产品AI训练云服务产品。

    FlexAI成立于2023年10月,由Brijesh Tripathi和Dali Kilani共同创立。Brijesh Tripathi曾是GPU巨头Nvidia的高级设计工程师,并在苹果、特斯拉(直接向Elon Musk汇报)、Zoox(被亚马逊收购的自动驾驶初创公司)以及Intel的AI和超级计算平台AXG担任高级工程和架构职位。Dali Kilani在Nvidia和Zynga等公司担任过各种技术职务,并在法国初创公司Lifen担任CTO,该公司为医疗保健行业开发数字基础设施。FlexAI的目标是提供一个“通用AI计算”平台,允许开发者在不同架构上运行工作负载和部署AI模型,按使用量付费,而不是按小时租用GPU。

    (消息来源:TechCrunch

  • 商量拟人大模型 – 商汤推出的AI角色对话大模型

    商量拟人大模型是什么

    2该大模型具备角色定制、知识库构建、长对话记忆、多人群聊和角色亲密度设置等功能,能够精准记忆对话历史,识别人物关系,推动剧情发展。该模型广泛应用于情感陪伴、影视动漫IP角色互动、明星AI分身、角色扮演游戏等场景,旨在提升用户体验,增强用户粘性,同时确保内容安全性。

    商量拟人大模型

    商量拟人大模型的功能特色

    • 角色个性化定制:用户可以根据自己的喜好,为AI角色设定独特的基本信息、性格特征、对话风格等,打造专属的虚拟伴侣。
    • 知识库深度构建:通过构建行业领先的知识库,赋予AI角色丰富的知识储备,使其能够精准理解并回应各种问题,提供专业、有深度的对话体验。
    • 长对话记忆能力:AI角色具备强大的记忆功能,能够准确回忆数十轮以上的对话内容,让交流更加自然流畅。
    • 多人群聊互动:支持三人及以上的群聊场景,AI角色能够识别自我身份,理解人物关系,逻辑清晰地推动剧情发展,提供多人互动的乐趣。
    • 角色亲密度调节:用户可以根据需要,调节AI角色的对话亲密度,使其在不同阶段提供不同程度的情感交流,满足个性化的互动需求。
    • 内容安全性保障:作为通过《生成式人工智能服务管理暂行办法》备案的企业,商汤科技严格遵循相关法规,确保AI对话内容的安全合规,保护用户隐私。

    商量拟人大模型的应用场景

    • 情感陪伴:为用户提供虚拟伴侣、友人或情绪树洞等角色,通过情感沟通和陪伴,帮助用户排解孤独,消磨时间,实现现实生活中难以满足的对话体验。
    • 影视/动漫/网文IP角色:允许用户与影视、动漫、网络文学等作品中的热门IP角色进行对话,提供沉浸式体验,同时帮助版权方或平台提升用户粘性,开辟IP变现的新途径。
    • 明星/网红/艺人AI分身:通过与明星、网红、艺人的AI分身进行对话,粉丝可以获得专属且及时的亲密互动,这有助于经纪公司提升粉丝运营的质量与效率。
    • 语言角色扮演游戏:作为角色扮演游戏(RPG)的新形式,玩家可以在一个庞大的游戏世界观中扮演特定角色,与游戏世界中的角色互动,推进剧情,体验冒险。
    • 趣味挑战解谜:商量拟人大模型可以作为故事讲述者,引导用户进入一个充满挑战和谜题的互动故事。用户需要与AI角色互动,通过对话来解开故事中的谜题,推动情节发展。

    如何使用商量拟人大模型

    1. 访问商量拟人大模型的官网(https://character.sensetime.com/character-wb/home/
    2. 点击立即体验,扫码进行注册申请内测体验即可