Blog

  • Topaz Video AI – AI视频增强软件,提升视频分辨率放大至8K

    Topaz Video AI是什么

    Topaz Video AI 是基于AI技术的视频增强软件,支持提升视频画质、分辨率和帧率。基于深度学习技术,将低分辨率视频放大至高清甚至4K、8K,修复噪点、模糊和损坏部分,增强细节和色彩表现。Topaz Video AI 支持将标准动态范围(SDR)视频转换为高动态范围(HDR)视频,改善对比度和色彩饱和度。最新版本引入更直观的界面,包括标签化设置、实时渲染和预设功能,极大提升用户体验和工作效率。

    Topaz Video AI

    Topaz Video AI的主要功能

    • 分辨率提升:将低分辨率视频(如480p、720p)放大至高清、4K甚至8K,同时保持画质清晰,减少模糊和锯齿。
    • 帧率提升:基于插值技术增加视频帧率,适用于慢动作视频制作。
    • 视频稳定:提供全帧稳定功能,减少画面抖动,支持自动裁剪适应不同场景。
    • 画质增强:修复视频中的噪点、模糊和损坏部分,增强细节和对比度,提升整体画质。
    • SDR到HDR转换:将标准动态范围(SDR)视频转换为高动态范围(HDR)视频,提升色彩饱和度和对比度,恢复高光和阴影细节。
    • 实时预览与渲染:支持实时渲染功能,用户快速查看处理效果,基于并排或分割视图比较不同设置。
    • 预设与标签化管理:用户保存常用设置为预设,方便快速应用到其他项目中。
    • 智能修复:自动修复视频中的损坏帧、水印或划痕,恢复视频的完整性。

    Topaz Video AI的官网地址

    Topaz Video 的应用场景

    • 老旧视频修复:提升低分辨率或损坏的老旧视频画质。
    • 专业影视制作:增强视频分辨率和帧率,满足高质量制作需求。
    • 社交媒体优化:将低质量视频升级为高清,提升视觉效果。
    • 视频稳定与降噪:修复抖动或噪点问题,使画面更清晰。
    • 创意视频制作:基于HDR转换等功能,激发创意,提升视觉表现。
  • Signs – 英伟达推出的 AI 手语学习平台

    Signs是什么

    Signs 是英伟达(Nvidia)推出的基于 AI 的手语学习平台,帮助用户更高效地学习美式手语(ASL)。平台通过摄像头捕捉用户的动作,基于先进的 AI 技术实时分析手势,提供反馈和纠正。平台配备 3D 虚拟人物,能演示标准的手语动作,用户可以直观地对比学习。Signs 支持用户上传自己的手语视频,经过专业验证后,视频将丰富平台的数据集,进一步优化学习体验。平台包含 40 万个视频片段,涵盖 1000 个手语单词,计划在未来加入面部表情和头部动作的识别功能,更全面地支持手语学习。

    Signs

    Signs的主要功能

    • 实时手势识别与反馈:通过摄像头捕捉用户的手势动作,基于 AI 模型实时分析,提供即时反馈和纠正,帮助用户更准确地学习手语。
    • 3D 虚拟人物教学:平台配备 3D 虚拟角色,能演示标准的手语动作,用户可以直观对比学习,提升学习效果。
    • 互动式学习体验:用户可以在平台上与虚拟角色互动,练习手语对话,增强学习的趣味性和实用性。
    • 用户贡献与数据扩展:用户可以上传自己的手语视频,经过专业验证后,被纳入平台的数据集,进一步丰富学习内容。
    • 丰富的学习资源:平台目前包含超过 40 万个视频片段,涵盖 1000 个手语单词,为学习者提供了丰富的学习素材。

    Signs的官网地址

    Signs的应用场景

    • 手语学习与教育:Signs 是强大的手语学习工具,适用于初学者和有一定基础的学习者。通过 3D 虚拟人物演示和实时 AI 反馈,用户可以直观地学习和纠正手势动作。
    • 无障碍技术开发:平台正在构建庞大的美式手语(ASL)视频数据集,包含超过 40 万个视频片段,涵盖 1000 个手语单词。这些数据将向公众开放,支持开发者构建无障碍应用,如智能会议实时翻译系统、虚拟手语客服解决方案,以及 AR 眼镜辅助沟通界面。
    • 社区与专业贡献:Signs 支持用户上传自己的手语视频,经过专业验证后纳入数据集,不断优化学习模型。
    • 方言与俚语支持:平台正在探索加入地区变体和俚语表达,以丰富 ASL 数据库,与罗切斯特理工学院合作,优化平台对不同手语变体的识别能力。
  • AI co-scientist – 谷歌推出多智能体协作的 AI 科研助手

    AI co-scientist是什么

    AI co-scientist 是谷歌推出的多智能体AI系统,作为虚拟科研机器人,协助科研人员搞定各种繁琐的科研任务,包括科研选题、文献检索和实验设计。AI co-scientist 基于Gemini 2.0 赋能,用生成、反思、排序、进化等多个智能体协同工作,模拟科学研究全流程。系统能理解科研目标,生成创新假设和研究方案,基于“测试时间计算”提升推理能力。AI co-scientist在药物重定向、靶点发现和抗生素耐药性机制等领域取得初步成果,展现加速科学发现的潜力。

    AI co-scientist

    AI co-scientist的主要功能

    • 理解科研目标:科学家基于自然语言向系统描述研究目标,系统理解生成相关的研究假设和实验方案。
    • 生成创新假设:系统基于文献探索和模拟科学辩论,生成新颖的研究假设。
    • 实验设计:系统提出详细的实验方案,包括实验步骤、预期结果和验证方法,评估可行性。
    • 自我优化:系统基于“假设锦标赛”和进化过程,不断优化假设的质量。
    • 文献综述与整合:系统快速回顾和总结相关文献,整合已有研究成果,为新的研究方向提供支持。

    AI co-scientist的技术原理

    • 多智能体架构:系统由多个智能体组成,包括生成智能体(Generation Agent)、反思智能体(Reflection Agent)、排名智能体(Ranking Agent)、进化智能体(Evolution Agent)、邻近性检查智能体(Proximity Check Agent)和元评审智能体(Meta-Review Agent)。智能体各司其职,协同完成复杂的科学推理任务。
    • 测试时间计算:系统在推理过程中动态分配计算资源,基于扩展推理时间增强其推理能力。
    • Elo评分机制:系统用Elo评分机制自动评估生成的假设和研究方案的质量。Elo评分越高,假设的质量越高。
    • 模拟科学方法:系统模拟科学研究的全流程(包括假设生成、验证、改进等步骤)生成高质量的研究方案。设计灵感来源于科学研究中的“假设-验证”循环。
    • 自然语言处理:系统基于 Gemini 2.0,理解和生成自然语言,科学家用自然的方式与系统交互,描述研究目标、提供反馈或接收系统输出。
    • 工具集成与扩展:系统与外部工具(如文献数据库、专业AI模型等)集成,利用外部工具扩展其能力,例如通过AlphaFold验证蛋白质结构设计。

    AI co-scientist的项目地址

    AI co-scientist的应用场景

    • 药物重定向:快速找到现有药物的新用途,如为急性髓系白血病(AML)找到新药,节省研发时间和成本。
    • 靶点发现:识别新的治疗靶点,例如在肝纤维化研究中提出新的表观遗传靶点,助力新药开发。
    • 耐药性机制研究:探索细菌耐药性机制,如提出噬菌体诱导染色体岛的相互作用假设,为抗菌策略提供新思路。
    • 实验设计:为生物医学研究生成创新假设和详细实验方案,提高研究效率。
    • 跨学科研究:整合多领域知识,打破学科壁垒,加速复杂疾病的跨学科研究。
  • Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

    Crawl4LLM是什么

    Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,提升大语言模型(LLM)预训练效率。Crawl4LLM基于智能评估网页对 LLM 预训练的价值,优先抓取高价值网页,相比传统爬虫效率提升近 5 倍。Crawl4LLM支持三种爬取模式:智能模式、随机爬取模式和基于链接数量的爬取模式,同时具备爬虫状态定期保存、数据可视化等功能,能与 DCLM 框架无缝对接,直接用在模型训练。

    Crawl4LLM

    Crawl4LLM的主要功能

    • 智能化网页选择:系统基于评估网页对 LLM 预训练的价值,优先抓取高价值网页,提升数据质量、减少无效数据抓取。
    • 多种爬取模式
      • 智能模式:基于网页价值评估,优先抓取高价值网页。
      • 随机模式:随机抓取网页,适用于非精准需求场景。
      • 基于链接数量模式:根据网页链接数量抓取,适合大规模数据采集。
    • 爬虫状态定期保存:支持定期保存爬虫状态,中断也能从中断点继续抓取,避免数据丢失。
    • 数据浏览与可视化:提供数据浏览工具和可视化界面,方便用户实时监控爬取进度和效果。
    • 与 DCLM 框架无缝对接:爬取的数据用在 LLM 预训练,提高数据流效率和准确性。

    Crawl4LLM的技术原理

    • 预训练影响力评分:Crawl4LLM 用预训练影响力评分器(如 DCLM fastText)对网页进行评分。评分器基于网页内容的质量、相关性等指标,评估网页对 LLM 预训练的贡献。在每次爬取迭代中,新发现的网页被评分器打分,根据分数决定爬取优先级。
    • 优先级队列:基于优先级队列对网页进行排序,优先爬取评分最高的网页,替代传统爬虫基于图连通性(如 PageRank)的调度机制。基于优先级队列,Crawl4LLM 快速发现和爬取对预训练最有价值的网页,减少对低价值网页的爬取。
    • 多维度数据评估:Crawl4LLM 考虑网页内容的质量,结合网页的链接数量、内容长度等多维度指标进行综合评分。分析高评分网页的链接关系,发现更多潜在的高价值网页。
    • 模拟与优化:在 ClueWeb22 数据集上进行大规模模拟实验,验证在不同场景下的有效性。基于实验优化算法参数,确保在有限的爬取量下达到最佳的预训练效果。
    • 减少对网站的负担:减少不必要的网页爬取,降低对网站的流量负担,提升爬取行为的合规性。Crawl4LLM 减少数据爬取对网站和网络资源的压力,推动了更可持续的预训练数据获取方式。

    Crawl4LLM的项目地址

    Crawl4LLM的应用场景

    • LLM预训练数据收集:高效获取高质量数据,用于大语言模型的预训练。
    • 搜索引擎优化:提升搜索结果质量,优化用户体验。
    • 数据集构建:快速筛选和构建高质量语料库,满足研究和商业需求。
    • 网络监测与分析:监测网络动态,分析热点话题和信息传播。
    • 企业级数据采集:精准抓取特定领域数据,用于知识管理或市场分析。
  • OSUM – 西北工业大学开源的语音理解模型

    OSUM是什么

    OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。OSUM基于“ASR+X”多任务训练策略,用模态对齐和目标任务的优化,实现高效稳定的训练。OSUM用约5万小时的多样化语音数据进行训练,性能在多项任务中表现优异,在中文ASR和多任务泛化能力上表现出色。

    OSUM

    OSUM的主要功能

    • 语音识别:将语音转换为文本,支持多种语言和方言。
    • 带时间戳的语音识别:在识别语音内容的同时,输出每个单词或短语的起止时间。
    • 语音事件检测:识别语音中的特定事件(如笑声、咳嗽、背景噪音等)。
    • 语音情感识别:分析语音中的情感状态(如高兴、悲伤、愤怒等)。
    • 说话风格识别:识别说话者的风格(如新闻播报、客服对话、日常口语等)。
    • 说话者性别分类:判断说话者的性别(男性或女性)。
    • 说话者年龄预测:预测说话者的年龄范围(如儿童、成年人、老年人)。
    • 语音转文本聊天:将语音输入转化为自然语言回复,用在对话系统。

    OSUM的技术原理

    • Speech Encoder:用Whisper-Medium模型(769M参数),负责将语音信号编码为特征向量。
    • Adaptor:包含3层卷积和4层Transformer,用在适配语音特征与语言模型的输入。
    • LLM(语言模型):基于Qwen2-7B-Instruct,用LoRA(Low-Rank Adaptation)微调,适应多任务需求。
    • 多任务训练策略
      • ASR+X训练范式:同时训练语音识别(ASR)任务和一个附加任务(如SER、SGC等)。基于共享特征和优化目标,提升模型的泛化能力和稳定性。
      • 自然语言Prompt:基于为LLM提供不同的自然语言提示(Prompt),引导模型执行不同的任务。
    • 数据处理与训练:约5万小时的多样化语音数据进行多任务训练,数据集包括开源数据和内部处理数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,然后与LLM结合,进行进一步的监督训练。

    OSUM的项目地址

    OSUM的应用场景

    • 智能客服:基于语音识别和情感分析,自动理解客户需求并提供个性化服务。
    • 智能家居:识别语音指令和背景事件,优化语音交互体验。
    • 教育工具:分析学生语音,提供个性化学习反馈。
    • 心理健康监测:检测语音中的情绪变化,辅助心理健康评估。
    • 多媒体内容创作:自动生成字幕和标签,辅助视频编辑。
  • BioEmu – 微软推出的生成式深度学习系统

    BioEmu是什么

    BioEmu是微软研究院推出的生成式深度学习系统,高效模拟蛋白质的动态结构和平衡态构象。能在单个GPU上每小时生成数千种蛋白质结构样本,效率远超传统的分子动力学(MD)模拟。通过结合大量蛋白质结构数据、超过200毫秒的MD模拟数据以及实验蛋白质稳定性数据,BioEmu能以约1 kcal/mol的相对自由能误差准确预测蛋白质的平衡态构象。

    BioEmu

    BioEmu的主要功能

    • 高效生成蛋白质结构:BioEmu能在单个GPU上每小时生成数千种统计独立的蛋白质结构样本,显著提高了蛋白质结构采样的效率。
    • 模拟蛋白质动态变化:模型可以定性地模拟多种功能相关的构象变化,包括隐蔽口袋的形成、特定区域的展开以及大规模结构域重排。
    • 预测蛋白质热力学性质:BioEmu能定量预测蛋白质构象的相对自由能,误差控制在1 kcal/mol以内,与实验测量的蛋白质稳定性高度一致。
    • 提供实验可验证的假设:通过同时模拟结构集合和热力学性质,BioEmu可以揭示蛋白质折叠不稳定的机制,为实验研究提供可验证的假设。
    • 支持个性化医疗:BioEmu可以根据特定基因序列预测蛋白质结构变化,为个性化医疗和疾病治疗提供支持。
    • 降低计算成本:与传统的分子动力学(MD)模拟相比,BioEmu显著降低了计算成本,同时提高了预测精度。

    BioEmu的技术原理

    • 生成式深度学习架构:BioEmu基于生成式深度学习模型,结合AlphaFold的evoformer蛋白质序列表示和扩散模型,从平衡态集合中采样三维结构。能在单个GPU上每小时生成数千个统计独立的蛋白质结构样本。
    • 大规模数据驱动的训练:BioEmu的训练数据包括大量的蛋白质结构信息、超过200毫秒的分子动力学(MD)模拟数据以及实验测量的蛋白质稳定性数据。通过这些数据,模型能学习蛋白质在不同条件下的动态行为和平衡态分布。
    • 定性和定量的模拟能力:从定性角度看,BioEmu能模拟多种功能相关的构象变化,如隐蔽口袋的形成、特定区域的展开以及大规模结构域重排。从定量角度看,BioEmu能以约1 kcal/mol的相对自由能误差准确预测蛋白质构象,与毫秒级MD模拟和实验测量的蛋白质稳定性高度一致。
    • 同时模拟结构和热力学性质:BioEmu能生成蛋白质的结构集合,能模拟其热力学性质,如相对自由能。能揭示蛋白质折叠不稳定的原因,为实验研究提供可验证的假设。
    • 高效采样与计算成本降低:与传统的分子动力学模拟相比,BioEmu显著提高了采样效率,降低了计算成本。成为研究蛋白质动态机制的强大工具。

    BioEmu的项目地址

    BioEmu的应用场景

    • 科学研究:BioEmu可用于研究蛋白质的动态机制,模拟功能相关构象变化(如隐蔽口袋形成、结构域重排等),预测蛋白质稳定性。
    • 药物开发:BioEmu能预测蛋白质的功能性构象变化,帮助快速生成目标蛋白质的多种结构,优化药物结合位点的预测和筛选。可用于个性化医疗方案设计,根据特定基因序列预测蛋白质结构变化,为疾病提供精准治疗策略。
    • 医疗应用:BioEmu可用于研究与蛋白质构象异常相关的疾病机理(如神经退行性疾病),开发新的诊断工具,以及优化治疗策略。能模拟治疗干预对蛋白质结构和功能的影响,为临床决策提供支持。
    • 补充传统方法:BioEmu通过高效采样和数据驱动的训练,显著提高了蛋白质结构模拟的效率和准确性,弥补了传统分子动力学模拟的不足,为生物医学研究提供了强大的计算支持。
  • Lawdeck – AI法律平台,专注巴西法律、一键生成多类型法律文件

    Lawdeck是什么

    Lawdeck 是基于人工智能技术的智能法律文档创建平台,帮助法律专业人士快速生成、编辑和共享法律文件。通过AI驱动的功能,能在短时间内根据用户输入的细节生成完整的法律文档,提供即时的法律研究支持,确保内容符合最新法规和判例法。Lawdeck 具备法律决策预测功能,帮助用户提前预判法律风险和结果。平台专注于巴西法律背景,适合律师、法务人员和其他法律专业人士使用。

    Lawdeck

    Lawdeck的主要功能

    • 自动化法律文件创建:Lawdeck 可以在一分钟内生成各种类型的法律文件,如合同、诉状和请愿书。用户只需输入详细信息选择策略,平台可生成完整的可编辑和共享的文件。
    • 人工智能法律研究:平台提供实时法律研究功能,能快速搜索并提供最新的法律判例、法规和学说,帮助用户获取准确且相关的法律信息。
    • 法律决策预测:Lawdeck 的 AI 系统能根据案件的具体情况,提供预测性的法律建议,帮助用户提前评估法律风险和可能的案件结果。
    • 定制化和控制:用户可以根据自身需求定制评估标准和文件模板,例如添加水印和标识,满足特定的业务需求。
    • 安全协作流程:Lawdeck 支持法律专业人士的安全协作工作流程,用户可以与团队成员共享文件并协作处理案件。
    • 广泛的法律数据库覆盖:平台整合了巴西所有法院的判例数据库,确保用户能获取最新且相关的法律内容。

    Lawdeck的官网地址

    Lawdeck的应用场景

    • 法律决策预测:Lawdeck 能为用户提供法律决策预测,帮助律师提前评估案件的可能结果,制定最佳法律策略。
    • 安全协作与文件共享:Lawdeck 支持法律专业人士的安全协作工作流程,用户可以与团队成员共享文件进行协作处理,提高工作效率。
    • 定制化法律建议:用户可以根据自身需求定制评估标准和文件模板,例如添加水印和标识,满足特定的业务需求。
    • 法律知识库管理:Lawdeck 提供24/7更新的法律知识库,帮助用户随时获取最新的法律信息。
  • QuillWord – AI学术研究助手,实时语法检查和拼写纠错

    QuillWord是什么

    QuillWord 是专注于学术和研究写作的人工智能工具,帮助学生、研究人员和专业人士高效撰写高质量的学术内容。具备强大的 AI 写作功能,包括智能文本生成、语法检查、风格优化,自动生成文章大纲、标题和摘要等。QuillWord 提供 AI 邮件生成器,帮助用户撰写专业邮件,支持多种学术引用格式(如 APA、MLA 等),方便学术写作。

    QuillWord

    QuillWord的主要功能

    • AI 写作助手:提供智能文本生成,帮助用户快速撰写内容。实时语法检查和拼写纠错,确保文本准确无误。提供风格优化建议,使文章更加流畅、专业。
    • 大纲生成器:根据用户输入的主题或关键词,自动生成文章大纲。帮助用户快速组织思路,明确写作结构。
    • 标题和摘要生成器:自动生成有吸引力的标题和清晰的摘要。优化标题和摘要的关键词密度,提升学术作品的可读性和搜索可见性。
    • AI 邮件生成器:提供邮件内容、格式和语气建议。简化撰写专业邮件的过程,确保邮件表达得体。
    • 引用支持:支持多种学术引用格式(如 APA、MLA、芝加哥等)。自动生成引用,避免格式错误,提升学术规范性。
    • 文档编辑与校对:提供一键润色功能,优化句子结构和词汇选择。检测并修正语言风格问题,确保文章连贯性和一致性。
    • 多语言支持:支持多种语言的写作辅助,满足不同用户需求。提供语言翻译和本地化优化建议。
    • 云存储与协作:文档支持云存储,方便用户随时随地访问。支持多人协作,便于团队共同撰写和编辑文档。

    QuillWord的官网地址

    QuillWord的应用场景

    • 学术论文撰写:QuillWord 可以帮助研究生、博士生和研究人员高效完成学位论文或学术文章的撰写。
    • 研究报告制作:工具能辅助科研团队整理和呈现研究结果,生成清晰的报告结构和专业的内容,确保报告的逻辑性和可读性。
    • 学术期刊投稿:QuillWord 支持多种引用格式(如 APA、MLA、哈佛等),提供文本润色和结构优化功能,帮助用户确保文章符合期刊要求,提高被接收的几率。
    • 会议论文准备:学者可以用 QuillWord 快速生成高质量的会议演讲稿和海报内容,确保语言表达清晰、专业。
  • Sloyd – AI 3D模型生成工具,支持建筑、道具、武器等多种模型类别

    Sloyd是什么

    Sloyd是基于AI的3D模型生成工具,能用文本描述快速生成高质量的3D模型。Sloyd结合先进的AI技术和参数化模板,支持建筑、道具、武器等多种模型类别,提供实时优化、UV展开和纹理处理,确保模型适合游戏开发、3D打印等实时应用。用户无需专业建模知识,基于Web编辑器快速定制模型,享受直观的滑块和开关操作。Sloyd提供免费体验、社区支持和API集成,简化3D建模流程,帮助创作者高效实现创意。

    Sloyd

    Sloyd的主要功能

    • 文本生成3D模型:用户输入文本描述,Sloyd能快速将文字转化为详细的3D模型,支持建筑、道具、武器、车辆等多种类别。
    • 参数化模板定制:提供丰富的参数化模板库,用户基于滑块和开关等工具调整模型的形状、纹理和功能,实现高度定制化。
    • 实时优化与UV展开:生成的模型自动进行UV映射、LOD优化和纹理处理,确保模型适合游戏开发、3D打印等实时应用。
    • 多格式导出与兼容性:支持多种格式导出,无缝兼容主流3D软件和游戏引擎,如Unity、Unreal Engine等。
    • API集成:支持基于API集成到游戏或应用程序中,实现快速生成优化的3D资产。

    Sloyd的官网地址

    Sloyd的产品定价

    • Starter(入门)计划 :免费,每月10个导出积分,访问生成器库,AI功能:创建、编辑、使用AI纹理、创建多个对象、自定义颜色,不包含API访问。
    • Plus(增强)计划: $15/月/用户或 $180/年,Starter计划的所有内容,每月200个导出积分,API访问,AI功能与Starter计划相同。
    • Custom(自定义)计划: 需联系客服报价,包含Plus计划的所有内容,更多积分,私人生成器,SDK(软件开发工具包),游戏引擎插件,优先支持,API访问。

    Sloyd的应用场景

    • 游戏开发:快速生成游戏资产,适配主流引擎,提升开发效率。
    • 建筑设计:快速创建建筑模型,优化设计流程,助力方案呈现。
    • VR/AR:生成沉浸式3D场景,适配虚拟与增强现实应用。
    • 数字艺术:高效实现创意,支持多种风格,适配艺术创作。
    • 教育:简化3D建模学习,激发学生创造力,适配教学场景。
  • Helix – Figure 推出的端到端通用控制模型

    Helix是什么

    Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,用于人形机器人的控制。Helix首创性地实现对机器人整个上身(包括手腕、躯干、头部和手指)的高速率(200Hz)连续控制,支持多机器人协作,多个机器人共用同一组神经网络权重完成任务。Helix 基于自然语言指令拿起从未见过的物品,表现出强大的泛化能力。Helix 的训练完全端到端,无需任务特定的微调,在低功耗 GPU 上运行,具备商业部署潜力。

    Helix

    Helix的主要功能

    • 全上身控制:对机器人整个上半身(包括手腕、躯干、头部和手指)进行高速率(200Hz)的连续控制,实现高精度的动作协调。
    • 多机器人协作:支持多个机器人同时运行同一套神经网络权重,实现协作完成任务,例如共同搬运或整理物品。
    • 自然语言理解与执行:机器人基于自然语言指令完成各种任务,例如拿起从未见过的物品、操作抽屉或冰箱等。
    • 强大的泛化能力:处理数千种形状、大小和材质各异的物品。
    • 商业部署能力:完全在低功耗嵌入式 GPU 上运行,适合大规模商业化应用。

    Helix的技术原理

    • 系统2(S2):基于 7B 参数的开源视觉语言模型(VLM),负责场景理解和语言理解。处理频率为 7-9Hz,用于“慢速思考”高级目标,将视觉和语言信息转化为语义表征。将语义信息编码为连续的潜在向量,传递给系统1。
    • 系统1(S1):基于 80M 参数的 Transformer 编码器-解码器架构,用于底层控制。处理频率为 200Hz,快速执行和调整动作。将 S2 传递的潜在向量与视觉特征结合,转化为精确的机器人动作(如手腕姿态、手指控制、头部和躯干方向)。
    • 端到端训练:从原始像素和自然语言指令映射到连续动作输出,使用标准回归损失进行训练。训练过程中引入时间偏移,模拟 S1 和 S2 的推理延迟,确保训练与部署的一致性。
    • 解耦架构:S1 和 S2 分别运行在不同的时间尺度上,S2 负责高级语义规划,S1 负责实时动作执行。既保证系统的泛化能力,又实现了快速响应。
    • 优化推理部署:在机器人上,S1 和 S2 分别运行在独立的 GPU 上,S2 异步更新潜在向量,S1 实时执行动作控制。

    Helix的项目地址

    Helix的技术原理

    • 家庭服务:整理物品、收纳、操作家电等日常家务。
    • 多机器人协作:多个机器人共享一套神经网络,共同完成搬运或组装任务。
    • 物品抓取:基于自然语言指令抓取从未见过的物品,适用于物流和仓储。
    • 工业自动化:用在复杂的人机协作任务,如零部件装配和质量检测。
    • 服务行业:在酒店、餐厅等场所提供引导、递送和清洁服务。