Blog

  • TimesFM 2.0 – 谷歌研究团队开源的时间序列预测模型

    TimesFM 2.0是什么

    TimesFM 2.0是谷歌研究团队推出的开源时间序列预测模型。具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。模型采用仅解码器架构,结合输入修补和修补掩码技术,实现高效训练与推理,支持零样本预测。预训练数据集丰富,涵盖多个领域,使模型具有良好的泛化能力。TimesFM 2.0可用于零售销量预测、金融市场走势分析等常见场景,能在网站流量预测、环境监测、智能交通等众多领域发挥重要作用,为各行业提供有力的决策支持。

    TimesFM 2.0的主要功能

    • 强大的预测能力:能处理高达2048个时间点的单变量时间序列预测,支持任意预测时间跨度。
    • 灵活的预测频率选择:用户可以根据不同的时间序列特征,自由选择预测频率,增强了预测的灵活性。
    • 实验性分位头预测:模型主要进行点预测,同时实验性地提供了10个分位头,用于生成预测的不确定性估计,但这些在预训练后尚未经过校准。
    • 丰富的数据预训练:整合了多个数据集,包括TimesFM 1.0的预训练集和来自LOTSA的附加数据集,涵盖了住宅用电负荷、太阳能发电、交通流量等多个领域,为模型训练提供了广泛的基础。
    • 零样本学习能力:尽管模型的最大训练上下文长度为2048,但在实际应用中可以处理更长的上下文,展现出优秀的零样本学习能力。

    TimesFM 2.0的技术原理

    • 纯解码器架构:TimesFM 2.0 采用纯解码器架构,在处理时间序列数据时具有更高的计算效率,能更有效地捕捉长距离的时间依赖关系,更自然地进行单向预测。
    • 时间序列分块和位置编码:模型对时间序列进行分块处理,注入位置编码,通过堆叠的Transformer层提炼出数据中的时间顺序信息和不同时间点的关系。
    • 输入修补和修补掩码:通过输入修补和修补掩码技术,模型实现了高效训练和推理过程,还支持零样本预测,提升了模型的训练效率和泛化能力。
    • 预训练过程:TimesFM 2.0 在包含1000亿个真实世界时间点的大规模时间序列语料库上进行预训练,涵盖了多个领域和不同时间粒度的数据。预训练过程采用自监督学习方法,预测序列中的下一个时间点。
    • 灵活的输入处理:支持处理不同长度和频率的时间序列输入,适应各种实际应用场景。尽管预训练时最大上下文长度为2048,但在实际应用中,模型可以扩展处理更长的时间序列。
    • 分位点预测的实验性支持:模型引入了10个分位头,支持用户在单点预测的基础上获取不同分位数的预测值,为不确定性分析提供了新的可能性。

    TimesFM 2.0的项目地址

    TimesFM 2.0的应用场景

    • 零售业:可用于预测销量,帮助商家更好地进行库存管理和销售策略制定。
    • 金融市场:能预测股票走势等,为投资者提供决策参考。
    • 网站运营:可预测网站流量,助力网站优化和资源分配。
    • 环境监测:基于历史数据预测环境变化趋势,如空气质量、气候变化等,为环境保护和应对措施提供依据。
    • 智能交通:基于交通流量历史数据预测未来的路况,为城市规划和交通信号优化提供参考,有助于高峰时段管理和减少交通拥堵。
  • SVFR – 腾讯优图联合厦门大学推出的通用视频人脸修复统一框架

    SVFR是什么

    SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架,整合了视频人脸修复(BFR)、着色和修复任务,基于Stable Video Diffusion(SVD)的生成和运动先验,通过统一的人脸修复框架整合特定于任务的信息。SVFR引入了可学习的任务嵌入以增强任务识别,同时采用了一种新颖的统一潜在正则化(ULR)来鼓励不同子任务之间的共享特征表示学习。为了进一步提高恢复质量和时间稳定性,还引入了面部先验学习和自参考细化作为用于训练和推理的辅助策略。

    SVFR的主要功能

    • 视频人脸修复(BFR):提升视频中人脸的细节和清晰度,使模糊或损坏的人脸画面变得更加清晰和自然。
    • 人脸着色:为黑白或色彩失真的视频人脸添加生动的色彩,增强视觉效果。
    • 人脸修复(Inpainting):修复视频中人脸的缺失部分,如遮挡或损坏的区域,恢复完整的人脸细节。

    SVFR的技术原理

    • 任务整合:SVFR整合了视频人脸修复(BFR)、着色和修复任务,通过一个统一的框架来处理这些任务,实现协同增益。这种整合方法可以利用不同任务之间的互补信息,提升整体的修复效果。
    • 生成和运动先验:SVFR基于Stable Video Diffusion(SVD)的生成和运动先验,增强修复效果。SVD提供了强大的生成能力和运动信息,帮助模型更好地理解和处理视频中的人脸运动,确保时间连贯性。
    • 任务嵌入:引入可学习的任务嵌入,增强模型对特定任务的识别能力。使模型能更好地理解输入数据所属的任务类型,更准确地进行修复。
    • 统一潜在正则化(ULR):采用ULR方法,鼓励不同子任务之间的特征共享。通过将不同任务的中间特征整合到一个共享的潜在空间中,ULR有助于模型学习更通用的特征表示,提升修复质量。
    • 面部先验学习:为了进一步提高修复质量,SVFR引入了面部先验学习。通过使用面部地标等结构先验,模型可以更自然地嵌入面部结构信息,避免面部结构异常和纹理失真。
    • 自引用细化:在推理阶段,SVFR采用自引用细化策略,通过参考之前生成的帧来优化当前帧的修复结果,增强时间稳定性。这种策略确保了视频中人脸的平滑过渡和一致性。

    SVFR的项目地址

    SVFR的应用场景

    • 影视后期制作:对老旧电影中模糊、损坏的人脸画面进行修复,恢复清晰、自然的人脸细节,提升观影体验。
    • 网络视频内容创作:对拍摄条件不佳导致人脸质量差的视频片段进行修复,改善视频整体质量,增强观众吸引力。
    • 数字档案修复:对存储时间较长、质量退化的视频档案中的人脸部分进行修复,保留珍贵的历史影像资料。
  • FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术

    FaceLift是什么

    FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。FaceLift能精确保持个体的身份特征,生成具有精细几何和纹理细节的3D头部模型。FaceLift支持视频输入,实现4D新视图合成,能与2D面部重动画技术无缝集成,实现3D面部动画。

    FaceLift的主要功能

    • 单图像3D头部重建:从单张人脸图像中快速、高质量地重建出360度的3D头部模型,包括面部和头发的精细细节。
    • 多视图一致性:生成的3D模型在不同视角下保持一致,确保从任何角度查看都具有高质量的视觉效果。
    • 身份保持:在重建过程中,准确保持个体的身份特征,即使在生成不可见视图时也能保持高度的身份一致性。
    • 4D新视图合成:支持视频输入,实现4D新视图合成,在时间序列上生成一致的3D模型,适用于动态场景。
    • 与2D重动画技术集成:与2D面部重动画技术无缝集成,实现3D面部动画,为数字娱乐和虚拟现实应用提供支持。

    FaceLift的技术原理

    • 多视图扩散模型
      • 输入处理:基于图像条件扩散模型,用单张正面人脸图像为输入,生成多个视角的图像,包括侧面和背面视图。
      • 扩散模型核心:用Stable Diffusion V2-1-unCLIP模型,基于CLIP图像编码器生成的嵌入作为条件信号,确保生成图像的身份一致性和多视图一致性。
      • 多视图注意力机制:基于多视图注意力机制,模型在不同视图之间共享信息,生成多视角一致的RGB图像。
    • GS-LRM重建器
      • 输入融合:将生成的多视图图像及其对应的相机姿态输入到GS-LRM模型中,生成详细的3D高斯表示。
      • 3D高斯表示:用3D高斯作为底层表示,特别适合捕捉人类头部的复杂细节,如头发。每个2D像素对应一个3D高斯,参数包括RGB颜色、尺度、旋转四元数、不透明度和射线距离等。
      • 变换器架构:GS-LRM采用变换器架构,从一组姿态图像中回归像素对齐的3D高斯,生成详细的3D模型。
    • 优化与评估
      • 损失函数:在训练过程中,用MSE和感知损失的组合优化模型,确保生成的3D模型在视觉上与真实图像高度一致。
      • 评估指标:用PSNR、SSIM、LPIPS和DreamSim等标准指标评估重建质量,基于ArcFace进行身份保持的评估。

    FaceLift的项目地址

    FaceLift的应用场景

    • 虚拟现实(VR)和增强现实(AR):创建逼真的3D虚拟角色,提供沉浸式体验,支持实时交互。
    • 数字娱乐:生成高质量3D角色模型,用于电影、电视剧、游戏开发和动画制作,提高制作效率和质量。
    • 远程存在系统:在视频会议和远程协作中,用3D形式呈现用户,增强交流的自然感和沉浸感。
    • 社交媒体和内容创作:生成个性化3D头像,为内容创作者提供工具,丰富创作内容。
    • 医疗和教育:生成逼真的3D人体模型,用于医学教育、虚拟手术模拟,及文化遗产保护和虚拟博物馆展示。
  • Supademo – AI驱动的交互式产品演示创建平台

    Supademo是什么

    Supademo是AI驱动的交互式产品演示创建平台,用简化的录制、个性化和分享流程,帮助用户快速生成高转化率的产品演示。平台基于生成性AI技术,提供自动文本注释、AI语音旁白和多语言翻译等功能,增强演示效果。Supademo支持个性化编辑、团队协作和高级分析,适用于客户成功、销售赋能和产品营销等多种场景。

    Supademo

    Supademo的主要功能

    • 录制屏幕操作:用户能录制任何产品或工作流程的操作。
    • AI增强:自动生成文本注释、添加AI语音旁白,提供一键翻译成15+种语言的功能。
    • 个性化编辑:用户能添加章节、分支、CTA(呼叫行动)和其他元素来个性化产品演示。
    • 多渠道分享:Supademo支持用户将演示作为链接、多演示之旅或嵌入到支持文档、网站和上线剧本中。
    • 分支和展示:提供个性化的演示体验,用户用分支或多演示展示定制演示路径。
    • 高级分析:提供深入的分析,包括退出率、转化率、参与度和观众数据。

    Supademo的官网地址

    Supademo的产品定价

    • Free 计划:5个Supademo演示,无限截图,直观的演示编辑器,作为链接或嵌入分享,导出为视频或标准操作程序(SOP)。
    • Pro 计划:$27 每月,包含Free计划所有功能,演示分析,自定义品牌,缩放和自动播放,模糊和注释。
    • Scale 计划:$38 每月,包含Pro计划所有功能,动态变量,密码和电子邮件保护,高级观众洞察,条件性演示分支,可追踪的分享链接。
    • Enterprise 计划:包含Scale计划所有功能,HTML捕获,单点登录(SSO)和安全断言标记语言(SAML),多个工作区,专用支持,全方位的入职培训,分析导出。

    Supademo的应用场景

    • 产品演示和介绍:创建交互式的产品演示,向潜在客户展示产品功能和优势。
    • 客户支持和自助服务:在帮助文档和知识库中嵌入交互式指南,帮助用户自助解决问题。
    • 产品营销和推广:在营销材料中嵌入产品演示,提前展示产品价值,增加营销合格的线索。
    • 销售赋能:为销售团队提供个性化的产品演示,针对不同的客户角色和交易阶段进行定制。
    • 产品采用和扩展:用交互式、自助指南和上线教程推动产品采用,帮助用户更快地掌握产品。
  • 文佳AI – AI论文写作工具,根据论文主题和领域生成高质量写作参考

    文佳AI是什么

    文佳AI是专业的AI论文生成平台,旨在帮助用户高效、便捷地完成论文写作。具备多项实用功能,如论文选题、生成大纲、完整论文生成以及文献综述生成等。用户只需输入论文主题、研究领域等基本信息,选择所需功能,点击生成按钮,平台能快速输出相应内容。生成的论文内容逻辑清晰、专业性强,注重创新性,能为用户提供高质量的写作参考。

    文佳AI

    文佳AI的主要功能

    • 论文选题
      • 智能生成选题:用户输入研究领域、关键词等信息后,文佳AI能快速分析海量数据和学术趋势,生成一系列具有创新性和研究价值的论文选题,为用户提供丰富的选题参考,帮助用户找到合适的研究方向。
      • 选题优化建议:除了生成选题,还会对选题进行初步评估,从学术热点、研究难度、资料获取等方面给出优化建议,让用户能更全面地了解选题的可行性和优势,做出更明智的选择。
    • 生成大纲
      • 结构化大纲生成:根据用户确定的论文选题和要求,文佳AI能一键生成论文大纲,包括引言、文献综述、研究方法、结果与讨论、结论等各个部分的标题和简要内容,使论文结构清晰、逻辑严谨,为后续写作提供明确的框架和思路。
      • 大纲调整与修改:生成的大纲并非固定不变,用户可以根据自己的想法和写作习惯,对大纲进行调整和修改,如增减部分、修改标题、调整顺序等,文佳AI会实时反馈调整后的大纲内容,确保其符合用户的需求。
    • 完整论文生成
      • 全文内容生成:在用户输入详细信息和要求后,文佳AI能自动生成完整的论文内容,涵盖论文的各个部分,从引言的背景介绍、研究意义阐述,到文献综述的系统总结、研究方法的详细说明,再到结果与讨论的数据分析、观点阐述,以及结论的总结归纳等,一应俱全,大大节省了用户写作时间。
      • 内容风格定制:用户可以对生成内容的风格进行定制,如学术性、通俗性等,文佳AI会根据选择的风格生成相应风格的论文内容,满足不同用户对论文风格的需求。
    • 文献综述生成
      • 文献检索与分析:针对用户的研究主题,文佳AI能快速检索相关文献,对文献进行分析和整理,总结出已有研究的主要观点、研究方法、研究成果以及存在的不足等,为用户撰写文献综述提供详实的资料和清晰的思路。
      • 综述内容生成:在此基础上,生成系统性的文献综述内容,按照一定的逻辑顺序,如时间顺序、研究方法顺序、观点分歧顺序等,对文献进行综述,使用户能清晰地了解该研究领域的研究现状和发展趋势,为自己的研究奠定坚实的理论基础。

    如何使用文佳AI

    • 访问网址:访问文佳AI的官方网站 paperflowai.com。(点击获取-AI论文写作工具合集
    • 输入信息:根据平台提示,输入论文主题、研究领域、字数要求等基本信息。
    • 选择功能:选择需要使用的功能,如论文选题、生成大纲、完整论文生成或文献综述生成等。
    • 生成内容:点击生成按钮,等待平台根据输入信息和选择的功能生成相应内容。
    • 编辑修改:生成的内容可进一步编辑和修改,满足用户对论文质量和个性化表达的要求。

    文佳AI的应用场景

    • 开题报告生成:根据论题智能生成对应的开题报告,帮助学生顺利通过开题答辩。
    • 任务书生成:根据论题智能生成对应的任务书,明确研究任务和目标。
    • 文献检索与分析:快速检索相关学术文献,对大量文献进行筛选和分析,找到研究领域内的关键资料,为学术研究提供数据支持。
    • 学术趋势分析:用学术趋势分析功能,了解特定研究领域的最新动态和发展趋势,帮助研究人员把握学术前沿。
    • 行业报告撰写:帮助企业管理层和市场研究人员撰写行业报告,分析行业趋势、政策影响等,提升企业对行业的认知和应对能力。
  • Video Ocean V2.0 – 潞晨科技推出的升级版多功能AI视频生成平台

    Video Ocean V2.0是什么

    Video Ocean V2.0是潞晨科技推出的免费多功能AI视频生成平台,是Video Ocean的升级版本。Video Ocean V2.0在视频质量上实现质的飞跃,包括人物、动物、环境等画面精细度,和各种动作场景的流畅度,都达到全新高度。Video Ocean V2.0具有超级真实的画质、显著提升的运动幅度和更加多样的风格三大亮点,支持从3D写实到2D动画等多种画风切换。用户基于文生视频、图生视频、角色生视频等功能,轻松创作出属于自己的视觉大作,用“视频续写 & 重试”功能,让剧情更丰满或重新生成满意作品。

    Video Ocean V2.0

    Video Ocean V2.0的主要功能

    • 视频生成类
      • 文生视频:用户只需输入几行文字描述,AI根据文字自动生成相应内容的短片。
      • 图生视频:用户上传图片,如宠物照片,AI将图片中的主体“注入灵魂”,为静态图片赋予动态的生命力。
      • 角色生视频:系统基于保证角色在不同场景下“保持一致”,方便用户打造专属IP,轻松实现多期内容的联动。
    • 视频编辑类
      • 视频续写:支持最长续写到20秒,用户根据自己的需求,让剧情更丰满、转折更多样。
      • 重试功能:用户对AI生成的视频初始版本不满意,点击“重试”,AI自动重新生成视频。
    • 风格多样:平台支持从3D写实到2D动画、从电影质感到赛博朋克等多种画风的切换,满足用户不同风格的创作需求。

    如何使用Video Ocean V2.0

    • 访问平台:访问Video Ocean V2.0的官方网站,按照提示完成登录和注册。
    • 选择创作模式
      • 文生视频:输入想要生成视频的文字描述。例如,写“一只熊猫在竹林中悠闲地吃竹子”,然后提交。
      • 图生视频:找到图生视频的功能入口,上传想要转化为动态视频的图片。比如上传一张静态的宠物猫照片,让AI自动生成视频。
      • 角色生视频:用角色生视频功能,上传角色的图片或文字描述,确保角色在不同场景下的一致性。
    • 调整视频参数:根据需要调整视频的风格、时长、分辨率等参数。例如,选择3D写实风格,设置视频时长为15秒等。
    • 预览与编辑:视频生成后,预览视频效果。如果不满意,用“重试”功能重新生成,或用“视频续写”功能延长视频时长,丰富剧情。
    • 下载与分享:下载视频文件到本地,或直接分享到社交媒体等平台,与他人分享创意作品。

    Video Ocean V2.0的应用场景

    • 个人娱乐与创意分享:个人用户将创意故事、奇幻场景转化为视频,制作独特短视频分享至社交平台,展现个性。
    • 自媒体内容丰富:自媒体人结合文案生成匹配视频,如美食博主制作美食制作过程视频,增强内容吸引力,吸引更多粉丝。
    • 教育辅助教学:教师制作历史事件、科学原理等教学视频,学生制作单词记忆视频,让学习更直观有趣。
    • 影视前期构思:制片人、导演生成剧本场景、角色动作的初步视频样片,用于团队沟通和向投资方展示项目概念。
    • 文化传承推广:制作传统文化相关视频,如传统手工艺制作、民俗活动展示,传承和推广优秀传统文化。
  • 淘宝星辰 – 阿里妈妈推出的电商视频生成大模型

    淘宝星辰是什么

    淘宝星辰是阿里妈妈推出的电商视频生成大模型,专为淘宝天猫商家设计。能基于商家输入的图片或文本指令,一键生成高质量的视频。核心优势在于更懂商品展示,能精准识别并应用适合不同商品的展示手法;具备强大的多语种语义遵循能力,确保生成视频与用户意图高度契合;遵循物理和动作规律,使画面流畅自然;能稳定保持人物、商品和装饰元素的清晰与完整。商家可用它为商品详情页增添生动视频,提升商品吸引力,目前该工具已对淘宝天猫商家开放使用。

    淘宝星辰

    淘宝星辰的主要功能

    • 更懂商品的展示手法:基于丰富的电商数据和设计经验,自动识别并应用最适合不同类别商品的展示手法。从产品细节的精准呈现到整体风格的统一协调,确保每一件商品都能以最佳方式展示。
    • 更强的多语种语义遵循能力:深度理解参考图片和多语种指令(中/英),精准捕捉文本指令中的关键动作信息,确保生成视频与用户意图高度契合。
    • 合理的物理和动作规律:严格遵循物理规律和动作规范,确保画面流畅自然,避免出现不符合现实的画面效果,提升视频的真实感和专业度。
    • 稳定的人物、商品和装饰保持:人脸、商品、还是文字、贴纸等装饰元素,始终保持清晰、完整、无抖动或变形,提升视觉一致性。

    淘宝星辰的技术原理

    • 基于Unet Diffusion Model路线:淘宝星辰视频生成大模型是在Unet Diffusion Model路线的基础上研发的。Unet Diffusion Model是生成模型,通过逐步去除噪声来生成数据,能学习到数据的复杂分布,生成高质量的视频内容。
    • 自研3D VAE:为了更好地处理视频中的三维信息和空间结构,淘宝星辰研发了自研的3D VAE(变分自编码器)。3D VAE可以对视频中的物体、场景等进行三维建模和编码,将复杂的三维信息映射到低维的潜在空间中,再通过解码器从潜在空间中重建出高质量的视频帧,使生成的视频在空间结构和物体形态上更加真实、自然。
    • 面向生成任务的数据飞轮:构建了面向视频生成任务的数据飞轮,通过不断收集、标注和利用海量的电商数据,为模型训练提供了丰富的素材和监督信息。数据涵盖了各种商品的图片、视频、文本描述等,使模型能学习到不同商品的展示手法、风格特点以及与用户意图的对应关系,在生成视频时能够更精准地满足电商场景下的需求。
    • 多模型协同:淘宝星辰视频生成大模型包括Tbstar-T2V(文本到视频)、Tbstar-I2V(图片到视频)、Tbstar-V2V(视频到视频)等多个子模型,子模型相互协同,共同完成视频生成任务。进一步丰富视频生成的功能和效果。

    如何使用淘宝星辰

    • 访问平台:登录淘宝星辰的官方网站
    • 选择功能模块:选择“图生视频”功能模块。
    • 输入素材:上传一张高质量的服装模特展示图。
    • 生成视频:点击生成按钮,等待视频生成。
    • 视频编辑:生成的视频会自动显示在页面上,你可以进行简单的编辑,如添加品牌logo、调整颜色等。
    • 下载和使用:编辑完成后,下载视频并将其添加到商品详情页或用于社交媒体推广。
    • 使用限制:目前淘宝星辰仅对淘宝天猫商家开放,普通用户暂时无法使用。商家需要确保账号具有相应的权限。

    淘宝星辰的应用场景

    • 商品主图视频:某服装商家将一张高质量的模特展示图上传到淘宝星辰,生成一个5秒的视频主图,用于商品详情页,显著提高了商品的点击率和转化率。
    • 卖点吸睛视频:某电子产品商家上传多张产品图片,生成多个视频片段,通过模版视频方式添加转场、特效和文字,制作成一个展示产品功能和优势的卖点视频,用于社交媒体推广。
    • 种草内容视频:某美妆商家上传多张美妆产品图片,生成多个视频片段,通过剪辑视频方式添加解说和字幕,制作成一个种草视频,发布在小红书等平台上,激发消费者的购买欲望。
    • 虚拟试穿视频:某服饰商家上传用户的虚拟试穿图片,生成虚拟试穿视频,模拟服饰的真实上身效果,帮助消费者更好地了解商品,减少购买顾虑。
  • Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型

    Sky-T1是什么

    Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均已公开,用户可以从零开始复现该模型。模型的训练成本不到450美元。Sky-T1的训练数据由阿里巴巴的QwQ-32B-Preview推理模型生成,经过精心筛选和重构,基于OpenAI的GPT-4o-mini进行处理,更易于模型训练。在性能方面,Sky-T1在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI早期版本o1的预览版本,同时在LiveCodeBench的编程评估中也表现更佳。

    Sky-T1的主要特点

    • 开源性:Sky-T1的训练数据集和代码均已公开,用户可以从零开始复现该模型。
    • 低成本训练:模型的训练成本不到450美元,显著低于以往同等性能模型的数百万美元训练成本。
    • 推理能力:Sky-T1能有效进行自我事实核查,避免一些常见陷阱,在得出解决方案时可能需要更长时间,从几秒到几分钟不等。其在物理、科学和数学等领域的可靠性更高。
    • 训练数据与硬件:Sky-T1的训练数据由阿里巴巴的QwQ-32B-Preview推理模型生成,经过精心筛选,基于OpenAI的GPT-4o-mini对数据进行重构,更易于处理。训练这款拥有320亿参数的模型仅耗时约19小时,使用了8台Nvidia H100 GPU。
    • 性能表现:在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI的o1早期预览版本,还在一组来自LiveCodeBench(一种编码评估)的难题上击败了o1的预览版本。

    Sky-T1的项目地址

    Sky-T1的应用场景

    • 数学问题解决:Sky-T1在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI早期版本o1的预览版本,在解决复杂的数学问题时具有显著优势,适用于教育、科研和竞赛等领域。
    • 编程评估:在LiveCodeBench的编程评估中,Sky-T1也表现出色,能有效帮助开发者进行代码生成、优化和错误检测,适用于软件开发、编程教育和自动化测试等场景。
    • 科学研究:尽管在GPQA-Diamond测试中(包含物理学、生物学和化学领域的研究生水平问题)Sky-T1略逊于o1预览版,但在物理、科学和数学等领域的可靠性更高,适合用于科学研究和学术研究中的复杂问题解决。
  • Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

    Motion Dreamer是什么

    Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,再利用该表示生成高细节视频。其引入实例流这一新运动模态,可实现从稀疏到密集的运动控制,用户通过提供稀疏运动提示,模型能生成时间连贯视频。训练时采用随机掩码实例流策略,提升模型推理能力和泛化能力。在Physion数据集及自动驾驶数据集上的实验表明,Motion Dreamer在运动连贯性和物理合理性方面显著优于其他模型,同时生成高质量视频。

    Motion Dreamer的主要功能

    • 生成物理连贯的视频:作为一个两阶段视频生成框架,Motion Dreamer能生成符合物理规律的视频。在第一阶段,模型基于输入图像和运动条件生成中间运动表示,如分割图或深度图,专注于运动本身;在第二阶段,采用中间运动表示生成高细节的视频。
    • 实现稀疏到密集的运动控制:引入了实例流这一新的运动模态,用户可以提供稀疏的运动提示,如表示平均光流的方向箭头,模型能生成像素对齐的密集运动表示,实现时间连贯的视频生成。
    • 增强模型推理能力:采用随机掩码实例流的训练策略,训练时随机掩码部分实例流,要求模型重建完整的密集运动表示,促使模型推断缺失的运动提示,提高了模型的泛化能力和基于推理的运动生成效果。

    Motion Dreamer的技术原理

    • 两阶段生成框架
      • 第一阶段:运动推理:基于输入图像和运动条件,生成中间运动表示,如分割图或深度图,专注于运动本身。这一阶段采用基于扩散的视频生成模型,强调低频运动表示,以提高时间连贯性。具体来说,模型会预测光流、实例分割图和深度图等中间运动表示,这些表示共同构成了对场景动态的全面描述。
      • 第二阶段:高保真视频合成:利用第一阶段生成的中间运动表示作为条件,生成高细节的视频。通过将运动推理与视频合成解耦,使得模型能够更准确地生成符合物理规律的运动,同时保持视频的高质量细节。
    • 实例流:实例流是一种新的稀疏到密集的运动模态,用于连接人类输入与密集运动表示。为了将实例流有效地整合到模型中,会准备多尺度版本的实例流,匹配网络中不同尺度的特征图。然后通过Softmax Splatting函数,根据流场将特征图进行变形,将特征分布到新的位置,无缝地整合运动信息,同时保持可微性以支持端到端训练。
    • 随机掩码实例流训练策略:在训练过程中,随机掩码部分实例流,要求模型重建完整的密集运动表示。促使模型推断缺失的运动提示,增强模型的泛化能力和基于推理的运动生成效果。通过训练模型处理不完整的运动信息,能更好地理解和预测对象之间的交互以及合理的运动轨迹,即使在输入稀疏的情况下也能生成合理的运动。

    Motion Dreamer的项目地址

    Motion Dreamer的应用场景

    • 视频内容创作:在电影、电视剧、广告等视频内容制作中,Motion Dreamer可以生成高质量且物理连贯的视频片段,为创作者提供更多的创意空间和素材选择。
    • 动画制作:对于动画电影和游戏动画的制作,Motion Dreamer能生成逼真的角色动画,减少手动动画制作的时间和成本,提高动画制作的效率。
    • 沉浸式体验:在VR和AR应用中,Motion Dreamer可以生成逼真的虚拟场景和动态效果,为用户提供更加沉浸式的体验。
    • 交互式应用:通过用户输入稀疏的运动提示,Motion Dreamer能生成与用户交互的动态内容,实现更加自然和流畅的交互体验。
    • 驾驶场景模拟:Motion Dreamer可以在自动驾驶领域用于生成各种复杂的驾驶场景,帮助测试和优化自动驾驶算法。
    • 交通流量分析:用Motion Dreamer生成的大量驾驶场景数据,可以进行交通流量分析和预测,为城市交通规划和管理提供参考依据。
  • guidde – AI视频文档生成插件,自动为视频拆分步骤生成步骤文案

    guidde是什么

    guidde是基于AI技术的插件,能帮助企业团队快速创建视频文档,基于浏览器扩展或桌面应用快速捕捉工作流程,自动添加步骤描述和语音解说,以11倍的速度帮助团队创建视频文档。用户能选择100多种不同的声音和语言,无需专业设计技能即可制作出专业的视觉效果,轻松分享视频指南。guidde适用于客户支持、培训材料制作等多种场景,能提高效率和客户满意度。

    guidde.

    guidde的主要功能

    • 魔法捕捉:用户基于浏览器扩展或桌面应用捕捉操作流程,完成后点击停止,系统自动完成其余工作,包括添加步骤描述和语音解说。
    • AI生成的故事线:为捕捉的工作流程自动添加逐步描述,创建详细的操作指南。
    • AI生成的语音解说:用户从100多种不同的声音和语言中选择,为视频文档添加个性化的语音解说。
    • 专业设计编辑器:用Guidde的编辑器创建出专业级别的视觉效果。
    • 智能分享:用户能轻松地用链接分享或将视频嵌入到组织中,实现快速分享。

    guidde的官网地址

    guidde的产品定价

    • Free(免费):最多支持25个教学视频,仅限网页端支持,录制旁白,通过公共链接分享,动画和音乐。
    • Pro(专业):$16 每月/每个创作者,包含免费计划的所有功能,无限教学视频,移除引导水印,品牌工具包,导出视频,模糊敏感信息。
    • Business(商业):$35 每月/每个创作者,包含专业计划的所有功能,文字转语音生成,网页和桌面端支持,视频隐私控制,视频分析,添加互动动作,支持最多5个创作者(按创作者计费)。
    • Enterprise(企业):需联系咨询,包含商业计划的所有功能,屏幕录制和上传,访问工作室级声音,自动翻译,魔法般的个人信息红action,单点登录(SSO,支持Okta, Microsoft, 1Login),用户角色和管理。

    guidde的应用场景

    • 客户支持:为客户提供快速、个性化的视频响应,解决在使用产品或服务时遇到的问题。
    • 产品培训:创建视频教程和操作手册,帮助新员工快速理解和掌握产品功能。
    • 入职培训:为新员工提供视频化的入职培训材料,让培训过程更加直观和高效。
    • 标准操作程序(SOP):制作视频化的SOP文档,确保操作流程的标准化和一致性。
    • 常见问题解答(FAQ):将FAQ转化为视频格式,让信息传递更加直观,提高客户自助服务的效率。