Skip to main content

Author: Chimy

OneRec – 快手推出的端到端生成式推荐系统

OneRec是什么

OneRec 是快手推出的新型端到端生成式推荐系统。采用编码器-解码器架构,通过稀疏 Mixture-of-Experts(MoE)技术提升模型容量,保持高效的计算性能。与传统级联推荐系统不同,OneRec 使用会话式生成方法,能生成上下文连贯的推荐结果,通过迭代偏好对齐模块结合直接偏好优化(DPO),进一步提升推荐质量。在训练过程中,OneRec 将多模态表征量化为 token 序列输入模型,采用两阶段训练策略:先进行基础的 item 预测任务训练,再通过 DPO 进行偏好对齐。

OneRec

OneRec的主要功能

  • 端到端生成式架构:OneRec 采用编码器-解码器架构,将推荐问题转化为序列生成任务。编码器整合用户的历史行为序列,解码器通过稀疏混合专家(MoE)架构逐步生成用户可能感兴趣的视频。
  • 会话式生成方法:与传统的逐点预测不同,OneRec 提出会话式生成方法,能生成整个推荐列表,更好地捕捉上下文信息。
  • 实验验证与效果提升:OneRec 在快手平台的在线 A/B 测试中实现了 1.6% 的观看时间提升,显著优于传统方法。

OneRec的技术原理

  • 编码器-解码器架构:neRec 采用 Encoder-Decoder 架构,将推荐问题转化为序列生成任务。编码器负责将用户的全生命周期行为序列压缩成兴趣向量,解码器则通过稀疏混合专家(MoE)架构逐步生成用户可能感兴趣的视频。能更好地捕捉用户兴趣的变化,并生成连贯的推荐列表。
  • 多模态分词器:OneRec 首创了协同感知的多模态分词方案,融合视频的标题、标签、语音转文字、图像识别等多维信息,转化为分层的语义 ID。能更精准地建模用户兴趣。
  • 强化学习偏好对齐:OneRec 引入了基于奖励机制的偏好对齐方法,通过强化学习增强模型效果。模型利用偏好奖励、格式奖励和业务奖励构建综合奖励系统,优化生成结果。能使模型更好地感知用户的细粒度偏好,提升推荐的精准度。
  • 性能优化:OneRec 通过架构重构,将关键算子数量大幅压缩,通过稀疏 MoE 架构扩展模型容量,显著提升了计算效率。通过训练和推理优化,实现了更高的模型浮点运算利用率(MFU),使得算力效率大幅提升。

OneRec的项目地址

  • arXiv技术论文:https://export.arxiv.org/pdf/2502.18965

OneRec的应用场景

  • 短视频推荐:OneRec 在快手的短视频推荐主场景中表现突出,承担了约 25% 的请求(QPS)。通过生成式架构和强化学习偏好对齐,OneRec 在用户停留时长、点赞、关注、评论等交互指标上均取得了显著提升。
  • 本地生活服务:OneRec 在快手的本地生活服务场景中也取得了显著成效。AB 对比实验表明,推动了交易总额(GMV)增长 21.01%,订单量提升 17.89%,购买用户数增长 18.58%,新客获取效率提升了 23.02%。
  • 直播内容匹配:OneRec 被应用于直播内容匹配,通过动态生成推荐序列,能更好地匹配用户的实时兴趣,提升用户在直播场景中的参与度和互动率。
  • 广告投放:在广告投放领域,OneRec 的生成式架构能根据用户的兴趣和行为动态生成广告推荐,提高广告的精准度和转化率。

清华大学《AI赋能教育:高考志愿填报工具使用指南》(PDF文件)

清华大学《AI赋能教育高考志愿填报工具使用指南》,基于AI技术解决高考志愿填报中的复杂决策问题。报告系统分析志愿填报的核心挑战,包括信息过载、多目标权衡和心理压力,提出了AI赋能的解决方案。内容涵盖志愿填报基础知识、进阶策略、十大典型场景的AI辅助方案,及工具使用指南。报告强调AI在信息整合、个性化推荐、风险评估等方面的作用,帮助考生科学决策。报告总结了常见误区(如唯分数论、忽视适配度等)及应对方法,探讨了AI技术从工具化到智能体的演进,为复杂决策问题提供了方法论支持。报告结合理论与实践,为考生和家长提供一套数据驱动的志愿填报体系,助力实现更科学、更个性化的升学规划。

AI赋能教育:高考志愿填报工具使用指南

获取清华大学《AI赋能教育高考志愿填报工具使用指南》PDF原文件,扫码关注回复: 20250619

高考志愿填报基础知识入门篇

  • 志愿填报基础知识(一)
    • 批次与时间:解析提前批、本科批、专科批的特点及填报策略。
  • 志愿填报基础知识(二)
    • 志愿模式:平行志愿的核心机制、各省志愿模式与数量一览。
  • 志愿填报基础知识(三)
    • 关键决策点:投档规则、志愿排序逻辑、调剂策略等。
  • 志愿填报基础知识(四)
    • 特殊类型招生与提前批次:强基计划、综合评价等特殊招生的机会与风险。

AI赋能教育:高考志愿填报工具使用指南

志愿填报从“小白”到“高手”-进阶篇

  • 阶段一:认识自己。建立兴趣偏好、能力特长、价值观导向的评估体系。
  • 阶段二:了解高校与专业。高校三维评估体系、专业选择五层递进法。
  • 阶段三:定位与匹配。位次分析、录取概率模型、深度搜索功能应用。
  • 阶段四:志愿填报策略制定。志愿排序、梯度设计、风险评估与应急预案。

AI赋能教育:高考志愿填报工具使用指南

十大典型填报需求的AI辅助方案-场景篇

  • 场景一:高分考生的“最优院校+专业”选择。三大决策陷阱与AI解决方案。
  • 场景二:中等分数考生的“院校专业平衡”选择。分层决策策略与核心需求。
  • 场景三:低分考生的“保底升学+未来发展”规划。双线并行策略与实用方案。
  • 场景四:专业迷茫型考生的“自我探索+专业匹配”。三重困境与核心需求。
  • 场景五:偏远地区考生-如何突破信息壁垒。四重信息壁垒突破策略。
  • 场景六:地域受限考生的“就近优质”策略。三环优化策略与核心需求。
  • 场景七:复读与否的决策分析。三维立体分析模型与核心需求。
  • 场景八:就业导向型考生的“专业优先”策略。四层筛选对照表与核心需求。
  • 场景九:考研规划型考生的“本研衔接”策略。双阶段规划对照表与核心需求。
  • 场景十:创新创业导向型考生的“实战育人”策略。不同创业方向的专业选择策略。

AI赋能教育:高考志愿填报工具使用指南

高考志愿工具使用指南实战篇

  • 志愿报告:多维视角下的智能决策支持。生成个性化志愿填报方案。
  • 全流程工具:从复杂问题询问到志愿报告输出的辅助决策。用户不同阶段的核心诉求与工具支持。
  • 高考深度搜索:复杂个性化、开放式问题的智能解答。三类问题的智能解答与使用技巧。
  • 技术基座:夸克高考志愿大模型AI驱动智能决策引擎。AI赋能志愿填报的技术逻辑与优势。
  • 夸克高考知识库:权威数据的智能检索与精准获取。四层次查询功能与实战方法。
  • 专家资源: AI辅助+名师指导的有效组合。直播内容体系与学习技巧。

AI赋能教育:高考志愿填报工具使用指南

志愿填报常见误区与解决方案

  • 误区一:唯分数论,忽视位次。位次比分数更科学。
  • 误区二:唯排名论,忽视适配度。个人与专业的匹配度更重要。
  • 误区三:唯热门论,忽视发展性。专业热度具有周期性。
  • 误区四:重学校轻专业或重专业轻学校。需综合考量学校与专业。
  • 误区五:志愿填报不设梯度。冲稳保合理搭配的必要性。
  • 误区六:家长完全代替孩子决策。学生应是决策主体。
  • 误区七:忽视地域因素影响。地域对实习、就业、人脉的影响。
  • 误区八:过分依赖他人建议。需独立判断与多方验证。
  • 误区九:忽视转专业和双学位机会。政策利用与路径规划。
  • 误区十:忽视招生章程重要信息。录取规则与细节的重要性。

AI赋能教育:高考志愿填报工具使用指南

高考志愿填报:复杂决策问题的典型样本

  • AI解决复杂问题的方法论构建
    • 问题分解策略:将复杂决策拆解为结构化子问题,分层求解后整合优化。
    • 人机协作模式:
      • AI负责:信息处理、方案生成、风险评估。
      • 人类负责:价值判断、最终决策、结果承担。
    • 质量保障体系:基于数据验证、逻辑检验、结果校核、专家审核确保决策可靠性。
  • 人机协同的决策模式:在高考志愿填报中,人始终是决策的主体,需要综合考虑国家发展需要、社会现实需求和个人天赋特长。
  • 决策与未来:志愿填报开启未来无限可能,要珍惜选择、独立思考、相信自己,将困难当阶梯,努力当下,拥抱精彩未来。

AI赋能教育:高考志愿填报工具使用指南

获取清华大学《AI赋能教育高考志愿填报工具使用指南》PDF原文件,扫码关注回复: 20250619

SongGeneration – 腾讯AI Lab开源的音乐生成大模型

SongGeneration是什么

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,显著提升音质表现和生成速度,生成歌曲的质量在多个维度上优于多数开源模型,部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能,满足创作者的可玩性,具备商业应用的稳定性和拓展性。SongGeneration广泛应用在短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景,推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

SongGeneration

SongGeneration的主要功能

  • 文本控制:输入关键词文本,如“开心 流行”,AI快速生成对应风格和情绪的完整音乐作品。
  • 风格跟随:上传10秒以上参考音频,支持生成风格一致的全长新曲,涵盖多种流派。
  • 多轨生成:自动生成分离的人声与伴奏轨道,保证旋律、结构、节奏与配器高度匹配。
  • 音色跟随:基于参考音频的音色跟随,实现“音色克隆”级别的人声表现,自然且有情感。

SongGeneration的技术原理

  • LeLM(Language Model):混合标记(Mixed Tokens)代表人声和伴奏的组合音频,用在捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐。双轨标记(Dual-Track Tokens)分别编码人声和伴奏,用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记,避免不同标记类型之间的干扰,提高生成质量和效率。
  • 音乐编解码器(Music Codec):编码器(Encoder)将音乐音频提取为混合标记和双轨标记。解码器(Decoder)将双轨标记重建为高保真的音乐音频,确保生成的歌曲具有高质量的音频表现。
  • 多偏好对齐(Multi-Preference Alignment):直接偏好优化(DPO)基于半自动数据构建和 DPO 后训练,处理多样化的人类偏好,提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐,提升生成歌曲的整体质量。
  • 三阶段训练范式
    • 预训练(Pre-training):在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
    • 模块扩展训练(Modular Extension Training):进一步训练 AR 解码器,建模双轨标记,提升音质和音乐性。
    • 多偏好对齐(Multi-Preference Alignment):基于 DPO 后训练,优化模型在多维度偏好上的表现。

SongGeneration的项目地址

  • GitHub仓库:https://github.com/tencent-ailab/SongGeneration
  • HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
  • arXiv技术论文:https://arxiv.org/pdf/2506.07520
  • 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration

SongGeneration的核心优势

  • 低比特率音乐编解码:实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,减轻语言模型建模负担。
  • 多类别token并行预测:基于“混合优先,双轨其次”策略,避免token相互干扰,提升音质和音乐性。
  • 多维度人类偏好对齐:对齐音乐性、歌词对齐、提示一致性偏好,提升模型效果和鲁棒性。
  • 三阶段训练范式:预训练、模块化扩展训练、多偏好对齐训练,优化音乐生成效果。

SongGeneration的性能表现

  • 主客观整体测评:在与三款商业模型(Suno v4.5、海绵音乐Mureka O1)和四款开源模型(YuEDiffRhythmACE-StepSongGen)的全方位主客观评测对比中,SongGeneration在开源模型中稳居第一,在商业模型中位列前茅,展现出显著的竞争优势。
  • 客观测评(第三方开源模型评测):在客观测评横向对比中中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)处于领先位置。
  • 主观评测(普通用户 + 专业音乐人评测):在主观评测中,SongGeneration在歌词准确度上超越包括Suno在内的众多大模型,体现模型在语音与文本对齐能力上的显著优势,及在内容生成细节处理方面的成熟度。

SongGeneration

SongGeneration的应用场景

  • 音乐创作:SongGeneration为音乐人和制作人提供高质量歌曲草稿,节省创作时间,助力专注核心创作,激发创意。
  • 娱乐产业:在影视、游戏、广告等娱乐领域,SongGeneration快速生成契合需求的配乐,增强作品沉浸感与吸引力,丰富音乐内容。
  • 教育领域:作为音乐教育工具,SongGeneration帮助学生理解音乐基础知识,激发创造力,辅助在线课程提供示例歌曲,提升教学效果。
  • 广告和营销:SongGeneration为广告和品牌生成贴合主题的音乐,提升广告吸引力和品牌认同感,助力品牌营销。
  • 个人娱乐:普通用户用SongGeneration创作个性化歌曲,表达情感,分享社交平台,增添娱乐互动乐趣。

Surge AI – AI数据标注平台,基于强化学习人类反馈优化性能

Surge AI是什么

Surge AI 是专注于高质量数据标注和强化学习人类反馈(RLHF)的平台。总部位于美国旧金山,由前谷歌和Facebook工程师埃德温・陈创立。Surge AI 通过严格的标注员筛选和先进的质量监控技术,为人工智能模型提供精准的数据标注服务,涵盖自然语言处理、搜索评估和对抗训练等多个领域。独特之处在于能结合人类反馈优化模型性能,帮助客户提升AI模型的准确性和可靠性。

Surge AI

Surge AI的主要功能

  • 高质量数据标注服务:Surge AI 提供专业的数据标注服务,支持自然语言处理(NLP)和计算机视觉等机器学习项目。标注团队能提供精确、一致的数据标注,满足不同客户的需求。
  • 强化学习人类反馈(RLHF):Surge AI 提供基于人类反馈的强化学习服务,帮助优化 AI 模型的性能。通过结合人类输入,引导模型学习,使其更符合人类的判断和需求。
  • 有监督微调(SFT):Surge AI 支持对 AI 模型进行有监督的微调,帮助模型更好地理解和处理特定任务。
  • 人类评价:Surge AI 提供基于人类评价的功能,确保模型输出的质量和相关性。
  • 自定义基准测试:Surge AI 支持用户根据自身需求设定基准测试,评估和优化模型性能。
  • 灵活的使用案例支持:Surge AI 支持多种使用场景,包括基于过程的标注、音频 RLHF、多模态 SFT 等。
  • 搜索排名优化:Surge AI 提供基于人类反馈的搜索排名功能,提升搜索结果的准确性和相关性。

Surge AI的官网地址

  • 官网地址:https://www.surgehq.ai/

Surge AI的应用场景

  • 自然语言处理(NLP):Surge AI 提供高质量的数据标注服务,支持情感分析、命名实体识别、问答系统和聊天机器人等 NLP 应用。通过精细的标注,帮助模型更好地理解和生成自然语言。
  • 市场研究与分析:Surge AI 可以用于市场趋势分析和竞争对手监测,通过实时信号分析和专家辅助,为企业提供精准的市场洞察。
  • 品牌营销:Surge AI 帮助企业了解消费者的喜好和行为,优化品牌营销策略,提升市场竞争力。
  • 强化学习与模型微调:Surge AI 提供强化学习人类反馈(RLHF)和有监督微调(SFT)功能,帮助优化大型语言模型的性能,确保模型输出的质量和风格一致性。
  • 计算机视觉:在计算机视觉领域,Surge AI 支持图像和视频的标注,用于人脸识别、行人检测、车辆识别和医学影像分析等应用。

BASE44 – 零代码AI应用开发平台,一句话生成应用程序

BASE44是什么

BASE44 是零代码AI应用开发平台,用户可以用自然语言快速生成功能完备的应用程序,无需编写代码。BASE44 将数据库设置、API 集成、邮件服务、身份验证和存储等技术栈集成于一体,极大地降低开发门槛。BASE44 适合非技术背景的用户、小型团队和创业者,帮助他们快速构建最小可行产品(MVP)和原型,节省时间和成本。BASE44一体化的解决方案和简单的操作方式,让产品上线速度快,用户增长迅速,成为市场上受欢迎的开发工具之一。

BASE44

BASE44的主要功能

  • 无代码应用开发:用户无需编写代码,基于简单的对话和指令,创建功能完备的应用程序。
  • 一体化技术栈集成:将数据库设置、API集成、邮件服务、身份验证和存储等技术栈集成于一体,无需手动配置。
  • 快速构建MVP和原型:帮助用户快速构建最小可行产品(MVP)和原型,验证产品概念,加速产品迭代。
  • 自动化部署:支持一键部署,用户能轻松将应用部署到云端,无需复杂的手动操作。
  • 多场景应用:适用多种场景,包括个人生产力工具、内部管理工具、客户门户和业务流程自动化等。

BASE44的官网地址

  • 官网地址:https://base44.com/

如何使用BASE44

  • 注册与登录
    • 访问BASE44的官网。
    • 点击首页的“Try BASE44 for free”按钮,进入注册页面。
    • 输入邮箱地址和密码,或者使用 Google 账号直接登录。
    • 注册成功后,系统会跳转到主界面,显示一个欢迎页面。
  • 创建第一个应用
    • 在主界面,点击“Create New App”按钮。
    • 在弹出的输入框中,用自然语言描述想要的应用。例如:“我想做一个记录日程的工具,可以添加事件和提醒。”
    • 点击“Generate”按钮,等待几秒钟,AI 会生成一个基础应用。
    • 生成后,会看到预览页面,展示应用的基本功能,比如日程列表和添加按钮。
  • 编辑与优化
    • 如果需要调整功能,点击界面右上角的“Edit”按钮。
    • 在编辑模式下,继续输入文字描述,比如:“添加一个按日期排序的功能。”
    • AI 会根据你的描述更新应用,实时显示调整结果。
    • 预览满意后,点击“Save”保存更改。

BASE44的产品定价

  • 免费计划(Free):提供基础功能,包括每月25条消息、每天7条消息和500个集成积分,以及访问所有集成、认证系统、分析仪表板和数据库功能。
  • 入门计划(Starter Plan):每月20美元,为业余爱好者和探索者设计,提供每月100条消息和2000个集成积分,支持创建无限数量的应用和应用内代码编辑。
  • 构建者计划(Builder Plan):每月50美元,专为需要更高限制和高级功能的专业用户设计,提供每月250条消息、10000个集成积分,包括自定义域名和GitHub集成。
  • 专业计划(Pro Plan):每月100美元,为重度用户和需要构建复杂生产级应用的用户设计,提供每月500条消息、20000个集成积分,包括高级支持和早期访问测试功能。
  • 精英计划(Elite Plan):每月200美元,为构建商业产品的专业人士和企业设计,提供每月1200条消息、50000个集成积分,包括专业支持和早期访问测试功能。

BASE44的应用场景

  • 个人生产力工具:创建任务管理、笔记记录和日程安排等应用,帮助个人高效管理时间和任务。
  • 内部管理工具:开发项目管理、客户关系管理和库存管理等应用,提升企业内部运营效率。
  • 客户门户:构建客户信息管理、服务请求跟踪和客户反馈收集等平台,优化客户服务体验。
  • 业务流程自动化:生成自动化工作流程、数据处理与分析和文档管理等工具,提高工作效率。
  • 最小可行产品(MVP)和原型开发:快速构建最小可行产品和原型,验证产品概念,加速产品迭代和市场测试。

Self Forcing – Adobe联合德克萨斯大学推出的视频生成模型

Self Forcing是什么

Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成过程,以先前生成的帧为条件生成后续帧,而非依赖真实帧,弥合训练与测试分布的差异。Self Forcing 引入滚动 KV 缓存机制,支持理论上无限长的视频生成,在单个 H100 GPU 上实现 17 FPS 的实时生成能力,延迟低于一秒。突破为直播、游戏和实时交互应用提供了新的可能性,例如实时生成虚拟背景或特效。Self Forcing 的高效性和低延迟成为未来多模态内容创作的重要工具。

Self Forcing

Self Forcing的主要功能

  • 高效实时视频生成:Self Forcing 能在单个 GPU 上实现高效的实时视频生成,帧率达到 17 FPS,延迟低于一秒。
  • 无限长视频生成:通过滚动 KV 缓存机制,Self Forcing 支持理论上无限长的视频生成。可以持续生成视频内容,不会因长度限制而中断,为动态视频创作提供了强大的支持。
  • 弥合训练与测试差距:Self Forcing 在训练阶段模拟自生成过程,以生成的帧为条件生成后续帧,而非依赖真实帧。有效解决了自回归生成中的暴露偏差问题,弥合了训练与测试阶段的分布差异,提高了生成视频的质量和稳定性。
  • 低资源需求:Self Forcing 优化了计算资源的使用,能在单张 RTX 4090 显卡上实现流式视频生成,降低了对硬件资源的依赖,更易于在普通设备上部署和使用。
  • 支持多模态内容创作:Self Forcing 的高效性和实时性使其能够为多模态内容创作提供支持,例如在游戏直播中实时生成背景或特效,或者在虚拟现实体验中动态生成视觉内容,为创作者提供了更广阔的应用空间。

Self Forcing的技术原理

  • 自回归展开与整体损失监督:Self Forcing 在训练阶段模拟了推理时的自回归生成过程,即每一帧的生成都基于模型自身之前生成的帧,而非真实帧。通过视频级别的整体分布匹配损失函数对整个生成序列进行监督,不仅是逐帧评估。模型能直接从自身预测的错误中学习,有效减轻暴露偏差。
  • 滚动 KV 缓存机制:为了支持长视频生成,Self Forcing 引入了滚动键值(KV)缓存机制。该机制维护一个固定大小的缓存区,存储最近几帧的 KV 嵌入。当生成新帧时,缓存区会移除最旧的条目并添加新的嵌入。
  • 少步扩散模型与梯度截断策略:为了提高训练效率,Self Forcing 采用了少步扩散模型,结合随机梯度截断策略。具体来说,模型在训练时随机选择去噪步骤的数量,并仅对最终去噪步骤执行反向传播。
  • 动态条件生成机制:在生成每一帧时,Self Forcing 动态结合两类条件输入:过去时间步已生成的清晰帧和当前时间步的噪声帧。通过迭代去噪完成生成,确保了生成过程的连贯性和自然性。

Self Forcing的项目地址

  • 项目官网:https://self-forcing.github.io/
  • Github仓库:https://github.com/guandeh17/Self-Forcing
  • arXiv技术论文:https://arxiv.org/pdf/2506.08009

Self Forcing的应用场景

  • 直播与实时视频流:Self Forcing 能在单个 GPU 上实现 17 FPS 的实时视频生成,延迟低于一秒。适合用于直播场景,例如在直播中实时生成虚拟背景、特效或动态场景,为观众带来全新的视觉体验。
  • 游戏开发:在游戏开发中,Self Forcing 可以实时生成游戏场景和特效,无需预先制作大量的视频资源。根据玩家的实时操作生成动态的环境变化或特效,增强游戏的沉浸感和交互性。
  • 虚拟现实与增强现实:Self Forcing 的低延迟和高效生成能力能为虚拟现实(VR)和增强现实(AR)应用提供实时的视觉内容。在 VR 体验中实时生成逼真的虚拟场景,或在 AR 应用中实时叠加虚拟元素。
  • 内容创作与视频编辑:Self Forcing 可以用于短视频创作工具,帮助创作者快速生成高质量的视频内容。
  • 世界模拟与训练:Self Forcing 可以用于世界模拟和训练场景,例如生成逼真的自然环境或城市景观,用于军事训练、城市规划或环境模拟。

DeepSite V2 – AI网页生成工具,支持对网页元素进行精准修改

DeepSite V2是什么

DeepSite V2 是基于 DeepSeek R1-0528 模型开发的 AI 网页生成工具,称为“网页版 Cursor”。无需安装或配置本地环境,用户只需通过简单的文字提示,可快速生成、预览并迭代网站页面。核心升级包括全新交互界面、推理式建站、细粒度编辑功能以及 Diff Patching 技术,能实现“边聊边改”的开发体验。用户可以输入指令,如“创建一个奶茶公司网站”或“让按钮更炫酷”,DeepSite V2 会智能生成或修改网页代码,实时更新预览效果。支持多语言指令、多种推理引擎切换,能在几秒钟内完成网页生成。

DeepSite V2

DeepSite V2的主要功能

  • 自然语言生成代码:用户可以通过简单的中文或英文描述生成复杂的网页代码。DeepSite V2 能在几秒钟内生成包含完整 3D 动画效果的代码。
  • 实时预览与调整:生成代码的同时,工具会提供实时预览窗口,用户可以即时查看效果,通过补充描述优化结果。
  • 多模态支持:支持生成网页、游戏(如贪吃蛇)、特效(如烟花)以及 3D 交互内容,覆盖从简单博客到复杂动画的多种场景。
  • 零环境依赖:完全基于浏览器运行,无需安装任何软件,降低了使用门槛。
  • 细粒度编辑功能:用户可以通过指令对网页元素进行精准修改,例如“让按钮更炫酷”,平台会智能调整相关样式。
  • 多语言指令适配:DeepSite V2 支持中文指令,能理解执行用户用中文或英文描述的需求。
  • 模型与平台自由切换:用户在设置中可选最新DeepSeek R1‑0528模型,也可切换Fireworks AI、Neurius AI Studio、Together AI等推理引擎。
  • 全新交互界面:左侧输入提示,右侧实时预览;生成代码实时更新,所见即所得。

DeepSite V2的技术原理

  • 深度学习模型:DeepSite V2 搭载了最新的 DeepSeek-R1-0528 模型,模型通过强化学习和算法优化,在自然语言处理(NLP)和代码生成方面表现出色。能理解用户输入的自然语言描述,转换为对应的 HTML、CSS 和 JavaScript 代码。
  • 推理式建站:DeepSeek-R1-0528 模型具备“先想再写”的能力,能自动判断是否需要引入特定的工具库(如 TailwindCSS 或 Font Awesome),生成更符合需求的代码。
  • 增量式修改(Diff Patching 技术):DeepSite V2 采用增量差异补丁技术,仅对需要修改的部分代码进行更新,不是重写整个页面。避免了内容被覆盖,支持快速迭代。

DeepSite V2的项目地址

  • Hugging Face模型库:https://deepsite.hf.co/projects/new

DeepSite V2的应用场景

  • 快速原型设计:设计师和创业者可以通过文字描述快速生成网页原型,验证产品创意。
  • 教育与学习:学生可以用 DeepSite V2 学习前端开发逻辑,降低编程门槛。
  • 创意项目展示:艺术家和创作者可以生成个性化网站或交互式内容,展示作品。
  • 小型商业网站:企业主可以快速生成包含产品信息和交互功能的网站,助力线上品牌建设。

Skywork-SWE-32B – 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B是什么

Skywork-SWE-32B是昆仑万维开源的32B规模的软件工程(SWE)自主代码智能体基座模型。模型专注于软件工程任务,特别是仓库级代码修复能力,能在多轮交互和长文本处理的复杂场景中表现出色。通过构建超过1万个可验证的GitHub仓库任务实例,打造了目前最大规模的可验证GitHub仓库级代码修复的数据集,在SWE-bench Verified基准测试中取得了38.0%的pass@1准确率,刷新了同参数规模模型的最佳成绩。引入测试时扩展技术后,准确率进一步提升至47.0%,显著超越了现有32B以下的开源模型,接近甚至超越部分闭源模型的性能。

Skywork-SWE-32B

Skywork-SWE-32B的主要功能

  • 仓库级代码修复:能定位GitHub仓库中的代码问题(如Bug),生成修复代码,验证修复效果,完成从问题理解到解决的全流程闭环。
  • 多轮交互能力:支持超过50轮的交互,模拟真实开发场景中的多次调试与修复过程,逐步解决问题。
  • 长文本处理:能处理超过32k tokens的长文本,满足复杂代码文件和多文件依赖的处理需求。
  • 自动化验证:通过构建专用的运行时环境和单元测试验证机制,确保生成的修复代码在实际运行环境中有效。

Skywork-SWE-32B的技术原理

  • 大规模数据集构建
    • 自动化数据收集与验证:通过三阶段的自动化流程(数据采集与预筛选、基于执行的验证、智能体轨迹生成),构建了包含10,169个真实Python任务实例的数据集,覆盖2,531个不同的GitHub仓库。
    • 运行时环境支持:每个任务实例都配备了专用的Docker运行时环境镜像,支持自动化单元测试验证,确保生成的修复代码在实际运行环境中有效。
    • 高质量训练轨迹:通过智能体在任务求解过程中的多轮交互轨迹,生成高质量的训练样本,用于模型的微调。
  • 模型训练与优化
    • 基于OpenHands框架:采用OpenHands代码智能体框架,支持多轮交互和长文本处理,能模拟真实开发场景中的代码修复过程。
    • 数据缩放定律:通过系统性验证,发现随着训练数据规模的增加,模型性能持续提升,验证了数据缩放定律在软件工程任务中的适用性。
    • 测试时扩展技术(TTS):在推理阶段,通过增加独立rollout的数量(如N=8),进一步提升模型的性能,充分利用模型的推理能力。

Skywork-SWE-32B的项目地址

  • HuggingFace模型库:https://huggingface.co/Skywork/Skywork-SWE-32B
  • 技术论文:https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

Skywork-SWE-32B的应用场景

  • 优化代码质量:模型可以分析代码中的潜在问题,提出优化建议,帮助开发者提高代码质量和可维护性。
  • 单元测试自动化:通过构建专用的运行时环境和单元测试验证机制,Skywork-SWE-32B能自动化执行测试用例,验证生成的修复代码是否有效。
  • 教学辅助:在软件工程和编程课程中,Skywork-SWE-32B可以作为教学工具,帮助学生理解代码问题的解决过程,提高编程能力。
  • 研究支持:为研究人员提供了强大的实验平台,用于探索大语言模型在软件工程任务中的应用,验证数据缩放定律等理论。
  • 内部开发工具:企业可以将Skywork-SWE-32B集成到内部开发工具中,自动化处理代码问题,减少人工干预,提高开发效率和代码质量。

FactSnap – 新一代AI信息核查工具

FactSnap是什么

FactSnap是新一代AI信息核查工具,帮助用户快速验证网页信息的真实性。通过集成多种模型和搜索引擎,在用户浏览网页时对选中的文字进行实时核查。用户只需高亮文本点击插件图标,FactSnap会在1秒内给出初步判断,提示信息是否准确、可疑或错误。会检索相关资料并进行详细验证,生成总结和引用来源。FactSnap支持Chrome和Firefox浏览器,目前仅适用于英文,免费无需登录。通过“三段式”判断法,结合LLaMA 3.3和GPT-4o-mini模型,快速初判并详细验证信息,帮助用户避免误导性内容,适合研究人员、记者和普通用户在浏览网页时快速查验信息。

FactSnap

FactSnap的主要功能

  • 实时信息验证:用户在浏览网页时,如果对某段文字的真实性有疑问,只需高亮选中该文本,点击 FactSnap 图标,可在短时间内获得初步判断。会快速分析所选文本内容,提示信息是否准确、可疑或错误。
  • 多模型协同验证:FactSnap 采用“三段式”判断法:
    • 初步分析:利用 LLaMA 3.3 模型快速对文本进行初步判断。
    • 资料检索:通过 exa.sh 搜索引擎查找与该文本相关的网络资料。
    • 详细验证:结合 GPT-4o-mini 模型,对文本与检索到的资料进行比对分析,生成详细验证结果,并附上引用来源。
  • 简洁结果呈现:核查结果以简洁明了的方式呈现,方便用户快速了解信息的真实性。用户无需深入技术细节,即可获得直观的判断。
  • 浏览器集成:FactSnap 支持 Google Chrome 和 Firefox 浏览器,能无缝集成到用户的日常浏览体验中,无需切换到其他工具或平台。
  • 隐私保护:FactSnap 强调用户隐私,不会上传用户数据,确保用户在使用过程中的信息安全。
  • 快速响应:FactSnap 的设计目标是快速响应用户需求,在 1 秒内可完成初步判断,适合在浏览网页时快速查验信息。

FactSnap的官网地址

  • 官网地址:https://factsnap.nand.io/

FactSnap的应用场景

  • 新闻阅读:在浏览新闻网站时,会遇到一些不确定的信息或观点。通过 FactSnap,用户可以快速验证新闻报道中的关键数据、引用或声明是否准确,帮助他们避免被误导性或虚假信息所影响。
  • 学术研究:研究人员在查找资料时,需要确保所引用的信息是真实可靠的。FactSnap 可以帮助他们快速验证网页上的数据、研究结果或引用是否准确,提高研究的可信度和质量。
  • 社交媒体:用户可以通过 FactSnap 验证社交媒体上的热门话题、帖子或评论,避免传播未经证实的信息。
  • 专业工作:专业人士,如律师、医生或金融分析师,需要在工作中处理大量信息。FactSnap 可以帮助他们快速验证网页上的数据、法规或专业建议,确保其决策基于可靠的信息。
  • 教育:教师和学生可以用 FactSnap 来验证网络资源中的信息,培养批判性思维和信息素养。有助于学生在撰写论文、进行项目研究或学习新知识时,避免使用不可靠的资料。

Hailuo Video Agent – MiniMax推出的零门槛AI视频创作Agent

Hailuo Video Agent是什么

Hailuo Video Agent 是 MiniMax 稀宇科技推出的零门槛AI视频创作工具,通过简单的文字输入或图片上传,可一键生成高质量的创意视频,涵盖多种应用场景,如广告、纪录片、梦境视频等。工具分三阶段发展:第一阶段提供专业模板,用户输入可生成成片;第二阶段支持半自定义编辑;第三阶段将实现端到端的完全自动生成。采用抛弃传统工具模式,基于LLM语言模型和全流程工具集,实现创作流程的自动化与可视化,让用户轻松将创意转化为优质视频内容。

Hailuo Video Agent

Hailuo Video Agent的主要功能

  • 文本生成视频:用户只需输入详细的文本描述,AI能快速生成对应的短视频。
  • 图片生成视频:上传静态图片后,平台可将转化为动态视频,赋予图片生动的动作和表情。
  • 主体参照功能:用户上传一张带有面部信息的照片,输入描述,可生成对应主体的视频,保持角色特征的高度一致性。
  • 镜头运动控制:支持推、拉、摇、移等镜头效果,用户可以通过描述实现更精准的视频生成。

如何使用Hailuo Video Agent

  • 访问官网并注册登录:访问 Hailuo Video Agent 官网(https://hailuoai.com/)或下载 “海螺AI” 手机APP,注册并登录。
  • 选择生成方式:在首页选择“Agent”功能模块。
  • 输入内容
    • 文本转视频:在创意描述窗口中输入详细的视频描述提示词,指导 AI 生成视频内容。
    • 图像转视频:点击“上传图片”按钮,选择一张高分辨率的 JPG 或 PNG 格式图片,可选择性添加提示词。
  • 生成视频:点击“生成”按钮,AI 将开始处理并生成视频,生成时间取决于内容复杂度。
  • 预览和下载:视频生成后,预览效果,满意后点击“下载”按钮保存到本地。
  • 提示与技巧
    • 使用清晰、描述性强的提示词,尽量提供具体细节。
    • 对于图像转视频,建议使用高分辨率、主题突出的图片。
    • 多尝试不同的提示词,优化生成效果。

Hailuo Video Agent的技术亮点

  • 抛弃传统工作流:通过LLM语言模型的工具调用能力,支持用户在自然语言描述中构建完整视频。
  • 全流程工具集:涵盖视频构思、资料收集、分镜制作、剪辑、配音等全流程,并通过Agent模型自动调用。
  • Agent思维链可视化:用户可实时查看Agent创作流程,为自定义编辑提供可视窗口与操作空间。

Hailuo Video Agent的应用场景

  • 短视频制作:快速生成适合社交媒体(如抖音、TikTok)的视频内容,帮助创作者提升创作效率。
  • 创意视频:支持生成各种风格的创意视频,如梦境、奇幻、科幻等,满足多样化的内容需求。
  • 影视制作:快速生成复杂的特效镜头,如杂技、奇幻场景等,缩短制作周期。
  • 动画预演:生成角色概念图与动态预览,保持角色一致性,适合独立动画与大型影视项目。
  • 企业宣传:为中小企业生成低成本的企业宣传视频,提升品牌形象。
  • 品牌推广:创作与品牌形象相符的短视频,提升品牌知名度。