Author: Chimy

  • Image-AI.pro – 免费AI图像生成平台,精准捕捉创作意图和细节需求

    Image-AI.pro是什么

    Image-AI.pro 是专业级的 AI 图像生成平台,基于强大的 img-v2 Pro 引擎驱动,能生成高质量、多风格的图像作品。具备高级语义理解能力,能精准捕捉用户的创作意图和细节需求,支持从写实摄影到艺术插画等多种风格,能精确控制光线、色调和拍摄角度,满足专业创作需求。 平台完全免费且无需注册,用户可以无限次使用。

    Image-AI.pro

    Image-AI.pro的主要功能

    • 高质量图像输出:基于 img-v2 Pro 引擎驱动,生成超高质量的专业级图像,适合高标准的创作需求。
    • 高级语义理解:强大的文本理解能力,能精准捕捉用户的创作意图和细节需求,确保生成的图像符合用户的期望。
    • 丰富风格选择:支持多种艺术风格、场景类型和创作主题,包括写实摄影、艺术插画、二次元风格、科技未来感、时尚大片风、极简构图等。
    • 精细化提示控制:用户可以通过详细的提示词来控制图像的风格、角度、光线和色调,实现理想的创作效果。
    • 精确控制光线和色调:用户可以精确调整图像的光线效果、色调和拍摄角度,让每张图片充满艺术感和专业感。
    • 无限制生成:完全免费,不限制生成次数,用户可以自由地进行创作,不受次数限制。
    • 隐私保护:平台不保存用户的提示词和生成的图像,确保用户的隐私和数据安全。

    Image-AI.pro的官网地址

    Image-AI.pro的应用场景

    • 艺术家和设计师:用于生成艺术插画、概念设计、创意海报等。艺术家可以通过详细的提示词生成各种风格的图像,从写实到抽象,从古典到现代,激发灵感并快速实现创意。
    • 广告与营销:生成用于广告宣传的高质量图像,包括产品展示图、广告海报、社交媒体配图等。多样化的风格支持和专业级图像质量能满足不同品牌的需求。
    • 品牌设计:生成品牌标志、宣传海报、产品包装等设计元素。支持商业授权使用,确保生成的图像可以合法应用于商业项目。
    • 内容创作:为网站、博客、社交媒体等生成高质量的视觉内容,提升内容的吸引力和专业性。
    • 教育工作者:生成用于教学的图像,如历史场景、科学插图、地理地图等,帮助学生更好地理解和记忆知识。
  • KuaiMod – 快手推出的自动化短视频质量判别框架

    KuaiMod是什么

    KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高达92.4%,在实际部署显著降低用户举报率,提升用户体验,为短视频平台的健康生态提供有力支持。

    KuaiMod

    KuaiMod的主要功能

    • 自动审核有害内容:识别过滤暴力、色情、谣言等违规视频。
    • 细粒度内容分类:将视频精准分类到不同违规类别,便于管理。
    • 动态策略更新:根据用户反馈实时调整审核策略,适应内容变化。
    • 降低用户举报率:减少用户对不良内容的曝光,提升用户体验。
    • 助力个性化推荐:优化推荐系统,推送符合用户兴趣的优质视频。

    KuaiMod的技术原理

    • 多模态大模型(VLM):基于视觉编码器和语言模型,将视频的视觉信息(如视频帧、封面)和文本信息(如标题、评论、OCR/ASR 文本)进行融合,生成综合的视频表示。基于大规模预训练,VLM 能理解视频的语义内容,识别其中的有害信息。
    • 链式推理(Chain-of-Thought, CoT):基于 CoT 技术,生成详细的推理过程,解释为什么某个视频被判定为有害或非有害。将视频审核过程分解为多个状态(如内容提取、内容分析、用户反馈分析等),逐步推理最终给出审核结果。
    • 离线适配与训练:用大规模标注数据,对 VLM 进行监督微调,适应视频审核任务。基于生成正负样本对,优化模型的偏好,提高审核的准确性和一致性。
    • 在线更新与强化学习:基于用户反馈的强化学习(RLUF):基于用户举报、点赞、评论等反馈,构建新的训练数据,用强化学习动态更新审核策略。模型根据实时反馈进行优化,确保快速适应平台内容的变化。
    • 动态分类体系:根据平台内容的变化,动态扩展和调整分类标签体系,确保覆盖新出现的有害内容类型。

    KuaiMod的项目地址

    KuaiMod的应用场景

    • 内容审核:自动识别并过滤有害内容,如暴力、色情、谣言等。
    • 推荐优化:提升个性化推荐质量,推送更符合用户兴趣的优质视频。
    • 用户反馈处理:根据用户举报和评论动态调整审核策略。
    • 提升内容质量:过滤低质量内容,优化平台整体内容生态。
    • 维护平台生态:适应内容变化,保障平台健康可持续发展。
  • Open Code Reasoning – 英伟达开源的代码推理AI模型

    Open Code Reasoning是什么

    Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B、14B和7B三种模型版本,分别适用于高性能推理、平衡计算需求以及资源受限的环境。训练数据集聚焦高质量代码,强调指令遵循、推理能力和多步骤问题解决能力。

    Open Code Reasoning

    Open Code Reasoning的主要功能

    • 强大的代码生成能力:OCR模型能根据输入的提示或需求,生成高质量、可运行的代码片段。
    • 代码逻辑补全与优化:在已有的代码基础上,OCR可以智能地补全代码逻辑,填补缺失的部分,对代码进行优化,更加高效、简洁。
    • 多语言支持:OCR模型基于Nemotron架构,是为多语言、多任务学习优化的Transformer框架,能支持多种编程语言。Python、Java、C++等主流语言,或其他一些小众语言,OCR能进行有效的代码推理和生成,满足不同开发者在不同语言环境下的需求。
    • 指令微调版本:32B模型推出了指令微调版本,进一步增强了模型对特定指令的遵循能力和适应性。通过微调,模型能够更好地理解开发者给出的指令,更精准地执行相应的代码推理任务。
    • 与主流框架无缝兼容:OCR模型支持与llama.cpp、vLLM、Hugging Face Transformers和TGI等主流框架无缝兼容,方便开发者快速集成到现有的开发环境中,无需进行复杂的适配工作。
    • 多种参数规模选择:OCR模型套装包含32B、14B和7B三种参数规模,分别面向不同的使用场景。32B模型适合高性能推理和研究场景,提供顶尖的效果;14B模型在降低计算需求的同时保持强大推理能力;7B模型适合资源受限的环境。
    • 高推理效率:得益于英伟达定制的“OCR数据集”和优化的模型架构,OCR模型在推理效率上表现出色。在LiveCodeBench基准测试中,OCR模型全面超越OpenAI的o3-Mini和o1(low)模型,展现出卓越的代码推理能力。

    Open Code Reasoning的技术原理

    • 基于Nemotron架构:OCR模型采用Nemotron架构,为多语言、多任务学习优化的Transformer框架。使OCR能处理多种编程语言,在不同的代码推理任务中表现出色。
    • 定制数据集:英伟达为OCR打造了定制的“OCR数据集”,聚焦高质量代码训练,强调指令遵循、推理能力和多步骤问题解决能力。使模型在训练过程中能更好地学习代码的逻辑和结构,提升推理能力。
    • 模型规模与微调:OCR模型套装包含32B、14B和7B三种参数规模,分别面向不同的使用场景。其中,32B模型推出了指令微调版本,进一步增强了模型对特定指令的遵循能力和适应性。
    • 强化学习与过程监督:OCR模型的训练过程中可能引入了强化学习和过程监督(PRM)的技术。通过强化学习,模型能够学会优化推理路径,提高推理的准确性和效率。过程监督则会对模型生成的每一步推理进行打分,即时反馈错误,帮助模型在训练过程中不断修正和优化推理过程。
    • 多任务学习与推理能力优化:OCR模型在训练过程中关注最终结果的正确性,注重推理过程的优化。多任务学习的方式使模型能在处理复杂的代码推理任务时,更好地分解问题、提出假设并验证假设,提高整体的推理能力。

    Open Code Reasoning的项目地址

    Open Code Reasoning的应用场景

    • 代码生成与补全:OCR模型能根据输入的提示或需求生成高质量、可运行的代码片段,适用于多种编程语言。
    • 代码逻辑优化:OCR模型可以对已有的代码进行逻辑优化,填补缺失的部分,提供更高效的实现方式。
    • 教育领域:OCR模型可以用于编程教育,帮助学生理解和生成代码。通过提供代码示例和逻辑解释,OCR可以帮助学生更好地掌握编程技能。
    • 软件测试与调试:OCR模型能生成测试用例,帮助开发者进行代码测试。可以用于调试,通过分析代码逻辑,找出潜在的错误和问题。
    • 性能优化:OCR模型可以分析代码的性能瓶颈,提供优化建议。
  • Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型

    Multiverse是什么

    Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模型通过AI技术实时生成游戏画面,确保两名玩家看到的是同一个逻辑统一的世界。模型基于扩散模型,将玩家的视角和动作融合处理,生成连贯且一致的游戏画面。Multiverse的核心技术在于创新的多人世界模型架构,通过联合动作向量和双视角通道堆叠技术,解决了多人游戏中视角一致性的难题。模型的训练成本仅需1500美元,可在普通PC上运行。项目代码、数据、权重、架构及研究成果已全面开源,为 AI 在多人游戏领域的应用提供新的可能性。

    Multiverse

    Multiverse的主要功能

    • 多人实时交互:支持两名玩家在同一虚拟世界中实时互动,例如在赛车游戏中实现超车、碰撞等操作,双方视角保持一致。
    • 动态世界生成:根据玩家的动作和操作,实时生成游戏画面。
    • 高效帧预测:准确预测未来的游戏帧,确保游戏的流畅性和连贯性。
    • 低成本运行:支持在普通个人电脑上运行,无需高端硬件支持,降低使用门槛。

    Multiverse的技术原理

    • 多人游戏架构:为了构建多人游戏世界模型,保留了上面的核心构建模块,对结构进行了拆解 —— 重新对输入和输出进行了连接,从头开始重新设计了训练流程,实现真正的合作游戏:
      • 动作嵌入器:获取两个玩家的动作,并输出一个代表它们的嵌入。
      • 去噪网络:一个扩散网络,能基于两个玩家之前的帧和动作嵌入,以一个实体的形式同时生成两个玩家的帧。
      • 上采样器:这里的上采样器会分别接收两个玩家的帧,同时计算上采样后的版本。
    • 视角合并解决方案:为了打造多人游戏体验,模型需要收集双方玩家之前的帧和动作,输出各自预测的帧。关键在于:这两个输出不能仅仅看起来美观 ,需要在内部保持一致。Multiverse 提出了一种变通的解决方案:将两个玩家的视角拼接成一张图像,将他们的输入融合成一个联合动作向量,并将这一切视为一个统一的场景。具体做法是沿通道轴堆叠,把两帧图像视为具有两倍色彩通道的图像。因为这里的扩散模型是一个 U 型网络,主要由卷积层和解卷积层组成,所以第一层只处理附近的像素。如果将两个帧垂直堆叠,那么直到中间层才会对帧进行处理。降低了模型在帧间产生一致结构的能力。而如果将帧按通道轴堆叠,则网络的每一层都会同时处理两名玩家的视图。
    • 训练方法
      • 上下文扩展:为了准确预测下一帧,模型需要接收玩家的动作(如转向输入)和足够的帧数,以计算两辆车相对于道路和彼此的速度。研究发现 8 帧(30 帧/秒)的帧数可以让模型学习车辆运动学,如加速、制动和转向。但两辆车的相对运动速度要比道路慢得多。为了捕捉这种相对运动,需要将上下文的大小扩大近三倍。但这样做会使模型速度过慢,无法进行实时游戏,增加内存使用量,并使训练速度大大降低。为了保持上下文大小,但又能提供更多的时间信息,作者为模型提供了前几帧和动作的稀疏采样。具体来说,他们向模型提供最近的 4 个帧。然后在接下来的 4 个帧中每隔 4 个帧提供一次。上下文中最早的一帧为 20 帧,即过去 0.666 秒,足以捕捉到车辆的相对运动。还能让模型更好地捕捉到与路面相比的速度和加速度,使驾驶的动态效果更加出色。
      • 多人游戏训练:为了让模型学会驾驶技术和多人游戏中的互动,模型需要在这些互动场景中进行训练。世界模型中的行走、驾驶和其他常见任务通常只需要较短的预测范围,例如预测未来 0.25 秒的情况。多人游戏中的互动则需要更长的时间跨度。在四分之一秒内,玩家之间的相对运动几乎可以忽略不计。为了训练多人游戏世界模型,需要设置更长的预测范围。Multiverse 将训练模型进行自回归预测(以 30 帧/秒)最多可预测到未来 15 秒。为了使模型能进行如此长时间的预测,Multiverse 采用了课程学习,在训练过程中将预测时间从 0.25 秒增加到 15 秒。在初始训练阶段能高效地训练模型,此时模型正在学习诸如汽车和赛道几何形状等低级特征。模型学会了生成连贯的帧并建模车辆运动学,会对其进行玩家行为等高级概念的训练。在增加预测范围后,模型的「物理一致性」和帧间一致性显著提高。
      • 高效的长视野训练:训练未来 100 帧以上的模型对 VRAM 提出了挑战。在更大 batch 下,将这些帧加载到 GPU 内存中进行自回归预测变得不可行。为了解决这个内存限制,采用分页的方式进行自回归预测。在训练开始时,加载第一个 batch 的数据,对其进行预测。然后加载下一页的数据,丢弃超出上下文窗口范围的帧。

    Multiverse的项目地址

    Multiverse的数据集

    • 数据来源:团队训练模型的数据收集自索尼的游戏《GT 赛车 4》(Gran Turismo 4)。
    • 数据收集方法:基于游戏内的回放系统,将每场比赛重放两次,从每名玩家的角度进行录制。然后将两个录像同步,与原始双人比赛对齐,将它们合并成一个视频,展示两名玩家同时进行游戏。利用计算机视觉逐帧提取游戏屏幕上显示的油门、刹车、方向条,再反推出控制指令。也就是说,全靠画面信息就能还原操作,无需额外日志文件。
    • 自动数据生成:编写脚本向游戏的 B-Spec 模式发送随机输入,自动触发比赛,从两个视角录制回放画面,捕捉 AI 驱动比赛的第三人称视频。

    Multiverse的应用场景

    • 多人游戏开发:用在开发多人在线游戏,提供更真实、丰富的互动体验。
    • VR/AR应用:创建多人共享的虚拟环境,增强沉浸感和社交性。
    • AI训练与研究:作为开源模型,训练智能AI Agent,研究复杂环境下的决策和协作。
    • 教育与培训:创建虚拟训练场景,用在驾驶、军事演练或团队协作训练。
    • 娱乐与社交:开发虚拟聚会、在线活动等应用,提供新颖的社交体验。
    • 模拟经营游戏:在模拟经营游戏中,玩家需要进行资源管理、建筑规划、城市发展等操作。每一次决策都可能影响整个模拟世界的经济和生态平衡。
  • AI教师助手 – 外研在线推出的全学科AI教学工具

    AI教师助手是什么

    AI教师助手是外研在线科技有限公司推出的智能教学工具,专为教师设计,减轻教学负担,提升教学效果。AI教师助手覆盖教学设计、智能出题、精准评阅、实时答疑、成绩分析等全流程,支持个性化教学。基于智能技术,教师能快速生成教案、试题,实现作业智能批改与反馈,创建知识库辅助答疑。工具提供科研支持和多媒体创作功能,助力教师高效开展教学与科研工作。

    aigc.unipus

    AI教师助手的主要功能

    • AI助教:组建个性化答疑知识库,生成互动问题,实时统计答疑数据,帮助教师了解学生学习情况。
    • 智能出题:支持自主创作和二次创作试题,生成多种题型(如阅读理解、听力测试等),提供语篇生成与改写功能。
    • 精准评阅:智能批改写作、口语、翻译等作业,提供详细反馈分析,辅助教师调整教学策略。
    • 成绩分析:快速整理成绩数据,生成直观报告,帮助教师识别学生薄弱环节。
    • 教务沟通:提供期末评语、发言稿、工作总结等公文撰写工具,简化沟通任务。
    • 科研支持:辅助论文撰写、文献综述生成、数据分析等功能,提升科研效率。
    • 多媒体创作:支持音频创作、图像生成。
    • 教学提效:提取备课素材,自动生成教案,设计教学活动,提供个性化教学建议。

    如何使用AI教师助手

    • 注册与登录:访问 AI教师助手的官方网站,按提示完成注册和登录。
    • 功能选择与使用
      • AI助教
        • 创建知识库:在平台中输入或上传教学内容,创建个性化答疑知识库。
        • 互动答疑:学生扫码或链接进入知识库,AI助教根据知识库内容回答学生问题。
        • 查看数据:教师在后台查看答疑数据,了解学生学习情况。
      • 智能出题
        • 选择题型:在出题模块中选择需要的题型(如阅读理解、听力测试等)。
        • 输入内容:输入或上传题目素材,AI助手会自动生成题目。
        • 编辑与调整:根据生成的题目进行修改和调整,确保符合教学要求。
      • 精准评阅
        • 上传作业:将学生的写作、口语、翻译等作业上传到平台。
        • 智能批改:AI助手自动批改作业,提供详细的反馈和评分。
        • 查看反馈:教师查看AI的评阅结果,根据需要进行补充或调整。
      • 成绩分析
        • 输入成绩:将测试成绩输入平台或导入成绩数据。
        • 生成报告:平台自动生成成绩分析报告,包括成绩分布、薄弱环节等。
        • 调整教学:根据报告内容调整教学策略,针对性地辅导学生。
      • 教务沟通
        • 选择工具:在“沟通”模块中选择需要的工具,如“期末评语”“发言稿”等。
        • 输入信息:填写相关信息,AI助手会自动生成初稿。
        • 修改完善:根据生成的初稿进行修改和完善,生成最终文档。
      • 科研支持
        • 文献综述:输入研究主题,AI助手自动生成文献综述。
        • 论文撰写:提供论文框架、初稿撰写、润色等功能。
        • 数据分析:上传数据样本,AI助手进行处理、分析生成可视化图表。
      • 多媒体创作
        • 音频创作:选择音色、输入文本,AI助手生成音频。
        • 图像创作:输入描述,AI助手生成图像或绘本。

    AI教师助手的应用场景

    • 个性化教学:AI助教实时答疑,跟踪学生学习进度,提供个性化教学支持。
    • 期末备考与考试:智能出题生成各类试题,精准评阅提供详细反馈,减轻教师负担。
    • 教学设计与备课:自动生成教案,提取教学素材,辅助高效备课。
    • 成绩分析与教学改进:快速整理成绩数据,生成直观报告,精准定位薄弱环节。
    • 教务沟通与公文撰写:提供期末评语、发言稿、工作总结等模板,简化沟通流程
  • PrintVerse – AI 3D模型生成平台,支持真人照片直接转为3D图片

    PrintVerse是什么

    PrintVerse是在线 AI 3D模型生成平台,支持用户上传图片或文字生成3D模型。平台支持将真人照片转换成卡通手办风格的3D模型,方便用户进行3D打印。用户能在平台上预览3D模型效果,支持下载STL或OBJ格式的文件。PrintVerse的目标是简化3D创作和打印过程,让更多人能轻松创建个性化的3D对象。

    PrintVerse

    PrintVerse的主要功能

    • 图片生成:用户上传图片,选择不同的创作风格模板,生成3D模型。
    • 文字生成:基于文字描述系统自动生成3D模型。
    • 3D打印参数建议:为用户生成的3D模型提供3D打印参数建议,包括模型高度、喷嘴大小、层高等。
    • 多种文件下载:支持下载STL和OBJ格式,方便进行3D打印。
    • 创作历史:支持用户查看自己的创作历史,管理和重新编辑之前的作品。

    如何使用PrintVerse

    • 注册和登录:访问PrintVerse的官方网站,按照提示完成注册和登录。
    • 开始创作
      • 图片生成:上传参考图片。
      • 文字生成:输入想要创作的物体描述。
    • 选择创作风格模板:从提供的模板中选择一个适合的风格,例如“真人照片转卡通手办风格”。
    • 生成图片:设置生成图片的数量。点击“立即生成”按钮,等待平台处理生成图片。
    • 确认图片:查看生成的图片效果,点击“生成3D模型”按钮。
    • 生成3D模型:平台将根据确认的图片生成3D模型,在3D模型预览区域查看模型效果。
    • 下载3D模型文件:点击“下载STL文件”或“下载OBJ文件”按钮,保存模型文件到本地。

    PrintVerse的应用场景

    • 个性化礼物:将照片转成3D模型,制作成独特礼物。
    • 教育工具:创建科学模型或文物的3D模型,辅助教学。
    • 艺术创作:将2D艺术作品转换为3D,拓展创意空间。
    • 娱乐产业:为游戏或电影制作角色和道具模型。
    • 产品原型:快速生成产品模型,用于设计和测试。
  • WebThinker – 人民大学联合智源研究院等机构推出的深度研究智能体

    WebThinker是什么

    WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略,让LRMs能动态获取信息,实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinker在复杂推理和报告生成任务中表现优异,显著提升LRMs在知识密集型任务中的可靠性和实用性。

    WebThinker

    WebThinker的主要功能

    • 自主决策:LRM在推理过程中自主判断何时需要外部知识,何时需要更新报告。
    • 深度探索:支持进行多步搜索和页面导航,深入挖掘信息。
    • 动态撰写:模型能实时撰写、修改报告内容,配备专门的工具集(如写作、检查、编辑),确保报告的连贯性和完整性。
    • 工具优化:优化LRM对研究工具的使用效率。

    WebThinker的技术原理

    • 深度网页探索器(Deep Web Explorer):赋予LRM超越传统简单搜索的能力,基于点击链接和按钮等交互元素在网页间导航,深入挖掘信息。模型自主决定搜索查询,持续探索直至收集到足够信息,返回精炼总结。
    • 基于强化学习的训练策略:基于迭代式的在线直接偏好优化(DPO)训练,提升LRM对研究工具(包括搜索、导航、报告撰写工具)的利用效率。构建偏好数据集,优先选择能得出正确答案、高质量报告且工具使用更高效的推理路径。
    • 运行模式:问题解决模式为LRM配备深度网页探索器,深入探索网络解决复杂问题。报告生成模式进一步赋予LRM写作、检查和编辑能力,在思考和搜索的同时,迭代式地撰写全面的研究报告。

    WebThinker的项目地址

    WebThinker的应用场景

    • 复杂问题解答:为博士级科学问题或跨学科难题,快速提供准确答案。
    • 研究报告生成:自主搜索、撰写科学研究报告,确保内容全面、准确、连贯,提升报告生成效率。
    • 深度信息挖掘:基于多步搜索和页面导航,获取深层次信息,支持复杂分析和研究。
    • 教育辅助:在教育领域,帮助学生查找学习资料、解答学术问题,为教师生成教学大纲,提升学习和教学效率。
    • 企业决策支持:为企业提供市场分析、竞争对手分析等决策支持,帮助管理层快速获取关键信息,做出更明智的决策
  • DeerFlow – 字节跳动开源的深度研究框架

    DeerFlow 是什么

    DeerFlow 是字节跳动开源的深度研究框架,能帮助用户高效完成复杂的研究任务。DeerFlow结合语言模型与多种工具,如网络搜索、爬虫和 Python 执行,能快速生成全面的研究报告、播客和演示文稿。基于多Agent架构,用监督 + 交接模式实现智能协作,支持用户自定义研究计划并实时反馈调整。DeerFlow 提供丰富的配置选项和开源社区支持,适合研究人员、分析师及内容创作者使用。

    DeerFlow

    DeerFlow 的主要功能

    • LLM 集成:支持多种语言模型(如 Qwen),提供 OpenAI 兼容接口,满足不同任务需求。
    • 工具与 MCP 集成:集成多种搜索引擎和爬虫,支持私域访问与知识图谱,拓展研究能力。
    • 人机协作:支持自然语言修改研究计划,提供报告后编辑和 AI 辅助润色功能。
    • 内容创作:生成播客脚本和音频,自动创建 PowerPoint 演示文稿,提供可定制模板。

    DeerFlow 的技术原理

    • 多代理系统架构
      • 协调器(Coordinator):管理研究流程的生命周期,接收用户输入并启动研究。
      • 规划器(Planner):负责任务分解和研究计划的生成,根据目标确定研究路径。
      • 研究团队(Research Team):包括研究者(负责信息收集)、代码分析者(负责技术任务)等。
      • 报告生成器(Reporter):负责将研究结果整理成报告。
    • 语言模型驱动:集成多种语言模型,用自然语言处理技术理解用户输入,生成研究计划和报告。支持多层级的语言模型系统,根据任务复杂性动态选择合适的模型。
    • 工具集成与扩展:集成多种工具(如搜索引擎、爬虫、Python 执行环境等),基于插件化设计支持功能扩展。支持与外部服务(如 Tavily、Brave Search 等)的无缝对接。

    DeerFlow 的项目地址

    DeerFlow 的应用场景

    • 学术与市场研究:快速收集文献、行业动态等信息,生成综述或分析报告,辅助课题研究与市场调研。
    • 内容创作:支持文章、播客脚本、演示文稿的生成与优化,为创作者提供高效的内容生产工具。
    • 企业决策支持:收集行业数据,生成项目评估与战略规划报告,助力企业决策。
    • 教育与学习:辅助教师设计课程、学生整理学习资料,提升教学与学习效率。
    • 个人知识管理:帮助个人整理信息、总结知识,优化个人知识管理与学习计划。
  • 实测豆包“超能创意1.0”图像生成新功能,太强了!

    最近看到很多友友都在玩豆包网页版的生图功能。

    作为国内首个将批量生成与智能编辑结合的图像生成工具,超能创意1.0简直就是神来之笔!

    不需要复杂的工作流,也不用精确详细的提示词,就能批量出图,还完全免费!

    比起别的文生图工具单次生成1-4张,豆包单次就能生成20张,效率爆表!

    每张都是高清海报级别的质量!

    我们一起实测体验一下~

    01.功能测试

    我先让它参考我的头像生成了一张人物实拍。

    提示词:图片风格为「人像摄影」,参考我给的图像,生成一个女孩的照片

    比如我输入根据参考图生成一个女孩的照片,豆包会先分析我们的意图,然后在此基础上优化我们的提示词

    生图的时候,它会自动加入更加具体的描述,比如,女孩有着乌黑的长发,头发上别着粉色玫瑰,戴着项链…

    它真的读懂了我的需求!

    接着我们试着让豆包带我们一次打卡各大热门景点。

    提示词:图片风格为「人像摄影」,去掉参考图中的花,生成女孩在国内各个景区的打卡照,春天,五月初。至少生成10张图片。提示词:在同样的背景下,生成女孩穿着10款不同的民族服装的图片。全身照。在不同场景不同姿态下,人物一致性都保持的很不错

    再提升一下难度,还可以帮我们设计各种旅行纪念品~

    提示词:生成20张图片,比例 「1:1」,图片风格为「Jellycat风格玩偶」,画面中是毛茸茸的各地美食,简约,纯色背景,每张图片上都写着菜名。

    豆包每轮对话最多生成20张图片,如果一次想生成>20张图片,可以让它分批次完成。

    提示词:图片风格为「手办」,生成34张比例 「1:1」的图片,分别生成34个省会城市/直辖市的水晶球形状的创意微缩场景,透明的水晶球中是该城市的一个代表性建筑,水晶球基座上印有对应的城市名字,名字下面有英文翻译。纯色背景。

    一次生成多种风格的图像也毫无压力。

    提示词:参考我的草图,生成20种风格的图像,巨大的落地窗前,猫咪看着窗外的飞鸟,旁边有一个花盆,里面有很多束盛开的花。

    02.封面/插画

    提示词:批量生成20张小红书封面,内容是金句分享,例如:如果你想驯服一个人,就要冒着掉眼泪的危险。比例 「3:4」。

    提示词:生成9张类似风格的图片,标题不变,画面主体与文字内容对应。编号依次是2-10。

    提示词:生成20张可视化海报,内容凸显你的图像生成能力,重点是:“批量生成”、“比例自定”、“智能理解”、“创意迭代”、“风格万变”,标题是“图像生成能力大揭秘”,页面内容是豆包的IP形象,短发卡通小女孩,下面是一系列批量生成的图像,图片尺寸为4:3

    03.漫画故事/绘本

    提示词:根据参考图中的形象,把她分别变成20种不同风格的形象。

    提示词:参考这张图片,去掉图片中的玫瑰花。生成20个不同的表情包,包含各种情绪的姿态,表情包上方有对应的文字。

    提示词:参考这张图片的人物形象,去掉图片中的玫瑰花。生成10个分镜头的系列漫画,呈现女孩精彩丰富的一天。

    它会自动补全分镜的提示词,生成的结果是这样的:

    • 分镜 1:清晨苏醒
    • 女孩在粉色的公主床上缓缓睁开眼睛,伸着懒腰,床边摆放着可爱的玩偶,阳光透过窗户洒在她身上。

    • 分镜 2:早餐时光
    • 女孩坐在布置精美的餐厅里,面前的餐桌上摆满了各种美食,有蛋糕、水果和牛奶,她正开心地享用着早餐。

    • 分镜 3:公园漫步
    • 女孩穿着时尚的粉色裙子,漫步在公园里,周围绿树成荫,花朵盛开,她时不时停下欣赏风景。

    • 分镜 4:商场购物
    • 女孩来到热闹的商场,她在各个店铺间穿梭,挑选着自己喜欢的衣服和饰品,脸上洋溢着兴奋的神情。

    • 分镜 5:咖啡小憩
    • 女孩走进一家温馨的咖啡店,找了个靠窗的位置坐下,点了一杯咖啡和一块蛋糕,悠闲地享受着午后时光。

    • 分镜 6:艺术展览
    • 女孩来到艺术展览馆,她认真地欣赏着一幅幅画作,时而驻足沉思,时而露出惊喜的表情。

    • 分镜 7:运动时刻
    • 女孩换上运动装,在公园里跑步锻炼,她步伐轻盈,充满活力,周围的花草树木仿佛都在为她加油。

    • 分镜 8:晚餐约会
    • 女孩穿着优雅的晚礼服,来到浪漫的餐厅,与朋友共进晚餐,餐桌上烛光摇曳,美食飘香。

    • 分镜 9:夜景欣赏
    • 女孩来到城市的高处,俯瞰着灯火辉煌的城市夜景,她靠在栏杆上,感受着微风的吹拂,脸上露出满足的笑容。

    • 分镜 10:甜蜜入眠
    • 女孩回到温馨的家中,换上可爱的睡衣,躺在床上,盖着柔软的被子,很快进入了甜美的梦乡。

    提示词:帮我生成10张连续性的儿童绘本,给小朋友科普四大发明之一的造纸术,画风统一,故事要有连贯性。比例 「4:3」。

    • 第一幕:造纸术书籍引发好奇
    • 小朋友们在学校图书馆看到一本关于造纸术的书,被里面的内容吸引。

    • 第二幕:讨论造纸术起源
    • 他们开始讨论造纸术是怎么发明的,猜测古代人没有纸时的生活。

    • 第三幕:穿越到古代造纸前夕
    • 突然一道神秘的光闪过,他们穿越到了古代还没有造纸术的时期。

    • 第四幕:发现造纸原料
    • 他们跟着村民去寻找书写材料,发现了树皮、麻头和破布等造纸原料。

    • 第五幕:准备造纸工序
    • 回到村子后,他们和村民一起开始准备造纸的工序,把原料切碎。

    • 第六幕:蒸煮原料
    • 将切碎的原料放进大锅里蒸煮,他们在一旁帮忙添柴。

    • 第七幕:捣成纸浆
    • 蒸煮好的原料被拿出来,他们和村民一起把原料捣成纸浆。

    • 第八幕:抄纸成型
    • 用竹帘从纸浆中舀出纸浆,让水分沥干,纸张逐渐成型。

    • 第九幕:晾晒纸张
    • 把成型的纸张揭下来,放在阳光下晾晒。

    • 第十幕:回到现代
    • 又一道光闪过,他们回到了现代,带着对造纸术的深刻认识。

    提示词:用多张图片,详细的用图片分步展示麻辣香锅的制作过程,比例 「4:3」

    • 我会用六张图片详细展示麻辣香锅的制作过程,比例为 4:3。为保持主体一致,选用的食材依然是莲藕、花菜、木耳、虾、午餐肉、蟹棒,厨具为铁锅。
    • 第一步,准备食材和调料。除了洗净切好莲藕、花菜、泡发木耳、处理好虾、切好午餐肉和蟹棒外,还准备好花椒、干辣椒、葱姜蒜、火锅底料、盐、生抽、料酒等调料。画面风格是注重真实还原食材质感和色泽的写实摄影风格,俯视视角,场景是厨房操作台上整齐摆放着各类食材和调料。

    • 第二步,焯水食材。烧一锅热水,将莲藕、花菜、木耳放入锅中焯水至断生后捞出沥干水分。画面风格为写实摄影风格,侧视视角,场景是厨房炉灶前,锅中热水翻滚,食材在锅中焯水。

    • 第三步,炒制底料。在铁锅中倒入适量油,油热后放入花椒、干辣椒、葱姜蒜炒出香味,接着加入火锅底料小火炒化。画面风格是写实摄影风格,侧视视角,场景是厨房炉灶前,铁锅在炉灶上,底料在锅中炒制。

    • 第四步,加入食材翻炒。先将焯水后的莲藕、花菜、木耳放入锅中与底料翻炒均匀,再放入虾、午餐肉、蟹棒继续翻炒,期间加入适量盐、生抽、料酒调味。画面风格为写实摄影风格,侧视视角,场景是厨房炉灶前,铁锅中食材在翻炒。

    • 第五步,继续翻炒至食材熟透。持续翻炒锅中食材,直到虾变红熟透,午餐肉和蟹棒也充分吸收底料味道。画面风格是写实摄影风格,侧视视角,场景是厨房炉灶前,铁锅中食材接近炒制完成。

    • 第六步,出锅装盘。将炒好的麻辣香锅盛出装盘,撒上葱花作为点缀。画面风格是写实摄影风格,俯视视角,场景是厨房操作台上,装有麻辣香锅的盘子摆在台上,上面撒着葱花。

    04.灵感创意

    提示词:参照这张图片,生成女孩的正面视图,去掉图中的花朵,并为图中的女孩设计10款不同的发型。

    提示词:设计10款创意冰淇淋,比如,多啦A梦形状的冰淇淋,等等。

    提示词:图片风格为「人像摄影」,为这个奶茶店设计10款不同风格的门头。

    提示词:设计10张介绍不同非遗文化的宣传海报,比例 「4:3」

    提示词:设计10款有创意的糖画艺术图案,咖色的糖汁画出的图案,背景为纯色,比例 「1:1」

    05.一些分享

    实测体验下来,这次豆包的超能创意1.0生图功能,确实是一次非常实在的升级。

    不仅有更强的语义理解更高的生成质量,还有单次20张的量产高效率

    非常适合做内容量大、风格要求统一的运营视觉设计。

    不过,它还是有一些需要优化的地方,比如,IP角色的整体形象无法保持稳定,对提示词的遵循还有待提升,中文海报时,小字还是容易乱码。

    但模型本身的进步,确实值得承认。

    如果后期能加上更精准的控制,真的很有可能是下一代图像生成形态雏形。

    你觉得还有哪些有趣、实用的玩法?留言一起交流!

    原文链接:假期测试完豆包最新图像生成能力,我只能说:“太强啦!”

  • VoiceCanvas – 开源AI语音合成平台,支持多语言、多音色、声音克隆服务

    VoiceCanvas是什么

    VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。

    VoiceCanvas

    VoiceCanvas的主要功能

    • 多语言支持:支持超过 50 种语言 的语音合成,满足不同语言需求。
    • 语音合成:集成OpenAI TTS、AWS Polly、MiniMax,提供高质量语音输出。
    • 语音克隆:上传音频样本即可克隆个性化声音。
    • 文件处理:支持文本文件上传和音频文件下载,能处理长文本。
    • 用户系统:支持注册、登录及第三方登录(Google、GitHub),界面支持多语言和主题切换。

    VoiceCanvas的技术原理

    • 语音合成技术
      • 基于深度学习的语音生成:VoiceCanvas 用深度学习模型将文本转换为自然语音。这些模型通过大量的语音数据训练,学习语言的韵律、语调和发音规则,生成接近人类的语音。
      • 多语音服务集成:为确保语音质量和稳定性,VoiceCanvas 集成多种语音服务,OpenAI TTS提供高质量自然语音,支持多种声音风格,AWS Polly支持多语言和多种声音选择,MiniMax优化中文语音合成,支持语音克隆功能。
    • 语音克隆技术
      • 声音特征提取:用户上传几秒的音频样本后,系统基于深度学习算法提取声音的特征(如音色、语调、节奏等),特征被编码为模型的输入参数。
      • 个性化语音生成:基于提取的特征,系统用深度学习模型生成与用户声音高度相似的语音。这一过程需要大量的数据和复杂的模型训练,确保克隆声音的自然度和一致性。

    VoiceCanvas的项目地址

    VoiceCanvas的应用场景

    • 内容创作:用在视频、播客、有声读物的配音和旁白制作,支持多语言版本。
    • 教育领域:生成在线课程语音讲解、辅助语言学习,提升教学效果。
    • 企业与商业:制作客服语音、多语言内容和品牌宣传,支持国际化业务。
    • 娱乐与游戏:为游戏角色配音,提供互动娱乐中的语音反馈。
    • 个人使用:生成语音日记、语音消息,帮助视障人士获取信息。