Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • Wuhr AI Ops – AI运维管理平台,提供一站式运维解决方案

    Wuhr AI Ops是什么

    Wuhr AI Ops是智能化运维管理平台,通过AI技术简化复杂的运维任务。平台集成多模态AI助手,支持自然语言交互执行运维命令,能一键切换K8s集群和Linux系统命令环境。平台具备实时监控、日志分析、CI/CD管理、用户权限管理等功能,支持本地和远程主机统一管理。平台用ELK日志分析和Grafana性能监控,提供可视化流水线配置和多环境部署支持,帮助运维团队实现高效、智能的运维管理。

    Wuhr AI Ops

    Wuhr AI Ops的主要功能

    • 智能AI助手:集成多模态AI模型,支持自然语言交互和K8s/Linux命令切换,提供远程主机命令执行和会话管理。
    • 实时监控与日志分析:集成ELK日志分析和Grafana监控,支持实时日志搜索、性能监控及自定义告警规则。
    • CI/CD管理:提供代码构建、测试自动化、Jenkins集成及容器化部署支持,具备部署审批和回滚机制。
    • 用户权限管理:基于角色的访问控制,支持用户注册审批、细粒度权限分配及操作审计日志。
    • 主机管理:统一管理本地和远程服务器,支持SSH连接配置、状态监控及批量操作。
    • 模型管理:支持多AI提供商接入,提供API密钥管理及模型性能测试。
    • 接入管理:支持ELK和Grafana集成,实现日志聚合、搜索及自定义监控面板配置。
    • 工具箱:提供系统诊断、网络测试、文件传输及批量操作等常用运维工具。

    如何使用Wuhr AI Ops

    • 系统要求
      • 操作系统:Linux/macOS/Windows
      • Node.js:>= 18.0.0(推荐20.0+)
      • npm:>= 8.0.0(推荐10.0+)
      • Docker:>= 20.10.0
      • Docker Compose:>= 2.0.0
      • 内存:>= 4GB
      • 硬盘:>= 20GB可用空间
    • 克隆项目
    git clone https://github.com/st-lzh/wuhr-ai-ops.git
    cd wuhr-ai-ops
    • 安装部署
      • 一键安装脚本
        • 国内用户:运行中文安装脚本。
    ./install-zh.sh
        • 国外用户:运行英文安装脚本。
    ./install-en.sh
      • 手动安装
        • 配置环境变量
    cp .env.example .env
    # 编辑.env文件,配置数据库和AI API密钥
        • 配置npm镜像源(国内用户)
    npm config set registry https://registry.npmmirror.com/
        • 下载kubelet-wuhrai工具
    wget -O kubelet-wuhrai https://wuhrai-wordpress.oss-cn-hangzhou.aliyuncs.com/kubelet-wuhrai
    chmod +x kubelet-wuhrai
      • 启动数据库服务
    docker-compose up -d postgres redis pgadmin
    sleep 30
      • 安装依赖
    npm install
      • 数据库初始化
    npx prisma migrate reset --force
    npx prisma generate
    npx prisma db push
      • 初始化用户和权限
    node scripts/ensure-admin-user.js
    node scripts/init-permissions.js
    node scripts/init-super-admin.ts
      • 初始化预设模型
    node scripts/init-preset-models.js
      • 初始化ELK模板
    node scripts/init-elk-templates.js
      • 构建和启动应用
    npm run build
    npm start
    • 访问地址:主应用http://localhost:3000
    • 默认账户
      • 用户名:admin
      • 邮箱:admin@wuhr.ai
      • 密码:Admin123!

    Wuhr AI Ops的项目地址

    • GitHub仓库:https://github.com/st-lzh/Wuhr-AI-ops

    Wuhr AI Ops的应用场景

    • 数据中心运维:用AI助手快速排查和解决故障,结合实时监控和日志分析模块及时发现性能瓶颈和异常。
    • 云平台运维:,通过CI/CD管理模块实现容器化应用的自动化部署和更新,结合监控模块确保云平台的稳定运行。
    • 企业IT运维:用AI助手执行日常运维任务,结合用户权限管理模块确保运维操作的安全性和合规性。
    • 开发与测试环境管理:AI助手快速配置和管理开发环境,结合实时监控模块确保开发与测试环境的稳定性。
    • 故障排查与应急响应:快速获取故障信息,基于日志分析模块快速定位问题根源,结合实时监控模块实时跟踪系统状态,及时采取应急措施。
  • DragonV2.1 – 微软推出的零样本文本到语音模型

    DragonV2.1是什么

    DragonV2.1(DragonV2.1Neural) 是微软推出的最新零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语音提示即可生成自然、富有表现力的语音。模型在发音准确性、语音自然度和可控性方面进行显著改进, 与DragonV1 相比,模型单词错误率(WER)平均降低 12.8%,支持 SSML 音素标签和自定义词典,能精确控制发音和口音。模型集成水印技术,确保语音合成的合规性和安全性。

    DragonV2.1

    DragonV2.1的主要功能

    • 多语言支持:支持 100 多种 Azure TTS 语言环境,支持合成多种语言的语音,满足不同用户的需求。
    • 情感和口音适应:根据上下文调整语音的情感和口音,让语音更具表现力和个性化。
    • 零样本语音克隆:仅需 5-90 秒的语音提示,能快速生成用户自己的 AI 语音副本,大大降低语音克隆的门槛。
    • 快速生成:能在短时间内生成高质量的语音合成结果,延迟小于 300 毫秒,实时因子(RTF)小于 0.05,适合实时应用场景。
    • 发音控制:支持使用 SSML(语音合成标记语言)中的音素标签,用户能通过国际音标(IPA)音素标签和自定义词典精确控制语音的发音。
    • 自定义词典:用户能创建自定义词典,定义特定词汇的发音方式,确保语音合成的准确性。
    • 语言和口音控制:支持多种语言和特定口音的生成,例如英式英语(en-GB)、美式英语(en-US)等。
    • 水印技术:自动生成的语音输出中自动添加水印,有效防止语音合成内容的滥用。

    DragonV2.1的技术原理

    • Transformer 架构:DragonV2.1 基于 Transformer 模型架构,广泛应用在自然语言处理和语音合成的深度学习架构。Transformer 基于自注意力机制(Self-Attention)处理输入数据,能捕捉长距离的依赖关系,生成更自然、更连贯的语音。
    • 多头注意力机制:Transformer 中的多头注意力机制支持模型从不同角度关注输入数据的不同部分,提高模型对语音特征的捕捉能力。
    • SSML 支持:SSML 是用于描述语音合成的标记语言,DragonV2.1 支持 SSML 中的音素标签和自定义词典。用户能通过 SSML 精确控制语音的发音、语调、节奏等,确保语音合成的准确性和自然度。

    DragonV2.1的项目地址

    • 项目官网:https://techcommunity.microsoft.com/blog/azure-ai-services-blog/personal-voice-upgraded-to-v2-1-in-azure-ai-speech-more-expressive-than-ever-bef/4435233

    DragonV2.1的应用场景

    • 视频内容创作:为视频生成多语言配音和实时字幕,保留原始演员的语音风格,提升全球观众的观看体验。
    • 智能客服与聊天机器人:生成自然、富有表现力的语音回复,支持多语言,提升用户体验,降低客服成本。
    • 教育与培训:生成多种语言的语音,帮助语言学习者练习发音和听力,增强在线课程的互动性。
    • 智能助手:为智能家居设备和车载系统提供自然语音交互,支持多语言,提升用户便利性。
    • 企业与品牌:创建品牌语音,用于广告和市场推广,支持多语言,提升品牌识别度和全球市场覆盖。
  • FastDeploy – 百度推出的大模型推理部署工具

    FastDeploy是什么

    FastDeploy 是百度基于飞桨(PaddlePaddle)框架开发的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。FastDeploy 支持多种硬件平台(如 NVIDIA GPU、昆仑芯 XPU 等),具备负载均衡、量化优化、分布式推理等特性,显著提升模型推理性能并降低硬件成本。FastDeploy 兼容 OpenAI API 和 vLLM 接口,支持本地和服务化推理,简化大模型的部署流程。最新版本FastDeploy 2.0 是,进一步优化性能,支持文心 4.5等大模型的高效部署,引入 2-bit 量化技术,显著降低推理时的显存占用和硬件资源需求。

     FastDeploy

    FastDeploy的主要功能

    • 高效推理部署:支持多种硬件平台(如 NVIDIA GPU、昆仑芯 XPU 等),提供一键部署能力,简化大模型的推理部署流程。
    • 性能优化:通过量化(包括 2-bit 量化)、CUDA Graph 优化和投机解码等技术,显著提升模型推理性能。
    • 分布式推理:支持大规模分布式推理,优化通信效率,提升大规模模型的推理效率。
    • 负载均衡与调度:基于 Redis 实现实时负载感知和分布式负载均衡调度,优化集群性能。
    • 易用性:提供简洁的 Python 接口和详细的文档,方便用户快速上手和使用。
    • 2-bit 量化技术:引入 2-bit 量化,显著降低推理时的显存占用和硬件资源需求,支持单卡部署千亿参数级模型。
    • 兼容性:兼容 OpenAI API 和 vLLM 接口,支持本地和服务化推理,4 行代码完成本地推理,1 行命令启动服务。

    FastDeploy的技术原理

    • 负载均衡的 PD 分离:通过 PD 分离技术,将模型参数分布到多个设备上,实现高效的分布式推理。在 FastDeploy 2.0 中,引入上下文缓存和动态实例角色切换机制,进一步优化资源利用率。这种技术能平衡服务级别目标(SLO)合规性和吞吐量,在大规模工业部署中显著提升推理效率,确保系统在高负载情况下仍能稳定运行。
    • 统一的 KV 缓存传输:FastDeploy 提供轻量级高性能的 KV 缓存传输机制,能智能选择 NVLink 或 RDMA 进行数据传输。在 FastDeploy 2.0 中,自研的传输库进一步优化通信效率,支持多种硬件平台,包括 NVIDIA GPU 和昆仑芯 XPU。
    • 量化技术:通过量化压缩模型,显著降低显存占用和推理延迟。在 FastDeploy 2.0 中,引入 2-bit 量化技术,进一步减少显存占用,让单卡能部署千亿参数级模型。这种量化技术能保持接近无损的推理精度,降低硬件资源需求。
    • 投机解码与优化:通过融合 Kernel 加速前后处理、动态批处理、并行验证等手段,优化推理性能。在 FastDeploy 2.0 中,投机解码技术进一步优化,支持多 Token 预测(MTP)和分段预填充(Chunked Prefill)。
    • CUDA Graph 优化:用飞桨的动转静技术进行图捕获,支持 CUDA Graph 优化。在 FastDeploy 2.0 中,通过整图捕获和动态图优化,显著提升解码速度。

    FastDeploy的项目地址

    • 项目官网:https://paddlepaddle.github.io/FastDeploy/
    • GitHub仓库:https://github.com/PaddlePaddle/FastDeploy

    FastDeploy的应用场景

    • 自然语言处理(NLP):用在文本生成、机器翻译、情感分析和问答系统等,提升文本处理效率。
    • 多模态应用:支持图文生成、视频字幕生成和图像描述生成,结合文本与图像处理能力。
    • 工业级部署:适用大规模分布式推理,通过实时负载均衡优化资源利用率,支持多种硬件平台。
    • 学术研究:为研究人员提供高性能推理工具,支持模型优化和多模态研究。
    • 企业级应用:助力智能客服、内容推荐和数据分析,提升企业服务和决策效率。
  • Jenova – 专为MCP打造的首款AI Agent

    Jenova是什么

    Jenova 是先进的人工智能平台,帮助用户高效地从研究到生成报告。通过集成多种强大的 AI 模型,如 GPT-4o、Claude 和 Gemini,提供更精准的搜索结果和更智能的交互体验。与传统的搜索引擎相比,Jenova 能理解复杂的查询意图,能实时联网获取最新信息,确保用户获取到的信息是最新的。Jenova 的功能丰富多样,支持文档处理、图像识别、语音转文字等多种功能。用户可以上传各种格式的文件,如 PDF、Word 文档等,Jenova 能快速分析并提取关键信息。支持多种搜索方式,包括网络搜索、YouTube 搜索和 Reddit 搜索,帮助用户快速找到所需内容。

    Jenova

    Jenova的主要功能

    • 网络搜索:Jenova 能实时联网获取最新信息,提供比传统搜索引擎更精准、更智能的搜索结果。
    • YouTube 搜索:用户可以直接在平台上搜索并播放 YouTube 内容,方便快捷。
    • Reddit 搜索:提供智能的 Reddit 搜索功能,帮助用户快速找到相关的讨论和信息。
    • 文件读取与分析:支持多种文件格式(如 PDF、Word 文档、PPT 幻灯片等),用户可以上传文件,Jenova 会快速分析并提取关键信息。
    • 内容总结与提取:用户可以要求 Jenova 总结文档的主要内容或提取特定部分的信息,帮助高效整理资料。
    • 图像理解:Jenova 能识别和解释图片内容,支持复杂的视觉问答和推理任务。用户可以上传图片,Jenova 会提供详细的解释和分析。
    • 语音转文字:支持多种语言的语音转录功能,用户可以将语音信息快速转换为文本,提高工作效率。
    • 数据安全:Jenova 强调用户隐私,承诺不使用用户数据进行训练,采取严格的安全措施来保护用户信息。

    Jenova的官网地址

    • 官网地址:https://www.jenova.ai/

    Jenova的应用场景

    • 文献整理:学生和研究人员可以上传学术文献(如 PDF 文件),让 Jenova 帮助总结主要内容、提取关键数据或分析研究方法。
    • 资料收集:通过网络搜索、YouTube 搜索和 Reddit 搜索,快速获取最新的研究成果、学术讨论和相关视频资料。
    • 市场调研:企业可以利用 Jenova 的搜索功能,快速获取市场动态、竞争对手信息和行业趋势。
    • 报告生成:在准备商业报告时,Jenova 可以帮助分析数据、提取关键信息并生成初步报告框架。
    • 信息整理:个人用户可以用 Jenova 整理日常信息,如新闻、邮件或个人笔记。
    • 图像分析:用户可以上传图片,让 Jenova 分析图像内容、提供描述或进行视觉推理。
  • InteriorGS – 群核科技推出的高质量3D高斯语义数据集

    InteriorGS是什么

    InteriorGS 是群核科技推出的高质量的3D高斯语义数据集,包含1000个3D高斯语义场景,涵盖80多种室内环境,如家庭、便利店、婚宴厅和博物馆。数据集包含755个类别的554,000多个对象实例,每个对象都有3D框和语义标注,提供占用地图以支持导航和空间理解。InteriorGS 是全球首个适用于智能体自由运动的大规模3D数据集,采用3D高斯溅射技术重建场景,结合空间大模型赋予语义信息。为机器人和AI智能体的空间感知能力提升提供了丰富的训练素材,已在HuggingFace和Github公开,供全球开发者使用。

    InteriorGS

    InteriorGS的主要功能

    • 多样化场景:包含 1000 个 3D 场景,涵盖家庭、便利店、婚宴厅、博物馆等 80 多种室内环境。
    • 高密度对象标注:每个场景包含 755 个类别的 554,000 多个对象实例,每个对象都标注了 3D 框和语义信息。
    • 占用地图:每个场景提供占用地图(occupancy map),帮助智能体理解空间布局,支持路径规划和避障。
    • 动态环境适配:数据集支持智能体在动态环境中自由运动,提升其适应性和灵活性。
    • 高质量标注:结合 3D 高斯溅射技术重建场景,并赋予语义信息,为 AI 模型提供高质量的训练数据。
    • 大规模数据集:作为全球首个适用于智能体自由运动的大规模 3D 数据集,为模型训练提供了丰富的素材。

    InteriorGS的项目地址

    • Github仓库:https://github.com/manycore-research/InteriorGS
    • HuggingFace模型库:https://huggingface.co/datasets/spatialverse/InteriorGS

    InteriorGS的应用场景

    • 室内导航:机器人可以在家庭、办公室、商场等复杂室内环境中进行自主导航。InteriorGS 提供的高精度 3D 场景和占用地图能帮助机器人实时感知环境,规划最优路径,避开障碍物。
    • 空间感知:数据集中的 3D 场景和占用地图有助于训练 AI 模型的空间感知能力,能更好地理解室内空间的布局和结构。
    • 虚拟环境构建:InteriorGS 的 3D 场景可以用于构建虚拟现实(VR)和增强现实(AR)应用中的虚拟环境。
    • 空间布局优化:建筑师和设计师可以用 InteriorGS 中的 3D 场景和占用地图来优化室内空间布局。
    • 智能设备部署:InteriorGS 的数据可以帮助智能家居系统更好地理解室内环境,更合理地部署智能设备,例如智能摄像头、传感器和智能家电。
  • Gemini 2.5 Deep Think – 谷歌推出的AI推理模型

    Gemini 2.5 Deep Think是什么

    Gemini 2.5 Deep Think 是谷歌推出的 AI 模型,专为解决复杂任务设计。是获得 2025 年国际数学奥林匹克竞赛(IMO)金牌的模型的变体,通过并行思考技术(Parallel Thinking)和强化学习,能同时探索多种解法,互相验证并优化,最终得出最佳答案。Deep Think 特别擅长处理复杂的数学问题、算法设计、科研推理和创意开发任务。

    在性能上,Deep Think 在多个基准测试中表现出色,例如在 HLE 测试中取得 34.8% 的最高分,在 AIME 2025 中接近满分,在 LiveCodeBench V6 中也取得了 87.6% 的高分。能生成更详细、更具创造性的输出,尤其在复杂任务中表现出色。Deep Think 仅向 Google AI Ultra 订阅用户开放,月费为 249.99 美元(约 1800 元人民币),每天有固定的使用额度。

    Gemini 2.5 Deep Think

    Gemini 2.5 Deep Think的主要功能

    • 并行思考:Deep Think 通过并行思考技术,能同时生成多个想法并进行评估。会同时探索多种解法,互相验证并优化,最终得出最佳答案。类似于人类在解决复杂问题时的多角度思考。
    • 强化学习:通过新的强化学习技术,Deep Think 能随着时间推移不断优化其推理路径,变得更擅长解决问题。
    • 数学与算法:Deep Think 在数学和算法设计方面表现出色。能解决复杂的数学问题,例如在 2025 年国际数学奥林匹克竞赛(IMO)中获得金牌,并在 AIME 2025 中接近满分。
    • 科研推理:Deep Think 可以帮助研究人员提出和验证数学猜想,推理复杂的科学文献,加速科学发现的进程。
    • 迭代开发:Deep Think 在需要分步骤构建复杂事物的任务中表现出色。例如,在网页设计、游戏场景建模和产品原型优化中,能同时提升项目的美观度和功能性。
    • 体素艺术:在生成复杂的创意设计(如体素艺术)时,Deep Think 能生成更丰富、更详细的输出,相比其他版本的 Gemini 模型,细节和美感显著提升。
    • 高难度编程问题:Deep Think 在处理需要精确问题表述、权衡取舍和时间复杂度的编程问题时表现出色。能帮助程序员拆解问题、算法建模,逐步逼近最优解。
    • 代码优化:在 LiveCodeBench V6 测试中,Deep Think 取得了 87.6% 的高分,显示出其在代码优化和算法设计方面的强大能力。
    • 内容安全性和客观性:Deep Think 的内容安全性和客观性相比 Gemini 2.5 Pro 有所提升,能更好地处理敏感和复杂的内容。
    • 拒绝良性请求:虽然拒绝良性请求的倾向有所增强,确保了模型在处理复杂任务时的严谨性和安全性。

    Gemini 2.5 Deep Think的技术原理

    • 多线程推理:Deep Think 可以同时生成并考量多种思路,随着时间推移修订或融合不同想法,最终得出最佳答案。
    • 延长思考时间:通过延长推理时间,模型有更多机会探索不同的假设,为复杂问题找到更具创造性的解决方案。
    • 优化推理路径:强化学习技术使 Deep Think 能随着时间推移不断优化其推理路径,成为更出色、更直观的问题解决者。
    • 动态调整:用户可以设置思考预算来平衡性能和成本。
    • 稀疏混合专家(MoE)架构:Deep Think 基于稀疏混合专家架构,允许模型激活每个输入 token 的模型参数子集。具体特点包括:
      • 动态路由:模型通过学习将 token 动态路由到参数子集(专家),在总模型容量与每个 token 的计算和服务成本之间解耦。
      • 高效计算:这种架构使模型能够高效地处理大规模输入,同时保持高性能。

    Gemini 2.5 Deep Think的项目地址

    • 项目官网:https://blog.google/products/gemini/gemini-2-5-deep-think/
    • 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf

    Gemini 2.5 Deep Think与 Gemini 2.5 Pro 对比

    能力/属性 Gemini 2.5 Pro Gemini 2.5 Deep Think
    推理速度 快速,低延迟 较慢,延长“思考时间”
    推理复杂度 中等 高,使用并行思维
    提示深度和创造力 良好 更详细、更细致
    基准测试表现 强劲 状态最先进的
    内容安全与客观性 相比旧模型有所改进 进一步改进
    拒绝率(良性提示) 较低 较高
    输出长度 标准 支持更长的响应
    体素艺术/设计保真度 基本场景结构 增强的细节和丰富性

    Gemini 2.5 Deep Think的应用场景

    • 数学与算法:在国际数学奥林匹克竞赛(IMO)中达到金牌水平,在 AIME 2025 中接近满分。
    • 科研推理:帮助研究人员提出和验证数学猜想,推理复杂科学文献。
    • 创意与设计:在网页设计、游戏场景建模等任务中表现出色,能生成更丰富、更详细的输出。
    • 设计师:生成复杂的创意设计,优化网页和游戏场景。
    • 学生和教育工作者:辅助解决复杂的数学和科学问题。
  • 小旺AI截图 – 免费AI截图工具,截图获得AI分析解答

    小旺AI截图是什么

    小旺AI截图是免费功能强大的电脑截图软件,集成了DeepSeek的AI技术,为用户提供了一系列智能截图功能。用户可以进行普通截图、长截图、带壳截图等多种操作,能基于AI功能进行OCR文字提取、AI翻译、AI解释等,满足不同场景下的需求。支持截图标注、贴图、录屏、GIF制作等功能,方便用户对截图进行进一步处理和管理。小旺AI截图的特点是轻巧、免登录、无广告,安装包仅10.45MB,运行资源占用低,适合Windows和macOS系统。提供了截图回溯、自动归档等创新功能,帮助用户更好地管理和查找历史截图。

    小旺AI截图

    小旺AI截图的主要功能

    • 多种截图模式:支持全屏、区域、窗口、滚动长截图等多种模式,可灵活应对不同场景。
    • 长截图优化:智能拼接多页内容,生成清晰连贯的长图,适合保存报告、论文或网页信息。
    • 带壳截图:提供多种设备外壳模板,一键生成带壳效果图,适合设计师使用。
    • OCR文字提取:基于DeepSeek技术,可高精度识别图片中的文字,支持手写体识别。
    • AI翻译:支持11种语言互译,学术文献翻译准确率可达94%。
    • AI解释:遇到不懂的内容,截图可获得AI智能分析和解答。
    • 专业标注工具:提供20多种标注工具,包括箭头、画笔、文字框、马赛克等,支持图层管理。
    • 局部高亮:突出显示截图中的重要部分,便于他人快速理解。
    • 高清录屏:支持输出MP4和GIF格式,满足基础录屏需求。
    • GIF编辑:支持贴图、花字、速度调节等功能。
    • 智能图库管理:截图按时间轴自动归类,支持快速回溯和加密存储,无需上传云端。

    如何使用小旺AI截图

    • 下载与安装:访问小旺AI截图的官网:https://www.xiaowang.com/,下载对应系统的安装包。
      • Windows版:双击安装版运行,选择非系统盘路径,勾选开机自启,任务栏显示托盘图标;单文件版解压即用,无需配置权限。
      • macOS版:Intel机型将.dmg文件拖至「应用程序」;M系列芯片选择ARM专用版,安装后在「系统设置→隐私与安全性」中启用「屏幕录制」「辅助功能」权限。
    • 初始配置
      • 快捷键:默认截图快捷键为Alt+Z,录屏快捷键为Alt+R,可根据个人习惯在软件设置中自定义。
      • 权限:首次启动时,需允许「屏幕录制」「辅助功能」权限,macOS用户需在系统偏好设置中手动开启。
    • 截图操作
      • 启动截图:按默认快捷键Alt+Z或点击截图按钮,选择区域截图、窗口截图、滚动截图等模式。
      • 标注编辑:截图完成后,使用箭头、文字、画笔等工具进行标注,可高亮重点或为敏感信息添加马赛克。
      • AI功能:点击“文字识别”或“OCR”按钮,软件会自动识别截图中的文字并显示文本内容;框选截图中的图表或陌生对象,AI可解析并输出相关信息。
    • 录屏操作
      • 启动录屏:按默认快捷键Alt+R或点击录屏按钮,选择全屏或框选区域进行录制。
      • 过程操作:录制过程中可暂停跳过内容,调整录制范围。
      • 结束录制:再次按下录屏快捷键或点击「停止」按钮,录制完成后自动弹出编辑窗口,可对视频或GIF进行简单编辑。

    小旺AI截图的应用场景

    • 知识解析:学生在自习或复习时,遇到不懂的概念,只需截图部分内容,AI能迅速解析并提供详细解释。
    • 文献翻译:在阅读外语文献或资料时,通过截图翻译功能,可快速获取高质量译文,打破语言壁垒。
    • 会议记录:在会议中,可快速截取关键信息并提取文字生成纪要,能对复杂数据和图表进行即时解读,提高工作效率。
    • 资料整理:一键翻译外文资料,提取文字内容并归档至历史库,实现全流程自动化,方便后续查找和使用。
    • 素材整理:自媒体博主、写作者和视频制作人可使用其截图文字提取、翻译等功能,快速整理素材,生成高质量内容,提升创作效率。
    • 视频制作:支持高清录屏(全屏/区域模式)与GIF制作,满足动态内容记录需求,可对录屏内容进行编辑创作,如添加文本贴图、制作表情包等。
  • 万兴超媒Agent – 万兴科技推出AI音视频创作Agent

    万兴超媒Agent是什么

    万兴超媒Agent是万兴科技推出的AI Agent产品,专为音视频创作者设计,依托万兴天幕音视频多媒体大模型2.0技术底座,具备全流程创作能力。用户只需输入一句话或创意,即可生成包含镜头设计、配音、剪辑、字幕和配乐等元素的完整音视频作品。具备专业级剪辑功能,融合了万兴科技20多年的视频编辑技术积累,可直接调用,高效便捷。万兴超媒预置海量垂直场景模板和丰富的行业知识库,满足不同创作需求,与万兴科技旗下的AIGC软件深度协同,攻克跨应用操作难题,助力高效再创作。

    万兴超媒Agent的主要功能

    • 全流程创作能力:用户仅需输入一句话或一个创意想法,可触发智能创作流程,自动生成包含镜头设计、专业配音、精准剪辑、创意效果设计、清晰字幕以及契合情景氛围的配乐等完整元素的可编辑音视频。
    • 全链路视频编辑能力:集合万兴科技20余年视频编辑器技术积累,拥有全链路视频编辑能力,可直接调用专业级剪辑功能,让视频编辑轻松而高效。
    • 海量模板与知识库:基于15亿用户经验数据,预置海量垂直场景模板,有非常丰富的行业Know-How知识库沉淀,支持任意创作场景。
    • 深度协同:基于天幕2.0对视频编辑任务进行了专项优化,能与万兴科技旗下Wondershare Filmora等AIGC软件深度配合,攻克音视频创作中跨应用操作的难题,助力用户实现高效再创作。

    如何使用万兴超媒Agent

    万兴超媒Agent目前申请公测体验中,可访问官网提交申请。

    • 访问平台:访问万兴超媒Agent的官方网站:https://sa.wondershare.cn/app/。
    • 填写申请信息:填写个人相关信息,选择职业身份描述,创作场景,填写申请理由,越详细越好。
    • 提交申请:等待短信通知。

    万兴超媒Agent的应用场景

    • 电商爆款视频:如输入“白色运动鞋防水测试,户外场景,慢镜头水花飞溅”,可自动生成产品360°展示+慢动作测试+购买链接弹窗,制作时间从3小时缩短至5分钟。
    • 知识科普短片:输入“量子纠缠原理解说,科技蓝风格,3D动画演示”,AI会拆分“概念→比喻→实例”三段式脚本,并匹配3D粒子特效及学术腔配音。
    • 本地生活推广:调用“餐饮探店”模板,替换菜品图片+定位地图,30分钟可产出10家分店差异化视频。
  • Launch – AI全栈应用开发平台,构建前后端完整应用

    Launch是什么

    Launch 是基于人工智能帮助用户快速构建全栈应用的工具。用户无需具备深入的编程知识或开发团队,只需通过简单的文字提示,能生成包含前端、后端、数据库、用户认证和支付功能的完整应用。平台主打快速、高效,适合创业者、初创公司或个人开发者快速验证产品创意并上线。提供直观的界面和无代码开发体验,让用户专注于产品逻辑而非技术细节,降低开发门槛。

    Launch

    Launch的主要功能

    • AI 驱动的应用生成:用户通过文字提示,可生成包含前端、后端和数据库的完整应用。
    • 用户认证集成:平台自动生成 Google 认证等登录功能,支持用户快速注册和登录。
    • 支付系统支持:内置支付模块,方便用户快速集成支付功能。
    • 实时 UI 与逻辑连接:生成的应用界面和逻辑直接连接,无需手动调整代码。
    • 无代码开发体验:用户无需编写代码,通过提示即可完成产品开发。
    • 快速产品上线:支持从创意到上线的快速迭代,缩短开发周期。
    • 模板与定制化:提供基础模板,同时支持用户根据需求进行定制。

    Launch的官网地址

    • 官网地址:https://app.launch.today/

    Launch的应用场景

    • 创业者验证产品创意:创业者可以用 Launch AI 快速构建最小可行产品(MVP),测试市场反应。
    • 个人开发者创建应用:没有编程经验,个人开发者也可以用 Launch AI 创建小型工具,如任务管理器或个人博客。
    • 小型团队快速上线产品:小型团队可以通过 Launch AI 协作开发应用,分担设计和功能优化的工作。
    • 教育与学习:学生或初学者可以用 Launch AI 学习应用开发流程,通过生成和调整应用理解前后端逻辑。
  • iFlow CLI – 心流AI团队推出的能在终端运行的AI Agent

    iFlow CLI是什么

    iFlow CLI 是心流AI团队推出的能运行在终端的 AI 智能体,专为开发者和高效工作者设计。iFlow CLI支持自然语言交互,能快速分析代码、生成文档、调试程序、管理文件、查询信息等。iFlow CLI 内置强大的 AI 模型(如 Qwen3-CoderKimi K2 等),支持用户在终端中高效完成复杂任务,提升工作效率。iFlow CLI 安装便捷,支持多种操作系统,完全免费,是编程和日常任务处理的得力助手。

    iFlow CLI

    iFlow CLI的主要功能

    • 自然语言交互:支持自然语言命令,理解用户需求,提供上下文感知的智能辅助。
    • 模型切换:支持多种 AI 模型(如 Qwen3-Coder、Kimi K2 等),用户按需切换。
    • 自动化任务执行:自动执行复杂任务,如代码分析、文件操作、数据处理等。
    • GitHub Actions 集成:支持在 GitHub 工作流中自动化执行任务,提升开发效率。

    如何使用iFlow CLI

    • Mac 系统
      • 打开终端。
      • 输入以下命令并回车:bash -c “$(curl -fsSL https://cloud.iflow.cn/iflow-cli/install.sh)”
      • 按提示选择模型并确认两次。
      • 访问心流开放平台,注册并获取 API 密钥。
      • 将 API 密钥粘贴到终端,按回车完成设置。
    • Windows 系统
      • 安装 Node.js(20+)。
      • 安装 WSL:打开 CMD,输入 wsl --install 并回车。
      • 在 CMD 中输入以下命令并回车:wsl -l -o,wsl –install -d Ubuntu-20.04
      • 在 WSL 终端中输入以下命令并回车:bash -c “$(curl -fsSL https://cloud.iflow.cn/iflow-cli/install.sh)”
      • 按提示选择模型并确认两次。
      • 访问 心流开放平台,注册并获取 API 密钥。
      • 将 API 密钥粘贴到终端,按回车完成设置。
    • 基本操作:启动 iFlow CLI,在终端中输入:
      • 常见命令示例iflow
      • 分析代码:iflow > 分析这个项目的代码结构并提出优化建议
      • 生成文档
        • cd your-project-folder/
        • iflow > /init
        • iflow > 根据项目需求生成技术文档

    iFlow CLI的项目地址

    • GitHub仓库:https://github.com/iflow-ai/iflow-cli/

    iFlow CLI的应用场景

    • 编程支持:自动生成代码片段、优化代码结构、修复代码错误,显著提升开发效率,帮助开发者快速完成编程任务。
    • 文件管理:自动对文件进行分类整理,执行批量文件操作(如下载、重命名),有效提升文件管理效率。
    • 数据分析:分析 Excel 或 CSV 文件中的数据,生成直观的图表和详细的报告,帮助用户快速提取关键信息并进行数据可视化。
    • 信息查询:帮助用户查询天气、新闻、价格等信息,规划行程和任务,提供实用建议。
    • 内容创作:i生成文章、报告、演讲稿等文本内容,助力用户高效完成内容创作任务。