Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • DeepSeek-R1-0528 – DeepSeek开源的最新版R1模型

    DeepSeek-R1-0528是什么

    DeepSeek-R1-0528 是 DeepSeek 团队推出的最新版AI模型。模型基于 DeepSeek-V3-0324 训练,参数量达 660B。模型在 HuggingFace 上开源,开发者能自由使用和修改。DeepSeek-R1-0528核心亮点包括深度推理能力、优化的文本生成、独特的推理风格及长达 30-60 分钟的单任务处理能力。模型在编程任务上表现出色,特别是在复杂任务处理和代码生成方面,超越 Claude 4 Sonnet Gemini 2.5 Pro 等顶流大模型。

    DeepSeek-R1-0528

    DeepSeek-R1-0528的主要功能

    • 深度推理:支持进行复杂的逻辑推理和多步骤思考,解决复杂问题。
    • 编程能力:生成高质量代码,支持多种编程任务,如模拟物理现象、前端设计等。
    • 文本生成:生成自然流畅的文本,格式规范,适用写作任务。
    • 长时间思考:单任务处理时间可达30-60分钟,适合复杂任务。

    DeepSeek-R1-0528的技术原理

    • 模型架构与训练基础:基于DeepSeek-V3-0324模型训练而来,参数量达到660B。在基础架构上继承V3版本的特性,在此基础上进行进一步优化。
    • 文本生成优化:在文本生成方面进行了优化,生成的文本更加自然、格式更好。基于对语言模型的微调,包括改进词汇选择、句子结构生成及上下文理解等方面。

    DeepSeek-R1-0528的性能表现

    在 LiveCodeBench 基准测试中,性能几乎与 OpenAI 的 o3-high 相当,甚至超越 Claude 4 Sonnet 和 Gemini 2.5 Pro 等顶流大模型。

    DeepSeek-R1-0528

    DeepSeek-R1-0528的项目地址

    DeepSeek-R1-0528的应用场景

    • 自然语言处理:生成新闻、故事、文案等,支持多语言翻译,构建智能问答系统。
    • 编程辅助:生成高质量代码,支持多种编程语言,优化现有代码,提高效率和可读性,为开发者提供调试建议。
    • 教育支持:为学生提供个性化学习建议和辅导,帮助用户更好地理解和掌握知识。
    • 企业办公:自动生成会议纪要、报告、邮件等文档,提高办公效率;生成市场调研报告,分析市场趋势和消费者行为,为企业决策提供支持。
  • AI-Media2Doc – 开源AI图文创作助手,一键将音视频内容转为文档

    AI-Media2Doc是什么

    AI-Media2Doc 是开源的音视频转文档工具,基于AI大模型技术,支持将音视频内容智能转换为小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等多种文档形式。工具支持纯前端处理,无需本地安装ffmpeg,任务记录保存在本地,保障用户数据安全。AI-Media2Doc适合内容创作者、学生、研究人员等群体,帮助高效提取和整理信息。

    AI-Media2Doc

    AI-Media2Doc的主要功能

    • 音视频转文档:一键将音视频内容转换为多种文档风格,包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等。
    • AI智能处理:基于大模型技术,实现内容总结与多风格文档生成,支持基于视频内容进行AI问答和二次对话。
    • 纯前端处理:基于ffmpeg wasm技术,无需本地安装ffmpeg,支持浏览器直接处理。
    • 隐私保护:无需登录注册,任务记录保存在本地,保障用户数据安全。
    • 本地部署:支持本地运行,基于Docker一键部署,方便用户在本地环境中使用。
    • 多种导出格式:生成的文档和思维导图能导出至第三方平台,进一步编辑和分享。

    如何使用AI-Media2Doc

    • 本地部署
      • 克隆项目代码:打开终端或命令行工具,运行以下命令克隆项目代码。
    git clone https://github.com/hanshuaikang/AI-Media2Doc.git
    cd AI-Media2Doc
      • 安装Python依赖(后端):安装项目所需的Python依赖。
    pip install -r backend/requirements.txt
      • 配置环境变量:在backend目录下创建一个.env文件,填写API密钥。
    OPENAI_API_KEY=your_openai_api_key
    GROK_API_KEY=your_grok_api_key
    DEEPSEEK_API_KEY=your_deepseek_api_key
      • 启动FastAPI服务:启动后端服务。
    uvicorn backend.main:app --reload
      • 安装前端依赖并启动服务:安装前端依赖并启动前端服务。
    cd frontend
    npm install
    npm run serve
      • 访问本地服务器:打开浏览器,访问http://localhost:8080,即可开始使用。
    • 使用方法
      • 新建任务:在页面上新建一个任务,上传音视频文件或输入外链地址。
      • 选择输出风格:选择希望生成的文档风格,如小红书、公众号、知识笔记、思维导图等。
      • 生成图文:点击“生成”按钮,系统将自动处理音视频内容生成相应的文档。
      • 二次对话:在右侧界面输入问题(如“视频的主旨是什么?”),AI将基于内容回答。
      • 导出结果:生成的文档和思维导图可以导出到第三方平台,如幕布、ProcessOn等,方便进一步编辑和使用。

    AI-Media2Doc的项目地址

    AI-Media2Doc的应用场景

    • 学生学习:提取网课笔记和思维导图,方便复习。
    • 教师备课:将视频转为教案,快速整理课程内容。
    • 自媒体创作:拆解视频,生成图文、剧本或脚本,提供创作灵感。
    • 知识管理:视频转结构化笔记,便于管理和回顾。
    • 内容创作:视频转公众号或小红书文案,提升创作效率。
  • AIpai – AI视频创作Agent,满足多种视频创作需求

    AIpai是什么

    AIpai是AI视频创作Agent产品,支持帮助用户快速生成专业视频内容。基于智能编剧、角色设计、场景构建和视频生成等功能,满足从病毒式短剧、热点视频到品牌宣传片等多种需求。用户只需输入文案,AIpai能自动分镜生成多种图像和视频选项,支持声音设置和参数调整。AIpai 能快速生成专业视频,大幅缩短制作时间,提升创作效率,让没有专业经验的用户能轻松上手。

    AIpai

    AIpai的主要功能

    • 智能编剧:自动生成视频文案脚本,优化故事结构。
    • 角色设计:创建角色形象,生成角色动画。
    • 场景构建:生成与文案匹配的场景背景,支持场景优化。
    • 图像生成:分解文案为分镜头,生成多种AI图像供选择。
    • 视频生成:将文案、角色和场景合成完整视频,提供多版本选择。
    • 声音设置:生成自然配音,添加丰富音效。
    • 参数调整:定制视频效果,切换不同风格。

    如何使用AIpai

    • 注册与登录:访问 AIpai的官方网站,按照提示完成注册和登录。
    • 输入创作主题:在平台首页,输入视频主题或文案。例如:“一个关于未来城市的科幻短片”或“品牌宣传视频”。
    • 脚本生成
      • 文案生成:选择“智能编剧”功能,输入关键词或主题,AIpai生成完整的文案脚本。如果已有文案,直接粘贴或输入文案内容。
      • 角色设计:在角色设计界面,输入角色描述。AIpai生成多个角色图像供选择,选择最符合需求的图像。
      • 场景构建:输入场景描述,如“未来城市的街道,霓虹灯闪烁”。AIpai生成场景后,调整光照、色彩和布局等细节。
    • 视频生成
      • 分镜头设计:AIpai将文案分解为多个镜头,每个镜头生成多种图像。从生成的图像中选择最适合的镜头图像。
      • 合成视频:点击“生成视频”按钮,AIpai将所有镜头合成完整视频。
      • 声音设置:选择配音语言和音色,AIpai为视频生成自然流畅的配音。
    • 参数调整:在视频生成后,调整帧率、时长、特效等参数。
    • 预览与导出:生成视频后,预览效果,确保满足需求。选择导出格式(如MP4、MOV等),下载到本地。

    AIpai的应用场景

    • 短视频制作:快速生成适合社交媒体平台的短视频内容,如抖音、快手等,涵盖搞笑、科普、剧情等类型。
    • 品牌宣传:为品牌制作个性化的宣传视频,提升品牌形象和知名度。
    • 个人创作:帮助创作者制作个人原创MV、旅行日记、生活记录等视频作品。
    • 教育领域:制作教育类视频,如课程讲解、知识科普等,提高教学效果和趣味性。
    • 影视制作:辅助影视制作团队快速生成创意脚本和初步视频素材,提高创作效率。
  • MagicPath – AI无限画布设计工具,自然语言交互生成设计原型

    MagicPath是什么

    MagicPath 是基于 AI 的无限画布设计工具。工具支持用户基于自然语言与 AI 对话,快速生成和编辑设计组件,无需手动操作。MagicPath 能帮助设计师和创意工作者快速实现创意,生成高质量的设计原型。MagicPath 适合那些需要快速生成设计原型、进行创意探索或希望简化设计流程的用户,尤其是没有专业设计或编程背景的人。

    MagicPath

    MagicPath的主要功能

    • 描述愿景:用户告诉 MagicPath 想要创建的内容,AI 根据描述生成设计。
    • 轻松定制:基于简单的文本命令,用户能调整设计的颜色、布局和风格。
    • 即时组件:无需编码,用户快速创建美观的用户界面(UI)组件。

    MagicPath的官网地址

    MagicPath的应用场景

    • 快速原型设计:适用需要迅速创建设计原型的场合,如产品开发初期。
    • 创意探索:帮助设计师和创意工作者快速尝试不同的设计想法。
    • UI/UX设计:简化用户界面和用户体验的设计流程,无需编码知识。
    • 团队协作:支持多人协作,适合团队共同参与设计项目。
    • 教育和学习:作为教学工具,帮助学生和初学者理解设计原则和实践。
  • Opera Neon – Opera推出的 AI Agent 浏览器

    Opera Neon是什么

    Opera Neon 是Opera推出的 AI Agent 浏览器,基于智能 Agent 技术重新定义浏览器的功能。Opera Neon支持浏览网页,与用户合作完成任务,如研究主题、自动化工作流程、创建内容等。核心功能包括聊天、执行任务和创作内容。Opera Neon 尚未全部开放,目前处于邀请制,用户访问官网加入等待名单。

    Opera Neon

    Opera Neon的主要功能

    • 聊天功能(Neon Cha:提供即时答案、研究、内容生成等,支持多种语言,无需切换应用程序或窗口。
    • 执行功能(Neon Do):AI Agent 支持导航网页完成任务,如填写表单、预订旅行或购物,保护用户的安全和隐私。
    • 创建功能(Neon Make):将复杂的想法从提示转化为大规模结果,如内容、游戏和Web应用程序。

    Opera Neon的官方示例

    • 计划并预定里斯本旅行
      • Prompt:Plan a romantic weekend getaway to Portugal. Maybe outside Lisbon or Porto. In July. From Oslo. Suggest some things to do and pre-book flights and hotels on booking.com(计划一个在葡萄牙的浪漫周末度假。可能在里斯本或波尔图之外的地方。在七月。从奥斯陆出发。建议一些活动,并在booking.com上预订航班和酒店。)

    Opera Neon

    • 查找并购买袜子
      • Prompt:Buy 12 pairs of white socks on walmart. Men’s size 10. Have them delivered. I prefer brands like Nike, Adidas or Puma.(在沃尔玛购买12双白色袜子。男式10号。让它们送货上门。我更倾向于耐克、阿迪达斯或彪马这样的品牌。)

    Opera Neon

    • 玩维基游戏
      • Prompt:Play the game starting at the current page. Rules of the game: go from one Wikipedia page to another using as few steps/links as possible. You start on a Wikipedia page about a topic. This page contains a description of the topic as well as links to other Wikipedia pages. You need to continue to click links that way until you end up on the wikipedia page about Tickling.(从当前页面开始玩游戏。游戏规则:尽可能少地通过步骤/链接从一个维基百科页面跳转到另一个。你从一个关于某个主题的维基百科页面开始。该页面包含有关该主题的描述以及链接到其他维基百科页面的链接。你需要继续点击链接,直到你最终到达关于挠痒的维基百科页面。)

    Opera Neon

    Opera Neon的官网地址

    Opera Neon的应用场景

    • 旅行规划:创建旅行计划,预订机票和酒店。
    • 金融分析:生成股票分析报告,进行财务数据分析。
    • 内容创作:撰写文章,生成图像和多媒体内容。
    • 教育研究:进行学术研究,创建教学资源。
    • 任务自动化:自动填写表单,完成购物任务。
  • Onit – 开源的 Mac 桌面 AI 聊天助手

    Onit是什么

    Onit是为Mac设计的AI聊天助手,支持停靠在任何应用程序中。Onit支持高亮文本自动加载,用户只需选择文本,Onit能自动作为上下文打开,无需复制粘贴。Onit能将当前窗口内容作为上下文加载,方便用户快速获取AI的帮助。Onit支持多种AI模型,用户能自由切换。Onit为用户提供更高效、便捷的交互方式,极大地提升用户的工作效率和交互体验。

    Onit

    Onit的主要功能

    • 高亮文本自动加载:支持用户在任何应用程序中高亮选择文本,Onit自动将文本加载到聊天窗口中,无需手动复制粘贴。
    • 自动上下文提取:Onit能自动读取当前活动窗口的内容,作为上下文加载到聊天窗口中,方便用户快速获取AI的帮助。
    • 自由切换模型:支持用户自由切换不同的AI模型(如OpenAI、Anthropic、xAI等),根据需求选择最适合的模型。
    • 本地模式:Onit支持本地模式,所有处理都在本地完成,无需联网,确保数据安全和隐私保护。
    • 可定制快捷键:用户能自定义启动Onit聊天窗口的快捷键,默认快捷键是Command+0,本地模式快捷键是Command+Shift+0。
    • 文件上传:支持基于拖拽或从电脑上传文件,方便用户将文件内容作为上下文。
    • 代码块支持:方便用户编写、编辑和探索代码。

    Onit的技术原理

    • 本地与远程模式:Onit支持与Ollama等本地模型管理工具集成。用户能在本地运行AI模型,所有数据处理都在本地完成,无需联网。确保数据的隐私和安全。Onit支持连接到远程的AI模型提供商(如OpenAI、Anthropic等)。用户基于API直接与提供商的模型进行交互,获取更强大的AI能力。
    • 自动上下文提取:基于监听系统剪贴板或当前活动窗口的内容,自动提取高亮文本或窗口内容,作为上下文加载到聊天窗口中。基于系统级的钩子和API实现,确保用户无需手动输入上下文。
    • 多模型支持:Onit提供灵活的模型切换机制,用户基于简单的界面操作切换不同的AI模型。Onit内部集成多种模型的API接口,支持本地和远程模型的无缝切换。

    Onit的项目地址

    Onit的应用场景

    • 代码辅助:开发人员快速获取代码优化建议和错误排查帮助。
    • 内容创作:创作者获得写作建议和语言润色,提升内容质量。
    • 技术支持:技术人员快速解决用户反馈和系统错误。
    • 学习研究:学生和研究人员获取知识解释和分析,加深理解。
    • 日常办公:用户高效整理信息,减少手动操作,提升工作效率。
  • DishGen – AI食谱生成器,输入食材或饮食偏好生成定制食谱

    DishGen是什么

    DishGen是AI食谱生成器,根据用户输入的食材、食谱想法或饮食偏好,快速生成个性化的食谱和餐饮计划。DishGen基于智能算法,将剩余食材转化为美味菜肴,减少食物浪费并节省金钱。用户能随时修改食谱,保存和分享自己的创作。DishGen提供移动应用,方便随时随地使用。DishGen简化了烹饪过程,用个性化体验和健康饮食建议,推动烹饪和餐食规划的未来。

    DishGen

    DishGen的主要功能

    • AI生成食谱:根据用户输入的食材、食谱想法或饮食偏好,快速生成全新的定制化食谱。
    • 创意餐食规划:提供多达7种不同的餐食建议,为任何食材列表或要求生成详细食谱。
    • 无限生成和修改:用户每次搜索时从头开始创造新食谱,支持实时修改生成的食谱。
    • 移动应用支持:提供iOS和Android平台的移动应用,方便用户随时随地访问服务。

    DishGen的官网地址

    DishGen的应用场景

    • 家庭烹饪:根据现有食材生成食谱,减少浪费,节省开支。
    • 餐食规划:制定一周餐计划,满足健康或预算目标。
    • 特殊饮食:为素食、纯素、无麸质等饮食需求提供定制食谱。
    • 创意烹饪:激发灵感,生成新颖菜肴,探索不同菜系。
    • 商业用途:助力餐饮企业和博主设计菜单、创新菜品。
  • SelectYet – AI文献分析工具,能对海量文献进行结构化分析

    SelectYet是什么

    SelectYet是实用的AI文献分析工具,基于先进的AI技术和“记忆摘要”技术,为研究人员提供高效便捷的文献处理服务。用户只需输入研究主题、上传PDF文献,设置自定义分析选项,可快速启动分析。工具能对海量文献进行结构化分析,快速提取关键信息,形成文献综述,加速信息筛选和整理的过程。SelectYet接入了deepseek-R1/V3模型,未来将融合更多模型的优势,提升分析的准确性和效率。

    SelectYet

    SelectYet的主要功能

    • 文献结构化分析:能对海量文献进行结构化分析,快速提取关键信息,形成文献综述,帮助研究人员加速海量信息关键值提取、筛选工作。
    • 自定义分析选项:用户可以设置自定义分析选项,详细描述需求,SelectYet能适应任何个性化需求与工作场景。
    • 结果导出:分析完成后,SelectYet会提供结构化分析结果和概括性文献综述,支持Excel格式下载留存。

    SelectYet的官网地址

    SelectYet的应用场景

    • 高效学习:辅助关键概念提取、元分析、寻找文献间差异与共性,助力用户在短时间内成为专业领域的专家。
    • 数据编码:可进行初步的词频统计、打标签工作,帮助用户快速跑实证检测初步结论。
    • 行业研究:一键上传海量行业研报、企业年报,设置自定义分析维度,提升工作效率。
    • 批改代工:设置答卷打分规则一键批改,快速了解学生知识掌握情况。
    • 市场调研:进行百万评论情感分析,助力市场研究。
    • 政策分析:抽取关键词与政策要点,帮助用户快人一步引领时代风向。
  • Ming-lite-omni – 蚂蚁集团开源的统一多模态大模型

    Ming-lite-omni是什么

    Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多个模态基准测试中表现出色,在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出,能实现自然流畅的多模态交互,为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性,可广泛用在OCR识别、知识问答、视频分析等多个领域,具有广阔的应用前景。

    Ming-Lite-Omni

    Ming-lite-omni的主要功能

    • 多模态交互:支持文本、图像、音频、视频等多种输入输出,实现自然流畅的交互体验。
    • 理解与生成:具备强大的理解和生成能力,支持处理问答、文本生成、图像识别、视频分析等任务。
    • 高效处理:基于MoE架构,优化计算效率,支持大规模数据处理和实时交互。

    Ming-lite-omni的技术原理

    • Mixture of Experts (MoE) 架构:MoE是模型并行化技术,基于将模型分解为多个专家网络(Experts)和门控网络(Gating Network),每个专家网络处理一部分输入数据,门控网络决定每个输入数据由哪些专家处理。
    • 多模态感知与处理:为每种模态(文本、图像、音频、视频)设计特定的路由机制,确保模型能高效地处理不同模态的数据。在视频理解中,用KV-Cache动态压缩视觉token,支持长时间视频的理解,减少计算量。
    • 统一理解和生成:模型用编码器解码器架构,编码器负责理解输入数据,解码器负责生成输出数据。基于跨模态融合技术,将不同模态的数据进行有效融合,实现统一的理解和生成。
    • 优化与训练:模型基于大规模预训练学习通用的模态特征,基于微调适应特定任务。用分层语料预训练策略和需求驱动的执行优化体系,提高训练效率和模型性能。
    • 推理优化:基于混合线性注意力机制,降低计算复杂度和显存占用,突破长上下文推理效率瓶颈。基于优化推理过程,支持实时交互,适用需要快速响应的应用场景。

    Ming-lite-omni的项目地址

    Ming-lite-omni的应用场景

    • 智能客服与语音助手:支持语音交互,快速解答问题,适用智能客服和语音助手。
    • 内容创作与编辑:生成和编辑文本、图像、视频,辅助内容创作,提高创作效率。
    • 教育与学习:提供个性化学习建议,辅助教学,支持教育信息化。
    • 医疗健康:辅助病历分析、医学影像解读,支持AI健康管家,提升医疗服务。
    • 智能办公:处理文档、整理会议记录,提高办公效率,助力企业智能化管理。
  • 稿定AI社区 – AI创意设计平台,提供丰富的创意设计资源

    稿定AI社区是什么

    稿定AI社区是在线AI创意灵感平台,为用户提供丰富的创意设计资源和工具。平台涵盖多种设计领域,包括形象照、电商设计、节日主题、3D插画、头像设计、小红书素材、人像设计等,满足不同用户的需求。基于AI生图功能,用户上传图片,快速生成类似风格的创意图像,提升设计效率。平台界面简洁,分类清晰,适合设计师、电商运营者、社交媒体创作者及普通用户,是激发创意、提升设计能力的优质平台。

    gaoding.art

    稿定AI社区的主要功能

    • 灵感广场:展示多种创意设计作品,涵盖形象照、电商设计、节日主题、3D插画、头像设计等,用户按需浏览。
    • AI生图:上传图片后,基于AI技术生成类似风格的创意图像,支持风格转换。
    • 创意工具:提供设计模板和丰富素材,方便用户快速生成设计作品。
    • 社区互动:支持用户分享作品、评论和点赞,促进创意交流。
    • 个性化定制:用户创建个人主页,收藏作品和关注创作者。

    如何使用稿定AI社区

    • 访问官网:访问稿定AI社区官方网站。按提示完成注册和登录。
    • 寻找灵感
      • 灵感广场:在首页的灵感广场,浏览各种热门和推荐的创意作品。
      • 滚动播放的热门风格:页面自动滚动展示热门的创意风格和作品。
      • 分类选择:点击顶部的分类标签(如“形象照”“电商”“节日主题”等),找到感兴趣的类别。
    • 开始创作
      • 方式一:直接在首页的创作区域上传图片,输入描述或提示词。
      • 方式二:基于灵感广场分类,选择具体的灵感应用,进入相应的创作页面。
    • 输入提示词和上传图片:点击“上传图片”按钮,选择想要处理的图片。在输入框中输入简短的描述或提示词。
    • 点击生成:点击“生成”按钮,AI根据上传的图片和输入的提示词生成创意图像。
    • 保存作品:生成的图片会显示在页面上,点击“下载”按钮,将图片保存到本地。或点击“复制”按钮,将图片链接复制到剪贴板,方便分享。

    稿定AI社区的应用场景

    • 电商设计:制作品牌海报和促销主视觉,提升品牌形象和吸引力。
    • 社交媒体:生成小红书封面、微博配图等,增加内容互动。
    • 个人创意:设计个性化头像和形象照,展现独特风格。
    • 节日活动:为节日和活动设计海报,营造氛围。
    • 商业推广:快速生成广告和品牌设计,提升市场竞争力。