Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • WebAgent – 阿里开源的自主搜索AI Agent

    WebAgent是什么

    WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,应用在学术研究、商业决策和日常生活。WebAgent能主动搜索多个学术数据库,筛选、分析最相关的文献,整合不同文献中的观点,为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略,实现高效的多步推理和信息检索能力。

    WebAgent

    WebAgent的主要功能

    • 自主信息检索:WebAgent能主动在网络环境中搜索信息,覆盖学术数据库、新闻网站、专业论坛等多种信息源,满足用户对不同领域知识的需求。
    • 多步推理与信息整合:支持识别文献中的关键信息,基于多步推理将不同来源的观点进行整合,最终为用户提供一份全面且精准的研究报告。
    • 复杂任务处理:WebAgent能处理复杂的多步问题,支持从简单事实性问题到复杂推理问题的逐步解决。
    • 适应性强:适应多种信息检索任务的格式和环境要求。

    WebAgent的技术原理

    • 数据构建:基于CRAWLQA和E2HQA两种创新方法构建高质量训练数据。CRAWLQA爬取网页信息构建复杂的QA对,模拟人类浏览网页行为。E2HQA基于迭代增强方式,将简单QA对转化为复杂的多步问题。
    • 轨迹采样:基于ReAct框架,用拒绝采样技术生成高质量轨迹。短推理与长推理分别基于大模型直接生成简洁推理路径和逐步构建复杂推理过程。基于有效性检查、正确性验证和质量评估确保轨迹质量。
    • 短推理与长推理:用高质量轨迹数据对智能体进行初始化训练,优化模型参数。
    • 强化学习(RL):基于DAPO算法,用动态采样机制提高数据效率和策略鲁棒性。

    WebAgent的项目地址

    WebAgent的应用场景

    • 学术研究:快速检索和分析学术文献,提供精准的研究报告,助力研究人员高效获取最新成果。
    • 商业决策:整合市场动态和行业趋势,辅助企业决策者制定战略,支持新产品开发和市场分析。
    • 新闻媒体:协助记者快速收集新闻素材,提供多角度解读,提升新闻报道的准确性和时效性。
    • 教育领域:为学生和教师提供学习资源和教学辅助,支持个性化学习和课程设计。
    • 个人生活:解答日常生活中的各种疑问,提供旅游规划、健康咨询等服务,提升生活便利性。
  • SearchAgent-X – 南开等机构推出的高效推理框架

    SearchAgent-X是什么

    SearchAgent-X 是南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员推出的高效推理框架,能提升基于大型语言模型(LLM)的搜索Agent的效率。基于高召回率的近似检索和两项关键技术,优先级感知调度与无停顿检索,显著提高系统吞吐量(1.3至3.4倍),降低延迟(降至原来的1/1.7至1/5),且不牺牲生成质量。框架解决检索精度和延迟两大效率瓶颈,优化资源利用率,为复杂AI Agent的实际部署提供重要参考。

    SearchAgent-X

    SearchAgent-X的主要功能

    • 显著提升吞吐量:SearchAgent-X能实现 1.3至3.4倍 的吞吐量提升,显著提高系统的处理能力。
    • 大幅降低延迟:将延迟降低至原来的 1/1.7至1/5,确保快速响应。
    • 保持生成质量:在提升效率的同时,不牺牲生成答案的质量,确保系统的实用性和可靠性。
    • 动态交互优化:高效地处理复杂的多步推理任务,支持灵活的检索和推理交互。

    SearchAgent-X的技术原理

    • 优先级感知调度(Priority-Aware Scheduling):根据请求的实时状态(如已完成的检索次数、当前序列的上下文长度和请求的等待时间)动态排序并发请求。基于优先处理高价值的计算任务,减少无谓的等待和重复计算,显著提高KV-cache的利用率。
    • 无停顿检索(Non-Stall Retrieval):监测检索结果的成熟度和LLM引擎的就绪状态,自适应地提前终止检索任务。避免检索任务不必要的等待,确保生成过程能及时进行,显著降低端到端的延迟。
    • 高召回率的近似检索:用高召回率的近似检索方法,避免过高或过低检索精度对系统效率的负面影响。基于合理的检索范围设置,确保检索过程高效支持高质量的推理。

    SearchAgent-X的项目地址

    SearchAgent-X的应用场景

    • 智能客服:快速准确回答客户问题,提升响应速度和客户满意度。
    • 搜索引擎:提供精准搜索结果和动态内容生成,优化用户体验。
    • 企业知识管理:高效检索内部知识库,支持复杂问题的多步推理。
    • 智能问答:处理复杂多跳问题,实现与用户的实时交互。
    • 研发支持:快速检索文献和优化实验设计,加速研究进程。
  • MagicTryOn – 浙大联合vivo等机构推出的视频虚拟试穿框架

    MagicTryOn是什么

    MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频虚拟试穿框架。框架替换传统的U-Net架构为更具表现力的扩散Transformer(DiT),结合全自注意力机制,实现视频的时空一致性建模。框架用粗到细的服装保持策略,基于在嵌入阶段整合服装标记以及在去噪阶段引入语义、纹理和轮廓线等多条件,有效保留服装细节。MagicTryOn在图像和视频试穿数据集上均展现出超越现有最先进方法的性能,在评估指标、视觉质量和在野外场景的泛化能力上都表现出色。

    MagicTryOn

    MagicTryOn的主要功能

    • 服装细节保留:精确模拟服装的纹理、图案和轮廓,在人物运动时保持真实感和稳定性。
    • 时空一致性建模:确保视频中各帧之间的连贯性,避免服装闪烁和抖动,提供流畅的试穿体验。
    • 多条件引导:基于文本、图像特征、服装标记和轮廓线标记等多种条件,生成更真实、更细致的试穿效果。

    MagicTryOn的技术原理

    • 扩散Transformer(DiT)架构:DiT的模块化设计允许更灵活地注入条件信息,让多级服装特征能有效地整合到去噪过程中。DiT内置的全自注意力机制能联合建模视频的时空一致性,捕捉帧内局部细节和帧间动态变化。
    • 粗到细的服装保持策略
      • 粗策略:在嵌入阶段,将服装标记(garment tokens)注入输入标记序列,扩展旋转位置编码(RoPE)的网格大小,让服装标记和输入标记能共享一致的位置编码。
      • 细策略:在去噪阶段,引入语义引导交叉注意力(SGCA)和特征引导交叉注意力(FGCA)模块,提供细粒度的服装细节引导。SGCA用文本标记和CLIP图像标记作为输入,提供服装的全局语义表示;FGCA结合服装标记和轮廓线标记,进一步注入详细的局部信息。
    • 掩码感知损失(Mask-Aware Loss):基于引入掩码感知损失,模型能更专注于服装区域的生成,提高服装区域的细节保真度和整体合成结果的真实感。
    • 时空一致性建模:基于全自注意力机制联合建模视频的时空一致性,避免传统方法中空间和时间信息分别建模的局限性。

    MagicTryOn的项目地址

    MagicTryOn的应用场景

    • 在线购物:用户在线试穿不同服装,提升购物体验。
    • 时尚设计:设计师快速预览服装效果,加速设计流程。
    • 虚拟试衣间:为实体店提供虚拟试衣服务,减少实体试衣间的使用。
    • 广告与营销:品牌制作个性化试穿广告,吸引消费者。
    • 游戏与娱乐:在游戏中实时试穿虚拟服装,增强沉浸感。
  • Chatterbox – Resemble AI开源的文本转语音模型

    Chatterbox是什么

    Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型。模型基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练,性能直逼甚至超越部分闭源系统。Chatterbox支持零样本语音克隆,仅需5秒参考音频生成高度逼真的个性化语音。Chatterbox独特的情感夸张控制功能,能调节情绪、语速和语调,为内容创作提供灵活性。Chatterbox具备超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用交互式应用。

    Chatterbox

    Chatterbox的主要功能

    • 零样本语音克隆:仅需5秒的参考音频生成高度逼真的个性化语音,无需复杂的训练过程。
    • 情感夸张控制:用户能控制语音的情绪、语速和语调,让语音更具表现力。
    • 超低延迟实时合成:延迟低至200毫秒以下,适用交互式应用,如虚拟助手和实时配音。
    • 安全水印技术:每段生成的音频都嵌入Resemble AI的Perth神经水印,防止滥用。

    Chatterbox的技术原理

    • 基于LLaMA架构:Chatterbox用0.5B参数规模的LLaMA架构,一种高效的Transformer架构,能处理复杂的语言模型任务。
    • 大规模数据训练:模型用超过50万小时的精选音频数据进行训练,数据经过清洗和筛选,确保高质量的语音合成效果。
    • 情感夸张控制机制:基于特定的神经网络层和参数调整,Chatterbox能实现情感、语速和语调的动态控制,让语音更具表现力。
    • 对齐感知推理:在语音合成过程中,用对齐感知技术,确保文本与语音之间的精确对应,提高合成的稳定性和一致性。

    Chatterbox的项目地址

    Chatterbox的应用场景

    • 内容创作:生成高质量语音,用于视频旁白、音频创作等。
    • 游戏开发:提供实时语音交互,增强游戏沉浸感。
    • AI助手:作为语音引擎,提升智能助手的交互体验。
    • 教育工具:实现个性化语音教学,辅助语言学习。
    • 多语言内容:快速生成多语言语音,满足全球化需求。
  • Paper2Poster – 滑铁卢、新加坡国立和牛津大学推出的学术海报生成框架

    Paper2Poster是什么

    Paper2Poster是加拿大滑铁卢大学、新加坡国立大学等机构推出的创新学术框架,基于多模态自动化技术从科学论文生成海报。Paper2Poster推出PosterAgent,一个自顶向下的多智能体系统,支持将长篇论文内容压缩转化为结构化的视觉海报。系统基于解析器(Parser)、规划器(Planner)和绘图-评论循环(Painter–Commenter)实现高效生成。Paper2Poster引入PaperQuiz评估方法,模拟读者回答问题衡量海报传达核心内容的能力。Paper2Poster在视觉质量、文本连贯性上表现出色,能显著提高生成效率,为学术海报制作提供高效、低成本的解决方案。

    Paper2Poster

    Paper2Poster的主要功能

    • 长文本压缩:将多页的科学论文压缩为单页海报,保留论文的核心内容。
    • 多模态内容处理:提取论文中的文字、图表、图像等多模态内容,合理地整合到海报中。
    • 布局优化:生成美观且逻辑清晰的海报布局,确保内容在有限的空间内合理分布。
    • 视觉质量提升:基于视觉反馈机制优化海报的视觉效果,提高海报的可读性和吸引力。
    • 评估与优化:基于PaperQuiz评估海报传达核心内容的能力,根据反馈进行优化。

    Paper2Poster的技术原理

    • Parser(解析器):用工具(如MARKER和DOCLING)将PDF转换为Markdown格式,基于LLM生成结构化的JSON格式的资产库。
    • Planner(规划器):将解析器生成的资产库中的文本和视觉元素对齐,生成二叉树布局。基于二叉树布局策略,根据内容长度估计每个面板的大小,保持阅读顺序和空间平衡。用LLM进行语义匹配,将每个视觉元素与最相关的文本部分对齐。
    • Painter–Commenter(绘图器–评论器):生成每个面板的具体内容,基于视觉反馈机制优化面板布局。绘图器将文本和图像对齐并生成可执行的代码,用python-pptx库渲染面板。评论器是一个VLM,基于缩放参考提示(zoom-in reference prompts)提供反馈,确保面板内容没有溢出且布局合理。

    Paper2Poster的项目地址

    Paper2Poster的应用场景

    • 学术会议:帮助研究人员快速将论文转化为海报,用在会议展示,节省时间和精力。
    • 学术报告:生成的海报作为学术报告的辅助材料,帮助观众更好地理解研究内容。
    • 科研成果展示:在科研机构或实验室中,展示最新的研究成果,便于同行交流和学习。
    • 教育领域:教师生成教学用的海报,帮助学生更直观地理解复杂的学术概念。
    • 在线学术平台:为在线学术平台提供自动化的海报生成工具,提升用户体验,促进学术交流。
  • 可灵2.1 – 快手推出的升级版AI视频生成模型

    可灵2.1是什么

    可灵2.1是快手推出的AI视频生成模型,模型现已上线可灵AI视频平台。平台更新包含可灵2.1和可灵2.1大师版两大基础模型。模型在速度、效果和价格上都有显著提升,性价比更高。可灵2.1分为标准版、高品质版和大师版,分别对应不同的创作需求。标准版720P,生成速度快,适合快速制作;高品质版1080P,效果出色,价格亲民;大师版提供影视级效果,适用专业制作。可灵2.1的推出,让AI视频生成更加普及,普通用户能轻松制作高质量视频。

    可灵2.1

    可灵2.1的主要功能

    • 视频生成:支持图生视频(标准版和高品质版)及文生视频(大师版)。
    • 多版本选择:标准版(720P,速度快)、高品质版(1080P,效果好)、大师版(1080P,影视级效果)。
    • 高效生成:标准版和高品质版生成速度快,适合快速出片。

    如何使用可灵2.1

    • 注册与登录:访问可灵AI官方网站,按提示完成注册和登录。
    • 选择版本:根据需求选择标准版、高品质版或大师版。
    • 上传素材或输入文字
      • 图生视频:上传图片作为生成视频的基础素材。
      • 文生视频(仅限大师版):输入文字描述,AI将根据文字生成视频。
    • 设置参数:根据需要设置视频的分辨率、时长、特效等参数。
    • 生成视频:点击生成按钮,AI将自动处理生成视频。
    • 下载与使用:生成完成后,下载视频。将视频用在社交媒体、广告、短剧等场景。

    可灵2.1的产品定价

    • 标准版:一条视频20灵感值。
    • 高品质版:一条视频35灵感值。
    • 大师版:一条视频100灵感值。
    • 灵感值价格:100灵感值¥10,500灵感值 ¥50,1000灵感值 ¥100,2200灵感值 ¥200,5800灵感值¥500,12000灵感值¥1000。

    可灵2.1的应用场景

    • 短视频:快速生成适合抖音、快手等平台的视频。
    • 营销广告:制作产品推广、品牌宣传的高质量广告。
    • AI短剧:创作精彩的AI短剧内容。
    • 专业影视:大师版助力影视级制作和商业交付。
    • 教育培训:制作生动形象的教育视频。
  • OmniConsistency – 新加坡国立大学推出的图像风格迁移模型

    OmniConsistency是什么

    OmniConsistency 是新加坡国立大学推出的图像风格迁移模型,能解决复杂场景下风格化图像的一致性问题。模型基于大规模配对的风格化数据进行训练,用两阶段训练策略,将风格学习与一致性学习解耦,在多种风格下保持图像的语义、结构和细节一致性。模型支持与任意风格的 LoRA 模块无缝集成,实现高效且灵活的风格化效果。OmniConsistency 在实验中展现出与 GPT-4o 相当的性能,且提供更高的灵活性和泛化能力。

    OmniConsistency

    OmniConsistency的主要功能

    • 风格一致性:在多种风格下保持图像的风格一致性,避免风格退化。
    • 内容一致性:在风格化过程中保留原始图像的语义和细节,确保内容的完整性。
    • 风格无关性:与任意风格的 LoRA(Low-Rank Adaptation)模块无缝集成,支持多种风格的风格化任务。
    • 灵活性:支持灵活的布局控制,无需依赖传统的几何约束(如边缘图、草图、姿态图)。

    OmniConsistency的技术原理

    • 两阶段训练策略:第一阶段(风格学习)独立训练多个风格特定的 LoRA 模块,每个模块专注于捕捉特定风格的独特细节。第二阶段(一致性学习)在配对数据上训练一致性模块,动态切换不同的风格 LoRA 模块,确保一致性模块专注于结构和语义的一致性,避免吸收特定风格的特征。
    • 一致性 LoRA 模块:在条件分支中引入低秩适应(LoRA)模块,仅对条件分支进行调整,避免干扰主网络的风格化能力。用因果注意力机制,确保条件令牌在内部交互,主分支(噪声和文本令牌)保持干净的因果建模。
    • 条件令牌映射(CTM):低分辨率条件图像引导高分辨率生成,基于映射机制确保空间对齐,减少内存和计算开销。
    • 特征重用:在扩散过程中,缓存条件令牌的中间特征,避免重复计算,提高推理效率。
    • 数据驱动的一致性学习:构建高质量的配对数据集,包含 22 种不同风格的 2,600 对图像,基于数据驱动的方式学习语义和结构的一致性映射。

    OmniConsistency的项目地址

    OmniConsistency的应用场景

    • 艺术创作:将各种艺术风格(如动漫、油画、素描等)应用于图像,帮助艺术家快速生成风格化的作品。
    • 内容生成:在内容创作中,快速生成符合特定风格的图像,提升内容的多样性和吸引力。
    • 广告设计:为广告和营销材料生成风格一致的图像,提升视觉效果和品牌一致性。
    • 游戏开发:快速生成游戏中的风格化角色和场景,提高开发效率。
    • 虚拟现实(VR)和增强现实(AR):生成风格化的虚拟环境和元素,增强用户体验。
  • CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

    CoGenAV是什么

    CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率。

    CoGenAV的主要功能

    • 音频视觉语音识别(AVSR):CoGenAV能结合音频和视觉信息(如说话者的嘴部动作)来提高语音识别的准确率。
    • 视觉语音识别(VSR):仅使用视觉信息(如说话者的嘴部动作)进行语音识别,不依赖音频信号。
    • 噪声环境下的语音处理:在高噪声环境下,CoGenAV通过视觉信息辅助音频信号,提高语音处理的鲁棒性。
    • 语音重建与增:CoGenAV可以用于语音重建和增强任务,通过多模态信息融合改善语音质量。
    • 主动说话人检测(ASD):通过分析音频和视觉信号,检测当前正在说话的人。

    CoGenAV的技术原理

    • 特征提取:在特征提取阶段,CoGenAV采用ResNet3D CNN分析视频中说话人的唇部动作,捕捉声音与口型之间的动态关联。使用Transformer编码器从音频中提取语音信息,将音视频特征精确对齐。
    • 对比同步:采用Seq2Seq Contrastive Learning方法,增强音频与视频特征之间的对应关系,引入ReLU激活函数过滤干扰帧,提升模型在复杂环境下的稳定性。
    • 生成同步:借助预训练的ASR模型(如Whisper)将音视频特征与其声学-文本表示对齐,设计轻量级适配模块(Delta Upsampler + GatedFFN MHA),有效提升跨模态融合效率。

    CoGenAV的项目地址

    CoGenAV的应用场景

    • 智能助手与机器人:CoGenAV的多模态表征可以集成到智能助手和机器人中,在复杂环境中更好地理解和响应语音指令。
    • 视频内容分析:CoGenAV可以用于视频内容的分析和理解,通过分析视频中的音频和视觉信息,提供更准确的字幕生成、内容推荐等功能。
    • 工业应用:在工业环境中,CoGenAV可以用于语音控制设备、语音监控等场景,通过多模态信息融合提高系统的鲁棒性和可靠性。
    • 医疗健康:CoGenAV可以用于医疗设备中的语音交互,如智能医疗助手、语音控制的医疗设备等,提升医疗设备的易用性和交互性。
  • DeepSeek-R1-0528 – DeepSeek开源的最新版R1模型

    DeepSeek-R1-0528是什么

    DeepSeek-R1-0528 是 DeepSeek 团队推出的最新版AI模型。模型基于 DeepSeek-V3-0324 训练,参数量达 660B。模型在 HuggingFace 上开源,开发者能自由使用和修改。DeepSeek-R1-0528核心亮点包括深度推理能力、优化的文本生成、独特的推理风格及长达 30-60 分钟的单任务处理能力。模型在编程任务上表现出色,特别是在复杂任务处理和代码生成方面,超越 Claude 4 Sonnet Gemini 2.5 Pro 等顶流大模型。用户基于官方网站、APP 或小程序进入对话界面后,开启“深度思考”功能体验最新版本。API 已同步更新,调用方式保持不变。

    DeepSeek-R1-0528

    DeepSeek-R1-0528的主要功能

    • 深度推理:支持进行复杂的逻辑推理和多步骤思考,解决复杂问题。
    • 编程能力:生成高质量代码,支持多种编程任务,如模拟物理现象、前端设计等。
    • 文本生成:生成自然流畅的文本,格式规范,适用写作任务。
    • 长时间思考:单任务处理时间可达30-60分钟,适合复杂任务。
    • 工具调用:支持工具调用,扩展模型功能。
    • 角色扮演:支持多角色对话,适用于互动场景。

    DeepSeek-R1-0528的技术原理

    • 模型架构与训练基础:基于DeepSeek-V3-0324模型训练而来,参数量达到660B。在基础架构上继承V3版本的特性,在此基础上进行进一步优化。
    • 文本生成优化:在文本生成方面进行了优化,生成的文本更加自然、格式更好。基于对语言模型的微调,包括改进词汇选择、句子结构生成及上下文理解等方面。

    DeepSeek-R1-0528的性能表现

    • 编程能力:在 LiveCodeBench 基准测试中,性能几乎与 OpenAI 的 o3-high 相当,甚至超越 Claude 4 Sonnet 和 Gemini 2.5 Pro 等顶流大模型。
    • 数学推理:在 AIME 2025 测试中,准确率从旧版的 70% 提升至 87.5%。在 AIME 2024 测试中,DeepSeek-R1-0528-Qwen3-8B 的表现仅次于 DeepSeek-R1-0528,超越 Qwen3-8B(+10.0%),与 Qwen3-235B 相当。
    • 工具调用:在 Tau-Bench 测评中,表现与 OpenAI o1-high 相当,但与 o3-High 和 Claude 4 Sonnet 仍有差距。

    DeepSeek-R1-0528

    DeepSeek-R1-0528的项目地址

    DeepSeek-R1-0528的应用场景

    • 自然语言处理:生成新闻、故事、文案等,支持多语言翻译,构建智能问答系统。
    • 编程辅助:生成高质量代码,支持多种编程语言,优化现有代码,提高效率和可读性,为开发者提供调试建议。
    • 教育支持:为学生提供个性化学习建议和辅导,帮助用户更好地理解和掌握知识。
    • 企业办公:自动生成会议纪要、报告、邮件等文档,提高办公效率;生成市场调研报告,分析市场趋势和消费者行为,为企业决策提供支持。
  • AI-Media2Doc – 开源AI图文创作助手,一键将音视频内容转为文档

    AI-Media2Doc是什么

    AI-Media2Doc 是开源的音视频转文档工具,基于AI大模型技术,支持将音视频内容智能转换为小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等多种文档形式。工具支持纯前端处理,无需本地安装ffmpeg,任务记录保存在本地,保障用户数据安全。AI-Media2Doc适合内容创作者、学生、研究人员等群体,帮助高效提取和整理信息。

    AI-Media2Doc

    AI-Media2Doc的主要功能

    • 音视频转文档:一键将音视频内容转换为多种文档风格,包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等。
    • AI智能处理:基于大模型技术,实现内容总结与多风格文档生成,支持基于视频内容进行AI问答和二次对话。
    • 纯前端处理:基于ffmpeg wasm技术,无需本地安装ffmpeg,支持浏览器直接处理。
    • 隐私保护:无需登录注册,任务记录保存在本地,保障用户数据安全。
    • 本地部署:支持本地运行,基于Docker一键部署,方便用户在本地环境中使用。
    • 多种导出格式:生成的文档和思维导图能导出至第三方平台,进一步编辑和分享。

    如何使用AI-Media2Doc

    • 本地部署
      • 克隆项目代码:打开终端或命令行工具,运行以下命令克隆项目代码。
    git clone https://github.com/hanshuaikang/AI-Media2Doc.git
    cd AI-Media2Doc
      • 安装Python依赖(后端):安装项目所需的Python依赖。
    pip install -r backend/requirements.txt
      • 配置环境变量:在backend目录下创建一个.env文件,填写API密钥。
    OPENAI_API_KEY=your_openai_api_key
    GROK_API_KEY=your_grok_api_key
    DEEPSEEK_API_KEY=your_deepseek_api_key
      • 启动FastAPI服务:启动后端服务。
    uvicorn backend.main:app --reload
      • 安装前端依赖并启动服务:安装前端依赖并启动前端服务。
    cd frontend
    npm install
    npm run serve
      • 访问本地服务器:打开浏览器,访问http://localhost:8080,即可开始使用。
    • 使用方法
      • 新建任务:在页面上新建一个任务,上传音视频文件或输入外链地址。
      • 选择输出风格:选择希望生成的文档风格,如小红书、公众号、知识笔记、思维导图等。
      • 生成图文:点击“生成”按钮,系统将自动处理音视频内容生成相应的文档。
      • 二次对话:在右侧界面输入问题(如“视频的主旨是什么?”),AI将基于内容回答。
      • 导出结果:生成的文档和思维导图可以导出到第三方平台,如幕布、ProcessOn等,方便进一步编辑和使用。

    AI-Media2Doc的项目地址

    AI-Media2Doc的应用场景

    • 学生学习:提取网课笔记和思维导图,方便复习。
    • 教师备课:将视频转为教案,快速整理课程内容。
    • 自媒体创作:拆解视频,生成图文、剧本或脚本,提供创作灵感。
    • 知识管理:视频转结构化笔记,便于管理和回顾。
    • 内容创作:视频转公众号或小红书文案,提升创作效率。