Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器

    HUGWBC是什么

    HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大学、上海AI Lab联合推出的人形机器人全身控制器,能实现精细的运动控制。HUGWBC基于扩展的命令空间和先进的训练技术,让机器人执行多种自然步态(如行走、跑步、跳跃、站立和单脚跳),支持实时外部上肢控制信号,实现复杂的运动操作任务。HUGWBC用强化学习在模拟环境中训练,用不对称训练框架(AAC)将策略直接迁移到真实机器人上。

    HUGWBC

    HUGWBC的主要功能

    • 支持多种步态:支持控制机器人执行行走、跑步、跳跃、站立和单脚跳等多种步态。
    • 精细调整参数:支持调整步态频率、脚摆高度、身体高度、腰部旋转和身体俯仰角等参数,适应不同的任务需求。
    • 实时外部干预:支持上肢的实时外部控制信号(如遥操作或运动重定向),让机器人在执行运动任务时进行复杂的操作。
    • 高鲁棒性和适应性:HUGWBC能适应不同的地形和外部干扰,保持运动的稳定性和精度。

    HUGWBC的技术原理

    • 扩展的命令空间:设计包含任务命令和行为命令的通用命令空间,灵活地控制机器人的运动和姿态。
    • 强化学习训练:基于强化学习(特别是PPO算法)在模拟环境中训练控制策略,定义奖励函数优化机器人的运动性能。
    • 不对称训练框架:采用不对称训练框架(AAC),批评网络访问所有特权信息,演员网络仅用真实机器人可用的传感器数据,提高策略的泛化能力。
    • 对称性损失:引入对称性损失函数,鼓励策略生成自然且对称的运动,提高运动的稳定性和效率。
    • 干预训练:在训练中引入外部干预信号,适应上肢的实时控制,且保持下肢运动的稳定性和精度。
    • 脚轨迹规划:用五次多项式轨迹规划方法,确保脚在摆动阶段的平滑运动,提高运动的自然性和稳定性。

    HUGWBC的项目地址

    HUGWBC的应用场景

    • 复杂地形导航:控制人形机器人在不平坦的地形上行走、跑步和跳跃,适应各种复杂的环境,如崎岖的山路、废墟或建筑工地等,执行搜索和救援任务。
    • 动态任务执行:支持机器人进行高动态任务,如快速奔跑、跳跃和单脚跳,在需要快速反应和高机动性的场景中发挥作用,例如体育赛事辅助或紧急响应任务。
    • 人机协作任务:基于实时外部上肢干预功能,让人形机器人与人类操作员协作完成复杂的任务,如搬运、装配或精细操作,提高工作效率和安全性。
    • 服务机器人应用:在家庭或服务场所中,让人形机器人执行日常任务,如清洁、搬运物品或协助老年人和残疾人,提供更加自然和灵活的服务。
    • 科学研究与开发:开发和测试新的运动控制算法、人机交互技术和机器人感知能力,推动人形机器人技术的进一步发展。
  • Webdone – AI网页开发平台,描述产品或需求自动生成落地页和网站

    Webdone是什么

    Webdone 是基于人工智能的在线平台,帮助用户快速创建和定制高质量的落地页和网站。通过强大的 AI 技术,让用户只需简单描述产品或需求,可在几分钟内生成专业的页面,无需任何编码或设计技能。平台支持拖拽式编辑器,用户可以轻松调整字体、颜色、布局等元素,实现高度定制化。 Webdone 提供完整的 Next.js 开发环境,支持 TypeScript 和 JavaScript,适合从初学者到专业开发者的各类用户。

    Webdone

    Webdone的主要功能

    • AI 驱动的页面创建:用户只需描述产品细节,AI 自动生成网页页面,无需编码或设计技能。支持快速创建和定制 Next.js 项目,包括支付、数据库和身份验证等功能。
    • 高度可定制化:提供拖拽式编辑器,用户可以轻松调整字体、背景颜色、图像等元素。支持 TypeScript 和 JavaScript,用户可以下载完整的源代码并进行进一步的自定义。
    • 性能优化:AI 优化页面布局、性能和内容,提升用户体验。提供 SEO 优化、无障碍性增强和搜索引擎排名提升等功能。
    • 快速搭建 Next.js 项目:提供完整的 Next.js 开发环境,包括预配置的支付(Stripe、LemonSqueezy)、数据库(Supabase、MongoDB)、邮件功能(Mailtrip、Resend)和身份验证(Google、GitHub)。支持 React、Tailwind CSS 等现代开发技术。

    Webdone的官网地址

    Webdone的应用场景

    • 初创企业:需要快速推出产品或服务的落地页,吸引用户和投资者。Webdone 可以在几分钟内生成专业的落地页,无需复杂的编码或设计技能。
    • 个人开发者:独立开发者需要快速搭建个人项目或原型,验证想法或展示技能。
    • 自由职业者:设计师需要快速交付高质量的网站或落地页,满足客户的需求。Webdone 可以帮助快速生成设计模板,进行灵活的定制。
    • 企业营销:快速推出营销页面,推广新产品或服务。Webdone 可以帮助企业快速生成专业的营销页面,进行优化。
    • 教育机构:快速搭建在线课程页面,吸引学生和推广课程。Webdone 可以帮助教育机构快速生成专业的课程页面。
  • YAYI-Ultra – 中科闻歌推出的混合专家模型

    YAYI-Ultra是什么

    YAYI-Ultra (雅意)是中科闻歌研发的企业级大语言模型的旗舰版本,具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领域的专家组合,能缓解垂直领域迁移中的“跷跷板”现象。YAYI-Ultra 支持最长128k的输入和更长的上下文窗口,具备1000万+图文数据对齐的多模态能力。支持多轮对话角色扮演、内容安全风控以及10+智能插件调用。

    YAYI 雅意

    YAYI-Ultra的主要功能

    • 多领域专业能力:YAYI-Ultra 是混合专家模型,支持数学、代码、金融、舆情、中医、安全等多种领域专家组合,缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象。
    • 多模态内容生成:支持图文并茂的输出,能根据用户的问题从知识库中提取相关信息,同步给出对应的图片内容。
    • 超长文输出:支持最长20万字输入和10万字超长输出,形成从“输入理解”到“内容创作”的全链路长文本能力闭环。
    • 数据分析与可视化:能准确完成数据分析、计算和图表绘制任务。
    • 复杂任务智能规划:YAYI-Ultra 增强了多工具串行调用场景下的规划合理性,能将复杂任务拆解为多个子任务,通过调用搜索引擎、代码解释器、图像解析等基础工具,以及新闻热榜追踪、传播影响力分析等垂直领域工具来完成任务。
    • 联网智能创作:支持联网收集信息完成创作,例如写一篇关于中国儒家文化发展历史的分析报告。

    YAYI-Ultra的技术原理

    • 混合专家架构:YAYI-Ultra 采用混合专家模型架构,支持多种领域专家组合,如数学、代码、金融、舆情、中医、安全等。能显著缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象,为不同领域提供高精度、低能耗的智能化解决方案。
    • 指令微调与数据驱动:YAYI-Ultra 的训练基于大规模的高质量多语言语料,结合指令微调技术,在不同领域和任务上表现出色。

    YAYI-Ultra的评测表现

    在OpenCompass大模型公开学术榜单中,YAYI-Ultra以64.5分首次闯入前十,成为TOP10中五个中国大模型之一。具体表现如下:

    • 代码生成:在LiveCodeBench中排名第五,表现优于GPT-4o-20241120版本。
    • 复杂指令理解:在IFEval中排名第九。
    • 知识推理能力:在MMLU-Pro中排名第九。

    YAYI-Ultra的项目地址

    YAYI-Ultra的应用场景

    • 媒体领域:帮助客户将内容创作时间缩短30%-50%,内容发布频率提升20%-40%,内容差错率从5%降至0.5%左右。
    • 医疗领域:基于YAYI的大医金匮中医大模型,可精准诊断500余种常见病症,辨证推理准确率高达90%,并面向C端用户推出了“大医金匮”中医健康管理APP。
    • 财税领域:基于YAYI的财税知识大模型,模型回答准确率90.1%,高于其他同类型模型,客户实现24小时不间断的咨询服务。
  • TurboTTS – 免费AI文本转语音工具,支持70多种语言和300多种真实语音

    TurboTTS是什么

    TurboTTS 是免费的在线文本转语音工具,支持70多种语言和300多种真实语音选择,能生成自然、逼真的语音效果,适用于短视频创作、在线教育、广告制作、播客等多种场景。用户只需输入文本并选择语言和语音类型,可快速生成语音文件,操作简单便捷。支持多种文件格式下载,生成的语音文件可用于商业用途。

    TurboTTS

    TurboTTS的主要功能

    • 多语言支持:支持多达70种语言,提供超过300种真实语音选择。
    • 高质量语音合成:基于先进的AI技术,生成自然、逼真的语音,适用于有声读物、广告、教育等多种场景。
    • 简单易用:界面友好,操作简单,即使是初学者也能快速上手。
    • 多种文件格式支持:生成的语音文件可以即时下载,支持多种格式,方便用于不同项目。
    • 商业用途授权:生成的语音文件可用于商业用途,需遵守网站的使用条款。

    TurboTTS的官网地址

    TurboTTS的应用场景

    • 短视频创作:为短视频快速生成旁白,提升叙事质量。
    • 在线教育:为课程生成清晰一致的旁白,提高学习的可访问性。
    • 营销与广告:为广告和促销视频制作定制旁白,增强信息传递效果。
    • 播客与音频内容创作:帮助创作者生成高质量的旁白,无需专业配音演员。
  • InspireMusic – 阿里通义实验室开源的音乐生成技术

    InspireMusic是什么

    InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,通过人工智能为用户生成高质量的音乐作品。基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的音乐。InspireMusic 的核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,能实现文本生成音乐、音乐续写等功能。

    InspireMusic

    InspireMusic的主要功能

    • 文本到音乐的生成:用户可以通过简单的文字描述生成符合需求的音乐作品。
    • 音乐结构和风格控制:支持通过音乐类型、情感表达和复杂的音乐结构标签来控制生成的音乐。
    • 高质量音频输出:支持多种采样率(如24kHz和48kHz),能够生成高音质的音频。
    • 长音频生成:支持生成超过5分钟的长音频。
    • 灵活的推理模式:提供fast模式(快速生成)和高音质模式,满足不同用户的需求。
    • 模型训练和调优工具:为研究者和开发者提供丰富的音乐生成模型训练和调优工具。

    InspireMusic的技术原理

    • 音频 Tokenizer:使用具有高压缩比的单码本 WavTokenizer,将输入的连续音频特征转换为离散的音频 token。将音频数据转化为模型可以处理的形式。
    • 自回归 Transformer 模型:基于 Qwen 模型初始化的自回归 Transformer 模型,用于根据文本提示预测音频 token。模型能理解文本描述并生成与之匹配的音乐序列。
    • 扩散模型(Conditional Flow Matching, CFM):用基于常微分方程的扩散模型重建音频的潜层特征。CFM 模型能从生成的音频 token 中恢复出高质量的音频特征,增强音乐的连贯性和自然度。
    • Vocoder:将重建后的音频特征转换为高质量的音频波形,输出最终的音乐作品。

    InspireMusic的项目地址

    InspireMusic的应用场景

    • 音乐创作用户可以通过简单的文字描述生成符合需求的音乐作品。
    • 音频生成与处理:支持多种采样率(如 24kHz 和 48kHz),能生成高音质的音频,适用于专业音乐制作。
    • 音乐爱好者:音乐爱好者可以通过简单的文字描述或音频提示轻松生成多样化的音乐作品,无需专业的音乐制作技能。
    • 个性化音乐体验:用户可以根据自己的喜好生成符合特定情感表达和音乐结构的音乐,提升音乐创作的自由度和灵活性。
  • Zonos – ZyphraAI 开源的多语言 TTS 模型

    Zonos是什么

    Zonos是Zyphra推出的高保真文本到语音(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zonos根据文本提示和说话人嵌入生成自然、高表达性的语音,支持语音克隆功能,可调节语速、音高、情感等参数,输出采样率为44kHz。模型基于约20万小时的多语言语音数据训练,主要支持英语,对其他语言的支持有限。Zonos提供优化的推理引擎,支持快速生成语音,适合实时应用。

    Zonos

    Zonos的主要功能

    • 零样本TTS与语音克隆:输入文本和10-30秒的说话者样本,能生成高质量的TTS输出。
    • 音频前缀输入:基于添加文本和音频前缀,更精确地匹配说话者的声音,和实现难以通过说话者嵌入复制的行为,如耳语。
    • 多语言支持:支持英语、日语、中文、法语和德语。
    • 音频质量和情感控制:支持精细控制语速、音高、最大频率、音频质量和各种情感。

    Zonos的技术原理

    • 文本预处理:基于eSpeak工具进行文本归一化和音素化,将输入文本转换为音素序列。
    • 特征预测:用Transformer或混合骨干网络(Hybrid Backbone)预测DAC(Discrete Audio Codec)标记。
    • 语音生成:基于预测的DAC标记,用自编码器(Autoencoder)解码生成高质量的语音输出。

    Zonos的项目地址

    Zonos的应用场景

    •  有声读物与在线教育:将文本内容转换为自然流畅的语音,为有声读物和在线课程提供高质量的语音旁白。
    • 虚拟助手与客服:在虚拟助手和客服系统中,生成自然的语音交互,提供更人性化的用户体验。
    • 多媒体内容创作:在视频制作、动画和广告中,生成高质量的旁白和配音。
    • 无障碍技术:为视障人士提供语音阅读服务,将网页、文档和书籍的内容转换为语音,帮助他们更好地获取信息。
    • 游戏与互动娱乐:在游戏和互动娱乐应用中,生成角色对话和旁白,增强游戏的沉浸感。
  • VideoCaptioner – AI视频字幕处理工具,支持字幕样式调整和多格式导出

    VideoCaptioner是什么

    VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。VideoCaptioner支持语音识别、字幕断句、校正、翻译及视频合成的全流程处理,无需GPU即可运行,操作简单高效。软件提供多种语音识别引擎,包括在线接口和本地Whisper模型,支持多平台视频下载与处理,能优化字幕的专业性和流畅性。VideoCaptioner支持字幕样式调整和多种格式导出,适合各类视频创作者和字幕工作者使用。

    VideoCaptioner

    VideoCaptioner的主要功能

    • 语音识别
      • 支持多种语音识别引擎,包括在线接口(如B接口、J接口)和本地Whisper模型(如WhisperCpp、fasterWhisper)。
      • 提供多种语言支持,支持离线运行,保护用户隐私。
      • 支持人声分离和背景噪音过滤,提升语音识别的准确率。
    • 字幕断句与优化
      • 基于大语言模型(LLM)进行智能断句,将逐字字幕重组为自然流畅的语句。
      • 自动优化专业术语、代码片段和数学公式格式,提升字幕的专业性。
      • 支持上下文断句优化,结合文稿或提示进一步提升字幕质量。
    • 字幕翻译
      • 结合上下文进行智能翻译,确保译文准确且符合语言习惯。
      • 采用“翻译-反思-翻译”方法论,通过迭代优化提升翻译质量。
      • 支持多种语言的翻译,满足不同用户需求。
    • 字幕样式调整
      • 提供多种字幕样式模板,如科普风、新闻风、番剧风等。
      • 支持多种字幕格式(如SRT、ASS、VTT、TXT),满足不同平台需求。
      • 支持自定义字幕位置、字体、颜色等样式设置。
    • 视频字幕合成
      • 支持批量视频字幕合成,提升处理效率。
      • 支持字幕最大长度设置和末尾标点,去除确保字幕美观。
      • 支持关闭视频合成,仅生成字幕文件。
    • 多平台视频下载与处理
      • 支持国内外主流视频平台(如B站、YouTube)的视频下载。
      • 支持自动提取视频原有字幕进行处理。
      • 支持导入Cookie信息,下载需要登录的视频资源。

    VideoCaptioner的项目地址

    VideoCaptioner的应用场景

    • 视频创作者:创作者快速为自己的视频生成字幕,提升视频的可访问性和专业性。
    • 教育内容制作者:教育视频的制作者快速生成准确的字幕,方便学生学习。
    • 自媒体运营者:自媒体人快速处理视频字幕,提高内容发布的效率,基于字幕翻译功能,将视频内容推广到更多语言的受众群体中,扩大影响力。
    • 字幕翻译团队:字幕翻译团队减少人工翻译的工作量,提高翻译效率和质量。
    • 视频编辑爱好者:对于喜欢制作和编辑视频的爱好者,轻松为自己的作品添加字幕,提升视频的观赏性。
  • Omniflow – AI产品开发平台,提供从创意到发布的全流程支持

    Omniflow是什么

    Omniflow 是专注于帮助用户将创意快速转化为产品的AI工具。通过 AI 技术简化产品开发流程,提供从创意到发布的全流程支持。Omniflow 的核心功能包括 IdeaFlow、DocFlow 和 DevFlow。IdeaFlow 可通过 AI 聊天提供创意反馈和协助,DocFlow 能自动生成产品需求文档、技术设计文档等,DevFlow 能自动创建任务、估算工作量并规划资源。Omniflow 支持与现有工具和工作流程的无缝集成,确保数据隐私和安全。

    Omniflow

    Omniflow的主要功能

    • 产品构思(IdeaFlow):Omniflow 的 IdeaFlow 模块能帮助用户快速梳理和验证创意。通过 AI 聊天功能,用户可以获取创意反馈和协助,生成产品需求文档(PRD)、技术设计文档和 UI/UX 线框图等。
    • 文档生成(DocFlow):DocFlow 模块支持自动生成多种文档,包括产品需求文档、工程设计文档、架构图和营销计划等。
    • 任务分解与调度(DevFlow):DevFlow 模块可以将产品需求自动转化为可执行的任务,估算工作量,将任务分配给团队成员,生成详细的开发计划。
    • 项目监控与风险规避(ProjectFlow):ProjectFlow 模块通过 AI 驱动的监控功能,实时跟踪项目进度,识别潜在风险,提供可行的见解,确保项目按计划进行并实现高质量交付。
    • 集成与协作:Omniflow 支持与现有工具(如 Jira、Confluence、Slack、GitHub 等)的无缝集成,方便团队快速上手并融入现有工作流程。提供定制化工作流,满足不同团队的多样化需求。

    Omniflow的官网地址

    Omniflow的应用场景

    • 产品开发:Omniflow 通过自动化和简化产品开发生命周期,帮助团队快速将创意转化为实际产品。产品经理可以用 Omniflow 自动生成详细的需求文档和 UI/UX 设计,工程师可以快速生成技术架构和技术设计文档。
    • 项目管理:Omniflow 提供端到端的项目管理功能,包括任务分解、资源计划、进度监控和风险预警。支持实时监控项目进度,提供 AI 驱动的洞察和风险预警,确保项目按时交付。
    • 团队协作:Omniflow 支持多种角色的协作,包括产品经理、工程师、设计师和利益相关者。提供定制化工作流,满足不同团队的需求。
    • 跨行业应用:Omniflow 适用于多种行业,包括制造业、医疗保健、政府项目等。例如,在制造业中,Omniflow 可以显著减少停机时间,提高生产效率;在医疗保健领域,可以帮助团队减少文书工作,专注于患者护理。
  • AnythingLLM – 开源的全栈 AI 客户端,支持本地部署和API集成

    AnythingLLM是什么

    AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等多种输入方式,将任何文档或内容转化为上下文,供各种语言模型(LLM)在对话中使用。AnythingLLM支持本地运行和远程部署,提供多用户管理、工作区隔离、丰富的文档格式支持以及强大的 API 集成。所有数据默认存储在本地,确保隐私安全。AnythingLLM支持多种流行的 LLM 和向量数据库,适合个人用户、开发者和企业使用。

    AnythingLLM

    AnythingLLM的主要功能

    • 多模态交互:支持文本、图像和音频等多种输入方式,提供更丰富的交互体验。
    • 文档处理与上下文管理:将文档划分为独立的“工作区”,支持多种格式(如PDF、TXT、DOCX等),保持上下文隔离,确保对话的清晰性。
    • 多用户支持与权限管理:Docker版本支持多用户实例,管理员能控制用户权限,适合团队协作。
    • AI代理与工具集成:支持在工作区内运行AI代理,执行网页浏览、代码运行等任务,扩展应用的功能。
    • 本地部署与隐私保护:默认情况下,所有数据(包括模型、文档和聊天记录)存储在本地,确保隐私和数据安全。
    • 强大的API支持:提供完整的开发者API,方便用户进行自定义开发和集成。
    • 云部署就绪:支持多种云平台(如AWS、GCP等),方便用户根据需求进行远程部署。

    AnythingLLM的项目地址

    AI工具集

    获取AnythingLLM安装包,扫码关注回复:AnythingLLM

    AnythingLLM的技术原理

    • 前端:用ViteJS和React构建,提供简洁易用的用户界面,支持拖拽上传文档等功能。
    • 后端:基于NodeJS和Express,负责处理用户交互、文档解析、向量数据库管理及与LLM的通信。
    • 文档处理:基于NodeJS服务器解析和处理上传的文档,将其转化为向量嵌入,存储在向量数据库中。
    • 向量数据库:用LanceDB等向量数据库,将文档内容转化为向量嵌入,便于在对话中快速检索相关上下文。
    • LLM集成:支持多种开源和商业LLM(如OpenAI、Hugging Face等),用户根据需求选择合适的模型。
    • AI代理:在工作区内运行AI代理,代理能执行各种任务(如网页浏览、代码执行等),扩展应用的功能。

    AnythingLLM支持的模型和数据库

    • 大型语言模型(LLMs):支持多种开源和闭源模型,如 OpenAI、Google Gemini Pro、Hugging Face 等。
    • 嵌入模型:支持 AnythingLLM 原生嵌入器、OpenAI 等。
    • 语音转文字和文字转语音:支持多种语音模型,包括 OpenAI 和 ElevenLabs。
    • 向量数据库:支持 LanceDB、Pinecone、Chroma 等。

    AnythingLLM的使用和部署

    • 桌面版
      • 系统要求
        • 操作系统:支持 Windows、MacOS 和 Linux。
        • 硬件要求:建议至少 8GB 内存,推荐 16GB 或更高。
      • 下载和安装:访问 AnythingLLM 官方网站。根据操作系统选择对应的安装包。
      • 安装程序
        • Windows:双击安装程序并按照提示完成安装。
        • MacOS:双击 DMG 文件,将应用程序拖入“应用程序”文件夹。
        • Linux:基于包管理器安装 DEB 或 RPM 文件。
      • 启动应用:安装完成后,打开 AnythingLLM 应用。
      • 初始化设置
        • 选择模型:首次启动时,选择一个语言模型(LLM)。
        • 配置向量数据库:选择默认的向量数据库(如 LanceDB)或配置其他支持的数据库。
      • 创建工作区:点击“新建工作区”,为项目或文档创建一个独立的工作区。上传文档(如 PDF、TXT、DOCX 等),应用自动解析并生成向量嵌入,存储在向量数据库中。
      • 开始对话
        • 在工作区内输入问题或指令,应用根据上传的文档内容生成智能回答。
        • 支持多模态交互,上传图片或音频文件,应用根据内容进行处理。
    • Docker 版
      • 系统要求:
        • 操作系统:支持 Linux、Windows(WSL2)和 MacOS。
        • 硬件要求:建议至少 8GB 内存,推荐 16GB 或更高。
        • Docker 环境:需要安装 Docker 和 Docker Compose。
      • 部署步骤
        • 访问 GitHub 仓库:前往 AnythingLLM GitHub 仓库
        • 克隆仓库
    git clone https://github.com/Mintplex-Labs/anything-llm.git
    cd anything-llm
      • 配置环境变量
        • 在项目根目录下运行以下命令,生成 .env 文件:
    yarn setup
        • 编辑 server/.env.development 文件,配置 LLM 和向量数据库的参数。
      • 启动 Docker 容器
    docker-compose up -d
      • 访问应用:打开浏览器,访问 http://localhost:3000,进入 AnythingLLM 的 Web 界面。
      • 使用方法
        • 创建工作区:与桌面版类似,创建工作区并上传文档。
        • 多用户管理:Docker 版支持多用户登录和权限管理,管理员在后台设置用户权限。
        • 嵌入式聊天小部件:Docker 版支持生成嵌入式聊天小部件,支持嵌入到网站中。
      • 高级功能
        • 自定义集成:基于 API 和插件扩展应用功能。
        • 云平台部署:支持在 AWS、GCP、Digital Ocean 等云平台上部署。

    AnythingLLM的应用场景

    • 企业内部知识管理与问答:企业将内部文档(如知识库、手册、项目文档等)上传到 AnythingLLM 的工作区中,员工用对话形式快速查询和获取相关信息,提高工作效率。
    • 学术研究与文献整理:研究人员将大量学术文献、论文等上传到工作区,快速提取关键信息、总结观点,辅助研究工作。
    • 个人学习与资料整理:学生或个人学习者将学习资料(如电子书、笔记等)导入,用对话形式复习和巩固知识,提升学习效率。
    • 内容创作:内容创作者获取创意灵感、润色文本或生成大纲,辅助创作过程。
    • 多语言文档翻译与理解:用户上传多语言文档,快速获取文档内容的翻译版本或关键信息,打破语言障碍。
  • Goku – 港大和字节联合推出的最新视频生成模型

    Goku是什么

    Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持文生视频、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本(比传统方法低100倍)。Goku基于大规模高质量的数据集和高效的训练设施。研究人员构建了包含约3600万视频和1.6亿图像的数据集,采用多模态大语言模型生成语境一致的框架。Goku采用了先进的并行策略和容错机制,确保训练过程的高效性和稳定性。

    Goku+是基于Goku模型推出的扩展版本,专注于广告视频创作,能快速生成高质量的广告视频,支持20秒以上的视频生成,具备稳定的手部动作和丰富的面部及身体表情。Goku+可将产品图片转化为吸引人的视频,支持虚拟数字人与产品互动,增强广告吸引力。适用于电商、品牌宣传、短视频广告和产品展示等多种场景,能显著降低广告制作成本,提升创作效率。

    Goku

    Goku的主要功能

    • 文本到图像(Text-to-Image):根据文本描述生成高质量图像,能生成细节丰富且与文本描述高度一致的图像。
    • 文本到视频(Text-to-Video):根据文本描述生成连贯的视频,生成的视频具有流畅的动作和高质量的画面。
    • 图像到视频(Image-to-Video):以图像为基础生成视频,保持图像的视觉风格和语义一致性,能从静态图像生成动态视频,适用于动画和视频内容创作。
    • 广告视频生成(Goku+):生成高质量的广告视频,支持人物与产品的自然互动。可以将广告视频的制作成本降低100倍,生成的视频具有稳定的手部动作和丰富的面部表情。
    • 虚拟数字人视频生成:生成虚拟数字人的视频,具有高度的逼真感和自然的动作,适用于虚拟主播、虚拟客服等场景。
    • 多模态生成:支持多种模态的生成任务,包括图像、视频和文本的联合生成。通过共享潜在空间和全注意力机制,Goku能无缝处理图像和视频的复杂时空依赖关系。

    Goku的技术原理

    • 图像-视频联合VAE:Goku采用3D联合图像-视频变分自编码器(VAE),将图像和视频输入压缩到共享的潜在空间。使模型能处理多种媒体格式,包括图像和视频,在统一框架内进行表示。
    • Transformer架构:Goku模型家族包含2B和8B参数的Transformer架构。架构基于全注意力机制,能有效处理图像和视频的复杂时空依赖关系,实现高质量、连贯的输出。
    • 校正流公式:基于Rectified Flow(RF)算法,Goku通过线性插值在先验分布和目标数据分布之间进行训练。相比传统的扩散模型,展现出更快的收敛速度和更强的理论性质。
    • 多阶段训练策略:Goku采用多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练,以及针对不同模态的微调。逐步提升模型的生成能力,确保在大规模数据集上的高效训练。
    • 大规模高质量数据集:研究人员构建了约3600万视频和1.6亿图像的大规模数据集,采用多种数据过滤和增强技术来提高数据质量。数据集为模型训练提供了丰富的素材。
    • 高效的训练基础设施:Goku的训练基础设施包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术。显著提升了训练效率和稳定性。

    Goku的项目地址

    Goku的应用场景

    • 广告视频制作:Goku+能根据文本描述生成高质量的广告视频,支持从文本直接生成视频、从产品图片生成人物互动视频,以及生成产品展示视频。
    • 虚拟数字人视频生成:Goku+可以将文本转换为超现实的人类视频,生成超过20秒的视频,具有稳定的手部动作和极具表现力的面部及身体动作。
    • 内容创作:Goku能生成包括动画、自然风光、动物行为等多种场景的视频。可以生成一位时尚女性在东京街头漫步的视频,或者数只巨型猛犸象在雪地上行走的场景。为艺术创作者提供了丰富的灵感和创作素材。
    • 教育与培训:Goku可以用于制作教育视频和培训课程,通过生成生动的视频内容,提高教育培训的效果和趣味性。
    • 娱乐产业:在电影、电视剧、动画等娱乐产业中,Goku可用于内容制作和特效生成。能生成高质量的视频内容,为创作者提供更多可能性。