Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • BlenderMCP – 基于 MCP 集成的 3D 建模工具

    BlenderMCP是什么

    BlenderMCP是将Blender与Claude AI基于模型上下文协议(MCP)集成的工具。BlenderMCP用socket服务器实现Blender与AI的双向通信,支持创建、修改和删除3D对象,控制材质和颜色,获取场景信息,及在Blender中运行Python代码等功能。用户基于Claude的自然语言指令,快速完成复杂的3D建模和场景操作,大大提升创作效率。工具由Blender插件和Python服务器组成,安装后基于简单的配置实现无缝连接。

    BlenderMCP

    BlenderMCP的主要功能

    • 对象操作:支持创建、修改和删除3D对象,包括基本几何体和复杂模型。
    • 材质与颜色控制:应用和修改材质,调整对象的颜色和纹理。
    • 场景信息获取:获取当前Blender场景的详细信息,包括对象列表、属性等。
    • 代码执行:支持在Blender中运行任意Python代码,实现更高级的操作。
    • 场景创建与调整:根据自然语言指令,快速生成或调整3D场景,例如创建特定风格的场景或调整灯光和相机位置。

    BlenderMCP的技术原理

    • Blender插件(addon.py):一个运行在Blender内部的插件,负责创建socket服务器。接收来自外部的命令,在Blender中执行命令,例如创建对象、修改材质等。插件负责将Blender的场景信息或操作结果反馈给外部服务器。
    • MCP服务器(server.py):一个独立的Python服务器,实现模型上下文协议(MCP)。与Blender插件基于TCP sockets进行通信,接收用户基于Claude AI发出的指令,转换为Blender能理解的命令。服务器处理Blender返回的结果,将其反馈给Claude AI。
    • 通信协议:基于JSON的协议进行通信。命令用JSON对象的形式发送,包含type和可选的params。响应也是JSON对象,包含status和result或message,反馈操作结果或错误信息。

    BlenderMCP的项目地址

    BlenderMCP的应用场景

    • 快速建模:根据自然语言指令快速创建3D模型和场景。
    • 材质与颜色调整:基于语言指令修改模型的材质和颜色效果。
    • 场景优化:调整灯光、相机位置和布局,优化场景效果。
    • 动画与动态效果:生成或调整动画,实现动态场景设计。
    • 教育与辅助创作:降低3D建模的学习难度,辅助初学者和教育场景。
  • Kimina-Prover – 月之暗面联合 Numina 推出的数学定理证明模型

    Kimina-Prover是什么

    Kimina-Prover是月之暗面与Numina团队合作推出的大型数学定理证明模型,模型采用大规模强化学习训练,能以类似人类的方式进行推理,在Lean 4语言中严谨地证明数学定理。通过独特的“形式化推理模式”,在推理过程中穿插非形式化推理和Lean 4代码片段,模拟人类解决问题的策略。 Kimina-Prover在miniF2F基准测试中取得了80.7%的成绩,超过此前最佳水平10.6%,创下新高。性能随着模型规模增大和计算资源增加而显著提升,展现出高样本效率和良好的可扩展性。模型的1.5B和7B参数版本已开源。

    Kimina-Prover

    Kimina-Prover的主要功能

    • 基于强化学习:Kimina-Prover 是首个通过大规模强化学习训练的大型形式化推理模型,能以类似人类的方式进行推理,在 Lean 4 语言中严谨地证明数学定理。
    • 高效推理模式:模型采用了一种称为“形式化推理模式”的结构化推理模式,通过在推理过程中穿插非形式化推理和相关的 Lean 4 代码片段,使模型能更好地模拟人类解决问题的策略。
    • 样本效率高:在采样次数较少的情况下,Kimina-Prover 能取得较好的结果,随着计算资源的增加,性能会显著提升。
    • 模型规模与性能正相关:与以往的神经定理证明器不同,Kimina-Prover 的性能随着模型规模的增大而显著提高。

    Kimina-Prover的技术原理

    • 自动形式化:为了构建一个多样化的问题集,研究人员训练了一个模型,将自然语言问题陈述自动翻译成 Lean 4 代码,并以占位符证明结束。
    • 强化学习训练:在监督微调(SFT)阶段之后,模型通过强化学习进一步增强其形式化定理证明能力。在每次迭代中,模型会从问题集中采样一批问题,并生成多个候选解决方案,然后使用 Lean 编译器验证这些解决方案的正确性。

    Kimina-Prover的性能表现

    • 基准测试成绩:在 miniF2F 基准测试中,Kimina-Prover 取得了 80.7% 的成绩,超过了此前的最佳水平(SOTA)模型 10.6%,创下新高。
    • 与通用大模型对比:在 miniF2F 基准测试及其子集(如 IMO 和 AIME)中,Kimina-Prover 显著优于 OpenAI 的 o3 和 Gemini 2.5 Pro 等通用推理模型。

    Kimina-Prover的项目地址

    Kimina-Prover的应用场景

    • 科研辅助:Kimina-Prover 在数学研究领域具有巨大的应用潜力。能帮助数学家和研究人员快速验证复杂的数学定理,提供严谨的证明过程。
    • 软件测试:在软件开发过程中,Kimina-Prover 可以用于验证软件的逻辑正确性。通过将软件的算法和逻辑转换为数学定理的形式,模型可以验证这些定理的正确性,确保软件的可靠性和稳定性。
    • 算法验证:在人工智能和机器学习领域,Kimina-Prover 可以用于验证算法的正确性和可靠性,确保在理论上是正确的。
    • 风险评估:在金融领域,Kimina-Prover 可以用于验证风险评估模型的数学基础,确保这些模型的准确性和可靠性。
    • 工程设计验证:在工程设计中,Kimina-Prover 可以用于验证设计的数学模型和公式。在建筑结构设计、机械设计等领域,模型可以验证设计的稳定性和安全性。
  • Pollinations.AI – 开源AI内容生成平台,提供免费文本和图像生成API

    Pollinations.AI是什么

    Pollinations.AI 是开源的AI内容生成平台,提供免费且易于使用的文本和图像生成 API。Pollinations.AI无需注册或 API 密钥即可使用,支持多种功能,包括图像生成、文本生成、文生音频、音频转文字及视觉内容解析。Pollinations.AI 提供丰富的 API 接口和 SDK,方便开发者快速集成。Pollinations.AI推出基于浏览器的开发环境 Pollinations.DIY,进一步降低开发门槛,适合开发者、创作者和 AI 爱好者使用。

    Pollinations.AI

    Pollinations.AI的主要功能

    • 图像生成:基于文本描述生成高质量图像,支持多种模型(如 Flux 和 Turbo)及自定义参数(如尺寸、随机种子等)。
    • 文本生成:根据用户输入的提示词生成自然语言文本,支持多种文本生成模型。
    • 文生音频:将文本转换为音频文件,支持多种语音类型。
    • 音频转文字:将音频文件转换为文本内容。
    • 视觉内容解析:分析图像内容,支持基于图像 URL 或 Base64 编码数据进行解析。
    • OpenAI 兼容接口:支持 OpenAI 格式的调用,方便开发者无缝迁移和集成。
    • 实时动态:提供实时的图像和文本生成动态,展示社区的最新创作。

    如何使用Pollinations.AI

    • 图像生成
      • Web 端:访问Pollinations.AI的官方网站。在首页输入文本描述,选择模型(如 Turbo 或 Flux),点击生成。
      • API 调用:使用 URL 格式,GET https://image.pollinations.ai/prompt/{prompt}
    • 文本生成
      • Web 端:访问文本生成页面。输入提示词,选择模型(如 Mistral 或 OpenAI),点击生成。
      • API 调用:使用 URL 格式,GET https://text.pollinations.ai/{prompt}
    • 文生音频:API 调用使用 URL 格式,GET https://text.pollinations.ai/{prompt}?model=openai-audio&voice={voice}
    • 使用 Python 示例代码
      • 图像生成
    import requests
    
    def generate_image(prompt, width=768, height=768, model='flux', seed=None):
        url = f"https://image.pollinations.ai/prompt/{prompt}?width={width}&height={height}&model={model}&seed={seed}"
        response = requests.get(url)
        if response.status_code == 200:
            with open('generated_image.jpg', 'wb') as file:
                file.write(response.content)
            print('Image downloaded!')
        else:
            print('Error:', response.status_code)
    
    generate_image("A beautiful sunset over the ocean", width=1280, height=720, model='turbo', seed=42)
      • 文本生成
    import requests
    
    def generate_text(prompt, model='mistral'):
        url = f"https://text.pollinations.ai/{prompt}?model={model}"
        response = requests.get(url)
        if response.status_code == 200:
            print(response.text)
        else:
            print('Error:', response.status_code)
    
    generate_text("What is artificial intelligence?", model='mistral')
      • 文生音频
    import requests
    
    def generate_audio(prompt, voice='nova'):
        url = f"https://text.pollinations.ai/{prompt}?model=openai-audio&voice={voice}"
        response = requests.get(url)
        if response.status_code == 200:
            with open('generated_audio.mp3', 'wb') as file:
                file.write(response.content)
            print('Audio downloaded!')
        else:
            print('Error:', response.status_code)
    
    generate_audio("Welcome to Pollinations!", voice='nova')

    Pollinations.AI的官网地址

    Pollinations.AI的应用场景

    • 创意设计:快速生成图像和文案,激发灵感,提升创作效率。
    • 教育资源:生成教学材料,丰富内容,提升学习兴趣。
    • 娱乐互动:开发互动故事和游戏,增强用户参与感。
    • 开发集成:集成API到应用中,实现自动化内容生成。
    • 内容解析:分析图像和音频,提取信息,提高工作效率。
  • Magnitude – 开源 AI Agent 驱动的端到端测试框架

    Magnitude是什么

    Magnitude 是开源的视觉 AI Agents驱动的端到端测试框架。Magnitude基于自然语言构建测试用例,用强大的推理代理规划和调整测试流程,基于快速的视觉代理执行测试。Magnitude 支持本地运行和 CI/CD 流水线集成,提供托管服务,包括托管的浏览器基础设施和 LLM 基础设施,简化测试管理。Magnitude帮助开发者高效地测试 Web 应用,确保应用质量。

    Magnitude

    Magnitude的主要功能

    • 自然语言测试编写:基于自然语言描述测试步骤和检查点,降低测试门槛。
    • 智能推理与视觉执行:推理代理动态调整测试策略,视觉代理可靠执行测试。
    • 灵活运行选项:支持本地运行、CI/CD集成和托管服务,满足多种测试需求。
    • 托管与自托管:提供托管服务简化管理,支持自托管满足隐私和定制需求。
    • 测试管理与可视化:控制台管理测试用例,查看测试结果和历史记录。

    Magnitude的技术原理

    • 视觉AI代理:计算机视觉技术识别和理解Web界面元素。基于视觉模型,Magnitude能够“看到”界面的变化,如按钮位置的改变、文本内容的更新等。视觉代理将界面元素与测试用例中的描述进行匹配,确保测试的准确性。
    • 推理与规划模型:自然语言处理(NLP)技术解析测试用例中的自然语言描述,转化为可执行的测试步骤。推理代理根据应用界面的动态变化,实时调整测试计划,确保测试适应界面的更新。
    • 数据驱动的测试执行:测试用例中的数据(如用户名、密码等)灵活配置,支持敏感数据的安全存储和使用。测试执行过程中,视觉代理和推理代理协同工作,确保测试步骤的准确执行。
    • 托管与自托管的灵活性:托管服务基于云平台提供浏览器和LLM基础设施,用户无需自行搭建环境。自托管模式支持开发者用自己的基础设施,基于API与Magnitude的核心代理进行交互,满足对数据隐私和定制化的需求。

    Magnitude的项目地址

    Magnitude的应用场景

    • Web 应用端到端测试:验证完整用户流程,适应界面变化。
    • CI/CD 自动化测试:集成到开发流程,确保代码提交后的稳定性。
    • 生产环境监控:实时监控应用状态,及时发现问题。
    • 界面变更适应性测试:快速调整测试用例,应对界面更新。
    • 团队协作与管理:基于控制台管理测试,方便团队协作。
  • GLM-4-32B – 智谱开源的新一代基座模型

    GLM-4-32B是什么

    GLM-4-32B是智谱公司开源的新一代基座模型,参数版本为GLM-4-32B-0414。GLM-4-32B经过15T高质量数据预训练,强化代码生成、推理和工程任务能力,支持HTML、CSS、JS、SVG等语言的实时代码展示与运行。模型性能比肩更大参数量的主流模型,如GPT-4oDeepSeek-V3-0324(671B)等模型,同时遵循MIT License,完全开源且不限制商用,支持用户基于Z.ai平台免费体验模型强大的功能。

    GLM-4-32B

    GLM-4-32B的主要功能

    • 强大的语言生成能力:支持生成自然流畅的文本,支持多种语言风格和场景,如对话、写作、翻译等。
    • 代码生成与优化:支持HTML、CSS、JavaScript和SVG等语言的代码生成,支持在对话中实时展示代码运行结果,方便用户进行修改和调整。
    • 推理与逻辑任务:在数学、逻辑推理等任务中表现出色,支持处理复杂的推理问题。
    • 多模态支持:支持生成和解析多种格式的内容,如HTML页面、SVG图形等,满足多样化的应用场景。

    GLM-4-32B的技术原理

    • 大规模预训练:模型基于320亿参数,经过15T高质量数据的预训练,数据包括文本、代码、推理类数据等,为模型提供广泛的知识基础。
    • 强化学习优化:在预训练的基础上,基于强化学习技术进一步优化模型的性能,特别是在指令遵循、代码生成和推理任务上进行深度优化。
    • 拒绝采样与对齐:基于拒绝采样技术去除低质量的生成结果,结合人类偏好对齐,让模型的输出符合人类的语言习惯和逻辑思维。
    • 高效推理框架:针对推理速度和效率进行优化,基于量化、投机采样等技术,降低显存压力,提高推理速度,实现每秒200 tokens的极速响应。
    • 多任务学习:模型在训练过程中同时学习多种任务,包括语言生成、代码生成、推理等,具备广泛的通用能力和适应性。

    GLM-4-32B的项目地址

    GLM-4-32B的应用场景

    • 智能编程:生成和优化代码,支持多种编程语言,辅助开发者快速完成编程任务。
    • 内容创作:生成文本、网页、SVG图形等多模态内容,助力创意写作和设计。
    • 智能办公:自动生成报告、脚本,实现任务自动化,提高工作效率。
    • 教育学习:提供编程示例、知识解答,辅助教学和学习。
    • 企业应用:用在智能客服、数据分析,支持企业决策和服务优化。
  • GLM-Z1-32B – 智谱开源的新一代推理模型

    GLM-Z1-32B是什么

    GLM-Z1-32B是智谱公司开源的新一代推理模型,具体参数版本为GLM-Z1-32B-0414 。GLM-Z1-32B基于 GLM-4-32B-0414 基座模型开发,基于深度优化训练,在数学、代码和逻辑等任务上表现出色,部分性能可媲美参数量高达 6710 亿的 DeepSeek-R1。模型基于冷启动和扩展强化学习策略,推理速度最高可达 200 tokens/s,支持轻量化部署,适合复杂任务推理,遵循 MIT 许可协议,完全开源且不限制商用。模型支持用户在Z.ai平台免费使用,支持基于Artifacts功能生成可上下滑动浏览的可视化页面。

    GLM-Z1-32B

    GLM-Z1-32B的主要功能

    • 数学问题解决:支持处理复杂的数学问题,包括代数、几何、微积分等领域的推理和计算。
    • 逻辑推理:模型具备强大的逻辑推理能力,支持处理复杂的逻辑问题,例如在逻辑谜题、逻辑证明等任务中表现出色。
    • 代码生成与理解:支持代码生成和代码理解任务,根据需求生成高质量的代码片段,或对现有代码进行分析和优化。

    GLM-Z1-32B的技术原理

    • 冷启动策略:在训练初期,模型基于冷启动策略快速适应任务需求。冷启动涉及从预训练模型开始微调,或用特定任务的数据进行初步训练。
    • 扩展强化学习策略:基于扩展强化学习策略,模型在训练过程中不断优化性能。强化学习基于奖励机制引导模型学习最优的行为策略。
    • 对战排序反馈:引入基于对战排序反馈的通用强化学习,模型基于与其他模型或自身不同版本的对战,学习如何在复杂的任务中做出更好的决策。
    • 任务特定优化:针对数学、代码和逻辑等任务,模型进行深度优化训练。基于在特定任务上的大量数据训练,模型更好地理解和解决相关问题。

    GLM-Z1-32B的项目地址

    GLM-Z1-32B的应用场景

    • 数学与逻辑推理:解答数学问题和逻辑谜题,辅助教育和科研。
    • 代码生成与优化:快速生成代码片段,优化现有代码,提升开发效率。
    • 自然语言处理:实现问答、文本生成、情感分析等任务,适用智能客服和内容创作。
    • 教育资源辅助:提供智能辅导,生成练习题和测试题,助力教学。
  • 交交 – 上海交大推出的口语对话情感大模型

    交交是什么

    交交是上海交通大学听觉认知与计算声学实验室推出的全球首个纯学术界自研的口语对话情感大模型。交交具备多人对话、多语言交流、方言理解、角色扮演、情感互动及知识问答等强大功能,支持汉语、英语、日语、法语等多种语言,能精准识别中文方言。交交基于创新技术,实现端到端语音对话、多语言理解、多人互动及实时音色克隆。交交展现强大的语音交互能力,为智能语音助手领域带来新的突破。

    交交

    交交的主要功能

    • 多人对话:同时与多位用户进行自然流畅的对话,精准识别每个人的身份和发言内容,给出个性化的回应。
    • 多语言交流:支持汉语、英语、日语和法语四大主流语言,具备跨语言回复能力。
    • 角色扮演与情感互动:根据对话内容和场景理解用户情绪,生成富有情感的回应。
    • 知识问答:涵盖广泛的知识领域,如古诗词背诵、科学原理讲解、文学名著解读等。
    • 实时音色克隆:提供高保真声音模仿技术,支持多角色语音扮演风格及与用户自身声音之间的实时无感切换。

    交交的技术原理

    • 端到端语音对话:基于鲁棒的音频编码器,将音频输入流式编码器得到离散序列,对齐到文本序列空间,无需大规模高质量数据微调,即可保持和利用文本大模型的基础泛化能力,实现实时知识问答。
    • 多语言理解与生成:基于创新的跨模态对齐机制,将多语言语音信号与对应文本在特征空间实现精准映射,用隐式表征学习保留语言特异性信息,结合深度语言模型的上下文建模能力,实现跨语言场景下的无缝切换与高效语义理解。
    • 多人对话建模:构造多人对话数据,模拟真实场景,增强模型的对话处理能力。用端到端模型融合上下文信息,生成个性化的响应和总结,实现自然且连贯的多方互动。
    • 情感理解与表达:基于上下文信息,用思维链技术生成符合对话场景的情感全局表征,用在生动的情感语音回复生成,提升对话交流的真实感。
    • 实时音色克隆与切换:提供高保真声音模仿技术,基于思维链技术进行控制信号推理,支持多角色语音扮演风格及与用户自身声音之间的实时无感切换。
    • 灵活拓展:强大的对齐策略,支持文本与音频模态的任意方式拼接融合,为集成大规模文本大模型中的多种增强机制(如联网搜索、RAG检索增强生成等)提供统一且可扩展的接口。

    交交的项目地址

    交交的应用场景

    • 教育辅导:为学生提供个性化学习指导,解答问题,辅助教师教学。
    • 家庭互动:在家庭聚会中娱乐助兴,日常陪伴家人聊天解闷。
    • 商务沟通:协助会议记录与总结,支持跨语言商务交流。
    • 客服支持:快速响应客户咨询,提供专业解答,提升服务效率。
    • 娱乐陪伴:参与角色扮演,提供情感支持,增加生活趣味。
  • Seaweed-7B – 字节推出的视频生成模型

    Seaweed-7B是什么

    Seaweed-7B 是字节跳动团队推出的视频生成模型,拥有约 70 亿参数。Seaweed-7B具备强大的视频生成能力。模型支持从文本描述、图像或音频生成高质量的视频内容,支持多种分辨率和时长,广泛应用于视频创作、动画生成、实时交互等场景。Seaweed-7B设计注重成本效益,基于优化训练策略和架构,让中等规模模型在性能上与大型模型相媲美,降低计算成本。

    Seaweed-7B

    Seaweed-7B的主要功能

    • 文本到视频:根据文本描述生成与之匹配的视频内容,支持复杂的动作和场景。
    • 图像到视频:用图像作为第一帧,生成与之风格一致的视频,或指定第一帧和最后一帧生成过渡视频。
    • 音频驱动视频生成:根据音频输入生成匹配的视频内容,确保口型和动作与音频同步。
    • 长镜头生成:支持生成长达 20 秒的单镜头视频,或基于扩展技术生成长达一分钟的视频。
    • 连贯的故事叙述:生成多镜头长视频,维持场景和镜头之间的连贯性。
    • 实时生成:支持在 1280×720 分辨率和 24fps 下实时生成视频。
    • 高分辨率和超分辨率:支持生成高达 1280×720 分辨率的视频,基于进一步上采样到 2K QHD 分辨率。
    • 相机控制和世界探索:支持用定义的轨迹进行精确的相机控制,提供互动式世界探索功能。
    • 物理一致性增强:基于计算机生成的合成视频进行后训练,增强视频生成的物理一致性和 3D 效果。

    Seaweed-7B的技术原理

    • 变分自编码器(VAE):将视频数据压缩到低维潜在空间,从潜在空间重建原始视频。基于因果 3D 卷积架构,支持图像和视频的统一编码,避免边界闪烁问题。基于混合分辨率训练(如 256×256、512×512 等)提高高分辨率视频的重建质量。
    • 扩散变换器(DiT):在 VAE 的潜在空间中生成视频内容,逐步去噪生成高质量视频。用混合流结构,结合全注意力和窗口注意力机制,提高训练效率和生成质量。用多模态旋转位置编码(MM-RoPE)增强文本和视频之间的位置信息融合。
    • 多阶段训练策略:从低分辨率图像开始逐步过渡到高分辨率视频,优化 GPU 资源分配。包括预训练阶段(仅图像、图像+视频)和后训练阶段(监督微调、人类反馈强化学习)。
    • 优化技术:多级激活检查点(MLAC)减少 GPU 内存占用和计算开销。融合 CUDA 内核优化 I/O 操作,提高训练和推理效率。扩散蒸馏技术减少生成所需的函数评估次数(NFE),加速推理过程。
    • 数据处理:用高质量视频数据,基于时间分割、空间裁剪、质量过滤等方法进行数据清洗。用合成视频数据增强训练数据的多样性和物理一致性。生成详细的视频字幕增强模型的文本理解能力。

    Seaweed-7B的项目地址

    Seaweed-7B的应用场景

    • 内容创作:根据文本或图像生成高质量视频,适用于广告、电影、短视频等,支持多种风格和场景。
    • 实时交互:支持实时视频生成,用在虚拟现实(VR)和增强现实(AR),提供沉浸式体验。
    • 多媒体娱乐:根据音频生成匹配视频,适用音乐视频和有声读物。
    • 教育与培训:生成教育视频和模拟训练场景,用在科学实验、历史重现、军事训练等。
    • 广告与营销:生成个性化广告和品牌宣传视频,提高吸引力和转化率。
  • MedReason – 美国加州联合南洋理工等机构推出的医学推理框架

    MedReason是什么

    MedReason是美国加州大学圣克鲁斯分校、加拿大不列颠哥伦比亚大学、新加坡南洋理工大学等机构推出的医学推理框架,基于知识图谱提升大型语言模型(LLMs)在医学领域的推理能力。其中最佳模型MedReason-8B达到最先进的性能。MedReason将临床问答对转换为逻辑推理链(“思考路径”),确保每一步推理都有可靠的医学知识支撑。MedReason数据集包含32,682个问答对,每个都配有详细的逐步解释。实验表明,用MedReason进行监督微调的模型在多个医学基准测试中表现显著提升,特别是在复杂临床场景中。专家评估证实了推理的准确性和连贯性,为医学AI的实际应用提供重要支持。

    MedReason

    MedReason的主要功能

    • 生成高质量医学推理数据:将临床问答对转换为逻辑推理链(“思考路径”),确保每一步推理都有可靠的医学知识支撑。
    • 提升模型性能:基于监督微调(SFT),显著提升LLMs在医学问答和推理任务中的表现,特别是在复杂临床场景中。
    • 确保医学准确性:基于专家验证和质量过滤机制,确保生成的推理路径在医学上准确且连贯。
    • 支持多种医学任务:适用于多种医学问答和推理任务,包括诊断、治疗计划和医学知识验证。

    MedReason的技术原理

    • 医学实体提取与映射:基于大型语言模型(LLM)从问题和答案中提取医学实体。将实体映射到知识图谱中的节点,用精确匹配、相似度匹配或基于LLM的选择完成。
    • 路径搜索与修剪:在知识图谱中搜索连接问题和答案实体的最短路径,确保推理路径的简洁性和逻辑性。用LLM修剪与当前问题无关的路径,保留最相关的推理路径。
    • 链式推理(CoT)生成:基于筛选后的推理路径作为结构支架,指导LLM生成基于医学事实的链式推理(CoT)解释。每一步推理都与知识图谱中的医学知识保持一致,确保推理的准确性和可解释性。
    • 质量过滤:实施验证步骤,让LLM仅使用生成的CoT回答问题,与原始答案比对。系统性地剔除无法产生正确答案的CoT样本,确保数据的高质量。
    • 监督微调(SFT):用生成的高质量CoT数据对LLMs进行监督微调,提升模型在医学推理任务中的表现。

    MedReason的项目地址

    MedReason的应用场景

    • 医学问答系统:开发智能医学问答系统,帮助医生、医学生和患者快速获取准确的医学信息。
    • 辅助诊断工具: 在临床实践中,作为辅助诊断工具,帮助医生分析患者的症状和病史,生成可能的诊断建议。
    • 医学教育与培训: 用在医学教育和培训,帮助医学生和医学从业者用实际案例学习复杂的医学推理过程。
    • 医学研究与知识发现: MedReason用在医学研究,帮助研究人员探索新的医学知识和治疗方法。
  • 可灵2.0 – 快手推出的新一代AI视频生成模型

    可灵2.0是什么

    可灵2.0是快手推出的新一代 AI 视频生成模型,现已上线可灵AI视频平台。平台更新包含可灵2.0(大师版)和可图2.0两大基础模型。可图2.0大幅提升图片生成质量,增强叙事感和电影感,支持风格转换、局部重绘等功能。可灵2.0支持根据用户上传的图片和文字描述生成高质量的视频内容。可灵2.0在运镜、动作稳定性、物理交互和语义理解等方面实现显著提升,生成的视频具有极高的真实感和沉浸感。可灵2.0为视频创作带来更高的自由度和效率,有望在影视制作、广告创意等领域发挥重要作用,让用户快速实现创。

    可灵2.0

    可灵2.0的主要功能

    • 复杂动态生成:文生视频和图生视频的复杂动态生成能力大幅提升,支持生成逼真的复杂场景和多人交互视频。
    • 动作流畅性:动作更加自然流畅,支持快速环绕镜头和复杂的动作序列,如持械格斗、换弹等。
    • 提示词理解:提升对复杂提示词的理解能力,按照用户输入的详细指令生成视频。
    • 多模态编辑:支持对视频进行灵活的编辑,包括替换、增加、删除视频中的任何物品或背景。
    • AI音效生成:根据影像内容和文字提示,生成适配的音效片段,进一步完善视频的整体效果。

    可灵2.0相比可灵1.6的提升

    • 语义响应能力
      • 更精准的描述理解:更精准地理解复杂的创意描述,支持时序更复杂的镜头。
      • 支持更复杂的镜头语言:更好地理解和生成复杂的镜头语言,如镜头的推拉摇移、景深变化等。
    • 动态质量
      • 更流畅的动作表现:角色/主体的动作幅度更大,速度更流畅,复杂动作更加细腻、自然、合理。
      • 更高的动作稳定性:在多人或复杂场景中,动作的稳定性显著提升。
    • 画面美感
      • 更逼真的角色表现:角色的动作和表情更加逼真。
      • 更高的画面细节:画面细节更加丰富,支持影视级别的画面描述,具有大片质感。
    • 多模态编辑能力:新增多模态编辑功能,支持基于视频+文字/图片进行多种灵活修改和再创作。

    如何使用可灵2.0

    • 注册与登录:访问可灵AI的官方网站。按提示完成注册和登录。
    • 选择功能模块:选择视频生成(可灵2.0大师版)。
    • 上传图片:选择一张图片作为视频生成的基础。
    • 输入Prompt(提示词):在输入框中详细描述想要生成的视频内容。
    • 调整参数:根据需要调整视频的时长、分辨率、帧率等参数。
    • 生成视频:点击“生成”按钮,等待系统生成视频。
    • 多模态编辑:上传视频,选择一段1-5秒的视频作为基础视频。
    • 选择编辑操作
      • 替换元素:指定视频中需要替换的内容区域,上传一张参考图,系统将参考图的内容替换到视频中。
      • 删除元素:指定视频中需要删除的内容区域,系统自动移除该区域的内容。
      • 增加元素:上传一张参考图或输入文字描述,系统在视频中增加相应的内容。
      • 生成视频:点击“应用”完成编辑。

    可灵2.0的应用场景

    • 影视制作:快速生成创意视频和特效预览,节省时间和成本。
    • 广告营销:制作吸引人的产品宣传视频,提升品牌影响力。
    • 教育培训:生成教育视频,增强学习趣味性。
    • 游戏开发:制作游戏动画和虚拟角色动作。
    • 个人创作:创作音乐视频、短片等,分享创意。