Skip to main content

Author: Chimy

NoteLLM – 小红书推出的笔记推荐多模态大模型框架

NoteLLM是什么

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入,基于端到端微调策略,结合视觉编码器和 LLM,解决视觉信息被忽视的问题。NoteLLM-2 提出多模态上下文学习(mICL)和晚期融合(late fusion)两种机制,进一步增强多模态表示能力,显著提升多模态推荐任务的性能。框架在小红书平台上展示强大的推荐能力,已应用在实际推荐系统中。

NoteLLM

NoteLLM的主要功能

  • 自动生成标签类别:为笔记生成标签和类别,增强笔记嵌入的质量。
  • 提升用户体验:基于更精准的推荐,提高用户在平台上的参与度和满意度。
  • 多模态笔记推荐:结合文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
  • 解决视觉信息忽视问题:基于多模态上下文学习(mICL)和晚期融合(late fusion)机制,增强视觉信息的表示能力。

NoteLLM的技术原理

  • Note Compression Prompt:设计特定的提示模板,将笔记内容压缩为一个特殊标记,同时生成标签和类别。
  • 对比学习(Contrastive Learning):基于用户行为数据中的共现机制构建相关笔记对,对比学习训练模型,增强笔记嵌入的语义表示。
  • 指令微调(Instruction Tuning):基于指令微调,让 LLM 更好地理解任务需求,生成高质量的标签和类别。
  • 多模态上下文学习(mICL):将多模态内容分离为视觉和文本两部分,分别压缩为两个模态压缩词,基于对比学习平衡模态间的注意力。
  • 晚期融合(Late Fusion):在 LLM 的输出阶段直接融合视觉信息,保留更多原始视觉信息,避免早期融合导致的视觉信息丢失。
  • 端到端微调:结合任意现有的 LLM 和视觉编码器,基于端到端微调,定制高效的多模态表示模型,无需预训练对齐。

NoteLLM的项目地址

NoteLLM的应用场景

  • 个性化笔记推荐:根据用户兴趣和行为,从海量笔记中精准推荐相关内容,提升用户发现体验。
  • 冷启动笔记推荐:帮助新发布的笔记快速获得曝光,基于内容相似性进行推荐。
  • 标签和类别生成:自动生成与笔记内容相关的标签和类别,提升内容的可检索性,帮助用户更快找到感兴趣的内容。
  • 多模态内容推荐:处理文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
  • 内容创作辅助:为创作者提供创作灵感和建议,如关键词、标签和相关笔记推荐,辅助内容创作。

D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

D-DiT是什么

D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩散(流匹配)和离散文本扩散(掩码扩散),基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务,支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构,联合扩散目标训练,展现出与自回归模型相媲美的多模态理解和生成能力,为视觉语言模型的发展提供新的方向。

D-DiT

D-DiT的主要功能

  • 文本到图像生成:根据输入的文本描述生成高质量的图像。
  • 图像到文本生成:根据输入的图像生成描述性文本,如图像描述、标题或视觉问答的答案。
  • 视觉问答:结合图像和问题文本,生成准确的答案。
  • 多模态理解:支持多种视觉语言任务,如图像描述、视觉指令理解和长文本生成。
  • 双向生成能力:同时支持从文本到图像和从图像到文本的生成任务,具有高度的灵活性。

D-DiT的技术原理

  • 双分支扩散模型:D-DiT结合连续图像扩散(Continuous Image Diffusion)和离散文本扩散(Discrete Text Diffusion)。连续图像扩散用流匹配(Flow Matching)技术,用逆向扩散过程生成图像。离散文本扩散用掩码扩散(Masked Diffusion)技术,逐步去噪生成文本。
  • 多模态Transformer架构
    • 图像分支:处理图像数据,输出图像的扩散目标。
    • 文本分支:处理文本数据,输出文本的扩散目标。
  • 联合训练目标:基于一个联合扩散目标同时训练图像和文本模态,图像扩散损失基于流匹配损失,优化图像生成的逆向扩散过程。文本扩散损失基于掩码扩散损失,优化文本生成的逆向扩散过程。基于联合训练,模型能学习图像和文本之间的联合分布。
  • 双向注意力机制:D-DiT用双向注意力机制,支持模型在图像和文本之间灵活切换,支持无序处理输入模态。让模型在生成过程中充分利用图像和文本的信息,提升多模态任务的性能。

D-DiT的项目地址

D-DiT的应用场景

  • 文本到图像生成:根据文本描述生成高质量图像,适用创意设计、游戏开发、广告制作和教育领域。
  • 图像到文本生成:为图像生成描述性文本,辅助视障人士、内容推荐、智能相册等。
  • 视觉问答:结合图像和问题生成准确答案,用在智能助手、教育工具和客服支持。
  • 多模态对话系统:在对话中结合图像生成详细回答,适用智能客服、虚拟助手和教育辅导。
  • 图像编辑与增强:根据文本描述修复、转换或增强图像,用在图像修复、风格转换和图像增强。

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok是什么

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

UniTok

UniTok的主要功能

  • 统一视觉表示:将图像编码为离散的视觉 token,token能用在图像生成任务(如文生图),也能用在视觉理解任务(如视觉问答)。
  • 高质量图像重建:在保持图像细节的同时进行高效的图像重建。
  • 语义对齐:结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。
  • 支持多模态大语言模型(MLLM):作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

UniTok的技术原理

  • 多码本量化:UniTok 将视觉 token 分割成多个小块,每个小块用独立的子码本进行量化。例如,将 64 维的视觉特征向量分割成 8 个 8 维的小块,每个小块基于 4096 个码字的子码本进行量化。用这种方式,UniTok 的理论词汇量可以指数级增长,极大地扩展离散 token 的表示能力。
  • 注意力分解:用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力。UniTok 用因果注意力(causal attention)确保与自回归生成任务的兼容性。
  • 统一的训练目标:基于 VQVAE 的重建损失确保图像的细节被准确重建。损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。UniTok 引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,基于这种方式,UniTok 能同时优化生成和理解任务。
  • 多模态大语言模型(MLLM)的集成:将生成的视觉 token 基于一个 MLP 投影层映射到多模态大语言模型的 token 空间,实现视觉和语言的统一处理。为简化 MLLM 的输入,UniTok 将多个子码本生成的 token 合并为一个视觉 token 输入到 MLLM 中。在需要预测视觉 token 时,MLLM 自回归地预测下一个位置对应的多个子码本 token,实现高效的视觉生成。

UniTok的项目地址

UniTok的应用场景

  • 多模态模型的视觉输入:作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。
  • 高质量图像生成:根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。
  • 视觉问答与理解:辅助模型理解图像内容,回答视觉相关问题,用在教育、医疗影像分析等。
  • 多模态内容创作:快速生成图文内容,用在新闻报道、社交媒体等,提高创作效率。
  • 跨模态检索与推荐:根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。

kimi-thinking-preview – 月之暗面推出的多模态思考模型

kimi-thinking-preview是什么

kimi-thinking-preview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_content 字段展示推理过程,帮助用户理解回答背后的逻辑。kimi-thinking-preview 支持多轮对话,目前处于预览版,暂不支持工具调用、联网搜索、JSON 模式和上下文缓存等功能。

kimi-thinking-preview

kimi-thinking-preview的主要功能

  • 深度推理:对复杂问题进行多步骤的逻辑分析和推理。
  • 多模态推理:支持处理多种类型的信息输入,包括文本、代码等,结合多模态数据进行推理。
  • 推理过程展示:模型输出推理过程,帮助用户理解思考逻辑。
  • 多轮对话支持:进行多轮交互,模型根据上下文信息生成连贯的回答,推理过程不需要放入上下文中。
  • 灵活的接口调用:支持 HTTP API 或 OpenAI SDK 调用,方便开发者集成到各种应用场景中。

kimi-thinking-preview的技术原理

  • Transformer 架构:模型基于 Transformer 架构,架构在自然语言处理领域表现优异,能捕捉长距离依赖关系,适合处理复杂的推理任务。
  • 多模态融合:模型用多模态融合技术,将文本、代码等多种模态的信息进行整合,更全面地理解问题生成答案。
  • 深度推理机制:模型内部设计深度推理机制,对问题进行逐步分解和分析,基于多步骤的逻辑推导得出答案。
  • 推理过程建模:基于 reasoning_content 字段输出推理过程,模型在生成答案的同时,对推理路径进行建模和解释。

kimi-thinking-preview的项目地址

kimi-thinking-preview的应用场景

  • 复杂问题解答:帮助解决数学、物理等复杂问题,提供逐步推理过程。
  • 代码优化:分析代码问题,提供调试建议和优化方案。
  • 工作决策支持:辅助项目管理、商业分析等工作,提供解决方案。
  • 教育辅助:帮助学生理解复杂知识点,展示详细推理过程。
  • 技术研发:分析技术难题,提供创新思路和解决方案。

Voila – 开源端到端语音大模型,实现低延迟语音对话

Voila是什么

Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自然的交互体验。Voila 集成了语音和语言建模能力,支持数百万种预构建和自定义声音,用户可以通过文本指令或音频样本轻松定制说话者的特征和声音。 包含两个主要模型:Voila-e2e 用于端到端语音对话,Voila-autonomous 用于自主互动。一个模型即可支持多种音频任务,降低了开发和部署成本。

Voila

Voila的主要功能

  • 实时语音交互:Voila能实现低延迟的语音对话,用户可以直接用语音与模型交流,模型会实时处理语音输入生成语音回复,和真人对话一样流畅自然。
  • 多轮对话能力:支持多轮语音对话,模型能根据上下文理解用户的意图,做出连贯的回应。
  • 预构建声音库:Voila拥有数百万种预构建的声音,涵盖不同性别、年龄、语调等特征的声音类型。用户可以根据自己的喜好选择声音,比如可以选择温柔的女声、低沉的男声或者活泼的卡通声音来与模型交流。
  • 自定义声音:用户还可以通过文本指令和音频样本来定制声音。例如,用户可以上传一段自己熟悉的声音样本,并通过指令让模型模仿这种声音进行对话,使交互更加个性化。
  • 语音翻译:经过少量适配后,Voila可以用于多语言语音翻译。用户可以用一种语言说话,模型将其翻译成另一种语言并用语音输出,方便不同语言背景的人进行交流。

Voila的技术原理

  • 高保真、低延迟、实时流式音频处理:Voila实现了高保真、低延迟的实时流式音频处理,能以195毫秒的超低延迟进行全双工对话,超越了人类的平均反应时间。
  • 高效集成语音和语言建模能力:Voila将语音和语言建模能力高效集成,结合了大型语言模型(LLMs)的推理能力与强大的声学建模。使模型在理解语音内容和生成语音回复时更加准确和自然,提升了交互的整体质量。
  • 层次化的多尺度Transformer架构:Voila采用了层次化的多尺度Transformer架构,将大型语言模型的推理能力与声学建模相结合。能实现自然、角色感知的语音生成,用户可以通过简单的文本指令来定义说话者的身份、语调及其他特征。
  • 统一模型设计:Voila被设计为一个统一的模型,适用于多种语音应用,包括自动语音识别(ASR)、文本到语音(TTS),以及经过少量适配的多语言语音翻译。这种统一模型设计降低了开发和部署成本,提高了模型的通用性和灵活性。
  • 强大的语音定制能力:Voila支持超过一百万种预构建的声音,能从短至10秒的音频样本中高效定制新的声音。

Voila的项目地址

Voila的应用场景

  • 语音助手:Voila 可以作为智能语音助手,为用户提供便捷的语音交互服务。能实时倾听用户的语音指令,以自然流畅的语音进行回应。
  • 语音角色扮演:Voila 支持用户定义说话者的身份、语调及其他特征,能实现自然、角色感知的语音生成。在角色扮演和虚拟互动场景中表现出色。
  • 国际会议:在国际会议中,不同语言背景的参与者可以通过 Voila 实现实时语音翻译,无障碍地进行交流。
  • 播客制作:创作者可以用 Voila 生成高质量的播客内容,通过定制声音来吸引听众。
  • 语言学习:帮助学习者练习发音和口语,通过语音互动提供即时反馈。

ReasonIR-8B – Meta AI 推出专为推理密集型检索任务设计的模型

ReasonIR-8B是什么

ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练,采用双编码器架构,将查询和文档分别编码为嵌入向量,通过余弦相似度评分。模型结合了创新的数据生成工具 ReasonIR-SYNTHESIZER,构建模拟真实推理挑战的合成查询和文档对,有效提升了处理长上下文和抽象问题的能力。

ReasonIR-8B

ReasonIR-8B的主要功能

  • 复杂查询处理:ReasonIR-8B 采用双编码器架构,将查询和文档分别编码为嵌入向量,通过余弦相似度评分,能有效处理长篇和跨领域的复杂查询。训练数据包括长达 2000 个 token 的多样长度查询(VL Queries)和需要逻辑推理的困难查询(HQ),显著提升了模型处理长上下文和抽象问题的能力。
  • 推理精度提升:在 BRIGHT 基准测试中,ReasonIR-8B 的原查询得分达到了 24.4 nDCG@10,结合 Qwen2.5 重新排序后提升至 36.9,远超更大的 Rank1-32B 模型,且计算成本仅为后者的 1/200。此外,在 MMLU 和 GPQA 等 RAG 任务中,模型分别带来 6.4% 和 22.6% 的显著提升。
  • 合成数据生成:ReasonIR-8B 结合了创新的数据生成工具 ReasonIR-SYNTHESIZER,构建模拟真实推理挑战的合成查询和文档对,更精准地支持复杂任务。通过多轮提示构建“难负样本”,区别于传统词汇匹配式负样本方法。

ReasonIR-8B的技术原理

  • 双编码器架构:ReasonIR-8B 采用双编码器架构,将查询和文档分别独立编码为嵌入向量,通过余弦相似度进行评分。能有效处理长篇和复杂的查询,支持长达 2000 个 token 的多样长度查询(VL Queries)以及需要逻辑推理的困难查询(HQ)。
  • Varied-Length Data (VL):生成不同长度的查询及其对应的合成文档,扩展检索器的有效上下文长度。
  • Hard Query Data (HQ):基于高质量的文档生成推理密集型查询,并通过多轮方法生成“难负样本”。
  • Public Data:结合现有的公共数据集(如 MS MARCO 和 Natural Questions),提供多样化的训练数据。
  • 对比学习:通过对比学习目标,优化检索器将查询嵌入到与相关文档更接近的向量空间中,同时远离不相关的文档。这种对比学习方法结合合成数据和公共数据的混合训练,显著提升了模型在推理密集型任务中的性能。
  • 测试时优化:ReasonIR-8B 在测试时通过以下方式进一步提升性能:
    • 查询重写:通过语言模型将原始查询重写为更长、更详细的信息性查询,提升检索质量。
    • LLM 重排器:结合语言模型对检索结果进行重排,进一步提升检索的准确性和相关性。

ReasonIR-8B的项目地址

ReasonIR-8B的应用场景

  • 复杂问答系统:在法律咨询、医学研究或学术问题解答等需要推理的问答系统中,ReasonIR-8B 能提供更准确和相关的文档支持。
  • 教育和学习工具:在教育领域,ReasonIR-8B 可以帮助学生和教师找到与复杂问题相关的背景知识和推理模式,辅助学习和教学。
  • 企业知识管理:在企业环境中,ReasonIR-8B 可以用于内部知识库的检索,帮助员工快速找到与复杂问题相关的解决方案和背景信息。
  • 研究和开发:在科研和开发中,ReasonIR-8B 可以帮助研究人员快速找到相关的文献、实验结果和研究方法,加速研究进程。

ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型

ACE-Step是什么

ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。ACE-Step结合扩散模型、深度压缩自编码器(DCAE)和轻量级线性变换器,能在短时间内生成高质量的音乐作品,速度比传统 LLM 模型快 15 倍。ACE-Step 支持多种音乐风格、语言和可控性功能,为音乐创作提供强大的工具。ACE-Step适用于快速生成音乐,作为基础模型支持多种音乐创作子任务,助力音乐人、制作人和内容创作者实现高效创作。

ACE-Step

ACE-Step的主要功能

  • 快速合成:在短时间内生成高质量的音乐,例如在 A100 GPU 上生成 4 分钟的音乐仅需 20 秒。
  • 多样化风格:支持多种主流音乐风格(如流行、摇滚、电子、爵士等)和多种语言的歌词生成。
  • 变体生成:调整噪声比例生成不同变体,提供多样化的音乐选择。
  • 重绘功能:对特定部分重新生成,修改风格、歌词或人声,保留其他元素。
  • 歌词编辑:支持对生成的音乐进行局部歌词修改,同时保持旋律和伴奏不变。
  • 多语言支持::支持 19 种语言,其中英语、中文、俄语、西班牙语、日语等 10 种语言表现尤为出色。
  • Lyric2Vocal:基于 LoRA 微调直接从歌词生成人声音频。
  • Text2Samples:生成音乐样本和循环,帮助制作人快速创建乐器循环、音效等。

ACE-Step的技术原理

  • 扩散模型(Diffusion Model):基于逐步去除噪声生成数据。模型能快速合成音乐,传统扩散模型在长结构连贯性上存在不足。ACE-Step 基于创新的架构设计解决这一问题。
  • 深度压缩自编码器:DCAE 用在高效的数据压缩和解压缩,保留音乐的细粒度音频细节,减少计算资源的消耗。
  • 轻量级线性变换器:用在处理音乐的序列信息,确保生成的音乐在旋律、和声和节奏上具有连贯性。
  • 语义对齐:ACE-Step 用 MERT(Music Embedding Representation)和 m-hubert 技术,在训练过程中对齐语义表示(REPA),实现快速收敛和高质量的生成效果。
  • 训练优化:基于训练时的语义对齐和优化技术,ACE-Step 能在短时间内生成高质量的音乐,保持生成速度和连贯性之间的平衡。

ACE-Step的项目地址

ACE-Step的应用场景

  • 音乐创作:快速生成旋律、歌词,提供创作灵感。
  • 人声生成:从歌词直接生成人声音频,适合制作人声演示。
  • 音乐制作:生成乐器循环和音效,提供创作素材。
  • 多语言支持:适用于跨语言音乐创作。
  • 音乐教育:作为教学工具,帮助学习音乐创作。

3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架

3DV-TON是什么

3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴达摩院、湖畔实验室和浙江大学联合推出的基于扩散模型的视频虚拟试穿框架,能解决现有方法在处理复杂服装图案和多样化人体姿态时生成效果不佳的问题。框架基于生成可动画化的纹理化3D网格作为显式的帧级指导,确保生成的试穿视频在视觉质量和时间一致性上表现出色。3DV-TON引入高分辨率的基准数据集HR-VVT,推动视频试穿技术的研究进展。

3DV-TON

3DV-TON的主要功能

  • 高保真视觉效果:准确还原服装细节,生成逼真的试穿效果。
  • 时间一致性:确保视频中服装纹理在不同帧之间保持连贯的运动,避免出现伪影或变形。
  • 适应复杂场景:支持处理多样化服装类型、复杂人体姿态和动态场景。
  • 提供基准数据集:引入高分辨率视频试穿基准数据集HR-VVT,推动相关领域的研究和评估。

3DV-TON的技术原理

  • 纹理化3D指导:单图像3D重建技术生成可动画化的纹理化3D网格。将3D网格与原始视频的姿态同步,为扩散模型提供显式的帧级指导,确保生成的试穿结果在外观和运动上的一致性。
  • 动态3D指导管道:选择关键帧进行初始2D图像试穿,重建动画化纹理化3D网格。优化SMPL-X参数,确保3D网格与人体姿态的精确对齐。
  • 矩形掩码策略:防止服装信息泄露,避免在动态人体和服装运动中出现伪影。结合服装图像和试穿图像作为参考,提供上下文信息,增强生成效果。
  • 扩散模型架构:基于Stable Diffusion,扩展UNet架构支持伪3D结构。基于时间模块集成,实现真实感的运动生成,减少对显式光流或变形操作的依赖。
  • 训练策略:结合图像和视频数据进行训练,基于随机选择数据类型平衡图像质量和时间一致性。用分类器自由引导(CFG)策略,随机省略某些条件输入,增强模型的鲁棒性。

3DV-TON的项目地址

3DV-TON的应用场景

  • 在线购物:帮助用户虚拟试穿服装,提升购物体验,减少退货。
  • 时尚设计:快速展示服装设计效果,辅助设计和营销。
  • 虚拟试衣间:在实体店中节省试穿时间和精力。
  • 影视和游戏:辅助角色服装设计和定制,提升制作效率。
  • 社交媒体:为用户提供有趣的试穿视频创作和分享工具。

Text2CAD – AI辅助设计平台,将文本描述设计要求转为高精度CAD模型

Text2CAD是什么

Text2CAD 是创新的在线平台,通过人工智能技术将自然语言描述快速转化为专业 CAD 模型。用户只需用简单的语言描述设计想法,如尺寸、形状和功能要求,Text2CAD 的 AI 引擎可在几秒内生成高精度的 CAD 模型,支持 STL、OBJ、STEP 等多格式导出,无缝对接各类工作流程。

Text2CAD

Text2CAD的主要功能

  • 快速设计:Text2CAD 可以在几秒钟内根据用户的语言描述生成复杂的 CAD 模型,显著节省设计时间。用户只需用简单的语言描述设计意图,系统即可快速生成模型。
  • 精确转换:平台基于先进的 AI 算法,能准确理解用户的语言描述,将其转换为符合工程标准的 CAD 模型。用户可以在描述中指定精确的尺寸、公差和功能要求。
  • 易于修改:用户可以通过调整描述或使用直观的编辑工具来微调生成的模型。Text2CAD 提供了基础和高级编辑功能,方便用户对模型进行优化。
  • 多格式导出:Text2CAD 支持多种行业标准格式的导出,包括 STL、OBJ、STEP 等,能无缝集成到用户的工作流程中。
  • 云存储与协作:所有设计和修改历史都会自动保存到云端,用户可以随时随地访问项目。平台支持团队协作,用户可以轻松与团队成员共享设计。

Text2CAD的官网地址

Text2CAD的产品定价

  • 免费版:每天 3 次生成机会,支持 STL 格式导出,0GB 云存储,社区支持,无电子邮件支持,无高级编辑功能。
  • 专业版:$199/月,每天 20 次生成机会,支持多格式导出,5GB 云存储,支持批量导出,提供社区和电子邮件支持,支持高级编辑功能。
  • 企业版:$299/月,每天 50 次生成机会,支持多格式导出(STL、OBJ、STEP 等),50GB 云存储,支持批量导出,提供社区和电子邮件支持,支持高级编辑功能,并提供定制咨询服务。

Text2CAD的应用场景

  • 工业设计与制造:Text2CAD 可以帮助企业和设计师快速将设计想法转化为实际的 CAD 模型,显著提高设计效率。
  • 教育与培训:在教育领域,Text2CAD 降低了 CAD 学习的门槛。学生和新手设计师可以通过自然语言描述来学习 CAD 设计,快速理解和实践机械设计原理。
  • 快速原型设计:对于需要快速验证设计想法的场景,Text2CAD 提供了高效的解决方案。用户可以快速生成设计原型,根据反馈进行调整和优化。
  • 虚拟现实与游戏设:在虚拟现实和游戏开发中,Text2CAD 可以通过文本描述快速生成虚拟环境中的物体和场景,加速内容创作。
  • 智能家居与个性化定制:用户可以通过简单的文本指令定制家居设计,实现个性化的产品设计。描述一个带有特定尺寸和功能的家具,Text2CAD 可以快速生成对应的 CAD 模型。

Omni Reference – Midjourney V7推出的图像参考功能

Omni Reference是什么

Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Reference 适用于Midjourney V7 版本,支持个性化、风格化和情绪板等功能。Omni Reference 支持基于 Web 端拖拽图像或在 Discord 中使用 --oref 命令实现,基于--ow 参数调整参考图像的权重。

Omni Reference

Omni Reference的主要功能

  • 嵌入角色或物体:支持用户将参考图像中的角色、物体、车辆或非人类生物嵌入到生成的图像中,实现特定元素的精准呈现。
  • 风格化与个性化:结合个性化、风格化和情绪板等功能,将参考图像的风格或元素融入创作中,支持调整生成图像的风格。
  • 权重控制:基于 –ow 参数,用户调节参考图像在生成图像中的影响力,平衡细节保留和风格转换。
  • 跨平台使用:支持在 Midjourney 的 Web 端和 Discord 端使用,用户基于拖拽图像或输入命令添加参考图像。

如何使用Omni Reference

  • 在 Midjourney Web 端使用
    • 访问官网:访问Midjourney官方网站,确保Midjourney模型设置切换到V7版本。
    • 打开 Imagine 栏:在 Midjourney 的 Web 界面中,点击 Imagine 栏。
    • 上传或选择图像:点击图像图标,打开图像面板,从上传库中选择一张图像,或者上传新的图像。
    • 拖拽到 Omni Reference 区域:将图像拖拽到 Omni Reference 区域。注意,每次只能使用一张 Omni Reference 图像。
    • 调整权重(可选):用滑块调整 Omni Reference 的权重(–ow 参数),范围是 1 到 1,000,默认值为 100。如果需要更严格地遵循参考图像,增加权重;如果希望风格化效果更明显,降低权重。
    • 输入文本提示:在文本框中输入清晰的提示,描述希望生成的图像内容。结合 Omni Reference 的图像,文本提示能帮助进一步细化生成效果。
    • 生成图像:点击 Generate 按钮,开始生成图像。
  • 在 Midjourney Discord 端使用
    • 准备参考图像的 URL:确保有可访问的参考图像的链接。
    • 输入命令:在 Discord 中输入以下命令:
    • /imagine prompt:<你的文本提示> –oref <图像链接>
    • 调整权重(可选):如果需要调整 Omni Reference 的权重,使用 –ow 参数。
    • 生成图像:发送命令后,Midjourney 根据提示和参考图像生成图像。

Omni Reference的项目地址

Omni Reference的应用场景

  • 角色嵌入:将人物或角色放入新场景,适合创作插画或展示。
  • 产品展示:将物品放入虚拟环境,用在设计或广告。
  • 场景构建:将建筑或景观融入背景,适合概念设计。
  • 风格转换:将参考图像风格应用到新图像中。
  • 创意合成:将多个角色或物体组合到一个画面中。