Blog

GENIE – Luma AI推出的3D模型生成工具
GENIE是什么

GENIE是Luma AI推出的文本生成3D内容工具，能将简单的文本描述转化为生动的三维场景和对象。用户只需输入文本描述，GENIE能根据描述生成3D模型，支持将生成的3D模型导出到主流的3D文件格式，如OBJ、FBX等，方便在不同软件和平台上使用。 GENIE提供互动场景创建的工具和接口，视频到3D模型转换的API支持。适用于3D艺术家、设计师、游戏开发者、教育工作者以及AR/VR内容创作者，极大地扩展了数字创作的边界。

GENIE的主要功能
- 文本到3D模型转换：用户输入文本描述，GENIE可生成相应的3D模型。
- 3D场景创建：GENIE能根据文本描述创建完整的3D场景。
- 模型编辑与自定义：用户可以对生成的3D模型进行编辑和材质、样式的自定义。
- 多格式导出：生成的3D模型可以导出为多种格式，如OBJ、FBX等，适应不同的应用场景。
- 视频到3D模型：GENIE提供API，可以将视频内容转换为3D模型。
- 快速生成：GENIE能迅速生成多个与描述匹配的3D模型选项。
- 增强现实预览：用户可以在增强现实中预览生成的3D模型。
GENIE的产品官网
- 产品官网：hlumalabs.ai/genie
GENIE的应用场景
- 3D艺术创作与设计：GENIE能快速将创意转化为三维场景和对象，为3D艺术家和设计师节省模型创建的时间。
- 游戏开发：游戏设计师可以用GENIE快速创建游戏中的环境和角色，加速游戏开发过程，同时保持高水平的创意和质量。
- 教育和培训：教育工作者可以用GENIE创建互动的教学材料，学习过程更加生动和吸引人。
- 基础世界建模：在机器学习领域，可以用于预测动态场景，对自动驾驶汽车的引导或在医学模拟中培训有抱负的医生。
November 11, 2024
VideoChat – 开源的实时数字人对话系统，首包延迟低至3秒
VideoChat是什么

VideoChat是开源的实时数字人对话系统，支持语音输入和实时对话功能。用户自定义数字人的形象和音色，无需训练即可进行音色克隆，首包延迟可低至3秒，适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice，提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。VideoChat用Gradio框架构建交互式应用，支持流式视频输出，方便快速部署和构建。

VideoChat的主要功能
- 实时语音交互：支持用户用语音与数字人进行实时对话。
- 形象和音色自定义：用户根据需要选择或设计数字人的外观和声音，实现个性化交互。
- 语音输入和文本输出：将用户的语音输入转换为文本，再基于大语言模型生成回复文本。
- 唇形同步：数字人在说话时，嘴唇动作与发出的声音同步，提高真实感。
- 流式视频输出：基于Gradio框架，支持流式视频输出，让交互更加流畅。
VideoChat的技术原理
- 语音识别（ASR）：用FunASR等工具将用户的语音输入转换为文本。
- 大语言模型（LLM）：基于通义千问等模型根据输入文本生成相应的回复文本。
- 文本转语音（TTS）：基于GPT-SoVITS等工具将文本回复转换为语音。
- 说话人生成（THG）：用MuseTalk等方案根据语音生成唇形同步的数字人视频。
- 流式输出并行流水线：基于并行处理技术，边推理边播放，提高响应速度。
- Gradio框架：用Gradio 5实现流式视频输出，方便部署和构建交互式应用。
VideoChat的项目地址
- GitHub仓库：https://github.com/Henry-23/VideoChat
- 在线体验Demo：https://www.modelscope.cn/studios/AI-ModelScope/video_chat
VideoChat的应用场景
- 客户服务：作为虚拟客服，提供24*7的咨询服务，解答用户问题，减少企业人力成本。
- 在线教育：作为虚拟教师，提供语言学习、课程讲解等服务，增加学习的互动性和趣味性。
- 新闻播报：用在新闻行业，用数字人的形式播报新闻，提高新闻播报的效率和吸引力。
- 直播行业：作为虚拟主播，进行产品介绍、直播带货等，增加直播的互动性和观众的观看体验。
- 娱乐互动：在游戏、虚拟演唱会等娱乐领域，提供更加丰富的互动体验。
November 11, 2024
Aiuni – AI 3D模型生成平台，上传2D图片自动生成3D模型
Aiuni是什么

Aiuni是北京云可科技推出的AI图片转3D模型生成平台，基于Unique3D技术，用户可以轻松将2D图像转换为3D模型。平台支持纹理生成、模型优化和动画添加，适用于数字媒体、游戏开发、影视制作等多个领域。Aiuni的核心技术包括多视图扩散模型和即时一致的网格重建算法，确保生成的3D模型在颜色和几何形状上具有高质量。

Aiuni的主要功能
- 图片转3D模型：用户可以上传2D图片，Aiuni会自动生成3D模型，简化了传统的3D建模过程。
- 纹理生成：图片或文字结合生成模型的纹理，帮助用户设计出个性化的3D模型外观。
- 模型优化与重新渲染：Aiuni正在开发ReRender功能，帮助优化并重新渲染现有的3D模型，提升模型的质量和细节表现。
- 虚拟角色生成：未来将支持生成虚拟角色，特别适合游戏开发者和动画制作人员。
- 动画添加：支持用户为3D角色添加动作，具备动态表现力。
- 快速3D模型生成：用户上传单张图片后，Aiuni AI能在大约30秒内生成一个高保真的3D模型。
- 多视图扩散模型：基于深度学习技术，从单一视角的图片中推断出物体的其他视角，生成正交的多视图图像及其法线图。
- 高分辨率上采样：通过逐步提高图像分辨率，捕捉更丰富的细节信息，生成高清晰度的3D模型。
Aiuni的产品官网
- 产品官网：aiuni.ai
Aiuni的应用场景
- 数字媒体与内容创作：Aiuni可以用于创作3D动画、数字艺术以及广告中的视觉效果，为内容创作者提供强大的3D模型生成工具。
- 游戏开发：对于需要快速生成角色和环境的游戏开发者，Aiuni提供了便捷的3D建模工具，减少了设计和开发时间，提高游戏设计的效率和丰富性。
- 影视制作：在电影和电视的视觉效果制作中，Aiuni通过快速生成高精度3D模型，帮助创作团队提升工作效率，创建电影中的特效场景、角色和动画。
- 虚拟现实（VR）与增强现实（AR）：Aiuni生成的3D模型也可以应用于VR/AR体验中，为用户提供逼真的虚拟环境和角色，增强用户体验。
- 教育和培训：在教育领域，Aiuni AI创建教学模型，帮助学生更好地理解三维空间和几何概念。
- 建筑可视化：建筑师和规划师用Aiuni AI将设计图纸转换成3D模型，进行更直观的方案展示和评审。
November 11, 2024
Brev AI – 在线AI音乐生成器，输入文本描述生成独特音乐作品或歌词
Brev AI是什么

Brev AI是在线AI音乐生成器，基于Suno AI V3.5技术将用户的文本描述转换成独特的音乐作品。用户输入歌曲描述或歌词，Brev AI快速生成旋律、和声甚至完整的歌曲。平台支持多种音乐风格，适用于视频、社交媒体、播客等多种场景，让音乐创作更加便捷和高效。Brev AI拥有丰富的自定义选项，确保生成的音乐与用户的创作愿景相符。Brev AI降低了音乐制作的门槛，让更多人轻松创作出专业水准的音乐作品。

Brev AI的主要功能
- 文本转音乐转换：Brev AI的核心功能是将文本描述转换为音乐作品。用户输入详细的文本提示，指定流派、情绪、乐器等，AI基于输入生成相应的音轨。
- 自定义选项：平台提供广泛的自定义功能，支持用户微调生成的音轨，包括调整节奏、修改乐器组合和改变歌曲结构。
- 多流派支持：Brev AI支持广泛的音乐流派，从古典到电子舞曲（EDM），流派多样性适用于各种项目和用户偏好。
- 歌词生成：Brev AI能生成带有歌词的歌曲。用户输入主题或话题，AI将创作与音乐风格相匹配的连贯歌词。
- 高质量音频输出：基于Suno V3.5技术，Brev AI 生成高保真音频轨道，具有清晰的乐器分离、平衡的混音和专业水准的编排。
Brev AI的产品官网
- 产品官网：brev.ai
Brev AI的产品定价
- 免费计划：每天生成240首歌曲，每天可以进行120次生成
- Ultra计划：$29.9/月，每天生成4800首歌曲，每天进行2400次生成
- Pro计划：$9.9/月，每天生成1200首歌曲，每天进行600次生成
Brev AI的应用场景
- 视频制作：为视频内容（如YouTube视频、电影、广告、企业宣传片等）创作背景音乐和主题曲。
- 社交媒体内容：为社交媒体帖子（如Instagram、TikTok、Facebook等）生成吸引人的背景音乐，增强内容的吸引力。
- 播客和音频内容：为播客节目、有声书和其他音频内容创作独特的开场、结尾和过渡音乐。
- 游戏开发：为电子游戏创作背景音乐和音效，增强游戏体验。
- 企业标识音乐：为企业或品牌创作标志性的音乐，用在品牌宣传和识别。
November 11, 2024
美图证件照 – 美图秀秀推出的AI证件照制作应用
美图证件照是什么

美图证件照是美图秀秀推出的证件照制作的应用。提供数百款照片规格，满足各种生活场合需求。用户一键上传自拍照，基于AI技术，享受智能抠图剪裁、超清美颜、AI换装等功能，轻松制作出理想的证件照，无需出门获得专业效果。

美图证件照的主要功能
- 规格选择：提供数百种证件照规格，满足不同场合的需求，如一寸、二寸、小一寸、小二寸等。
- 智能抠图与裁剪：上传自拍照后，系统自动进行智能抠图和裁剪，确保人像在证件照中的位置和比例正确。
- 背景色选择：提供红、白、蓝等标准底色，及晴山蓝、大理石灰等高级底色选项。
- AI换装：用户选择不同的服装造型，如都市丽人、职场通勤、帅气西装等，在线定制专属形象照。
- AI精修：智能AI精修功能，识别、自由切换发型、妆造和背景，一键生成精修半身证件照。
如何使用美图证件照
- 下载与安装：iOS用户访问苹果AppStore应用商店，安卓用户访问手机应用商店，完成下载和安装。
- 打开应用：打开美图证件照应用，主界面有各种证件照规格的选项。
- 选择规格：根据需要选择正确的证件照规格，如一寸、二寸等，或根据用途选择，如签证、身份证、驾驶证等。
- 上传照片：选择“拍照”或“从相册选择”上传一张符合要求的照片。建议使用正面、清晰、光线均匀的照片。
- 智能抠图与裁剪：应用自动进行智能抠图和裁剪，确保人像符合证件照的要求。如果需要，进行手动调整。
- 更换背景色：如果需要，选择合适的背景色，如红色、白色或蓝色等。
- AI换装与精修：如果需要更换服装或进行更精细的调整，用AI换装功能，或用精修工具调整发型、妆容等。
- 预览与调整：在应用中预览证件照的效果，根据需要进行微调，直到满意为止。
- 保存与冲印：确认无误后，保存电子版证件照。如果需要纸质版，选择冲印服务，并填写送货地址。
美图证件照的产品定价
- 美图彩钻VIP连续包周：¥15.00
- 美图彩钻VIP连续包月：¥30.00
- 美图彩钻VIP连续包季：¥70.00
- 美图彩钻VIP连续包年：¥159.00
美图证件照的应用场景
- 个人证件：身份证、护照、驾驶证和社保卡等官方证件的更新或申请。
- 教育考试：各类考试报名，如高考、研究生考试、英语四六级、计算机等级考试等。
- 职业资格：教师资格证、会计资格证、导游证等职业资格证书的申请。
- 求职简历：简历照片，用在求职申请，提升个人形象。
- 社交媒体：用在LinkedIn、Facebook等社交媒体平台的个人资料照片。
November 11, 2024
TextIn – AI文字识别平台，覆盖多种类型的富文本信息提取
TextIn是什么

TextIn是Hopscotch公司推出的AI文字识别平台，基于先进的OCR技术，提供公有云API、SDK和私有部署选项。TextIn支持50+语言，能从图像和PDF中提取印刷、手写、印章文本、公式、表格等，服务于金融、物流等多个行业。TextIn的高准确率和广泛的技术兼容性，为客户提供一站式智能文档处理解决方案。

TextIn的主要功能
- 智能图像处理：提供图像切边增强、PS检测、去屏幕纹等功能，优化低质量影像，保障图像进件质量。
- 文字与表格识别：能识别图像和PDF文档中的印刷、手写、印章、公式、表格、图片等富文本信息，支持50+多语言识别。
- 文档内容提取：智能理解文档内容，提取关键要素，支持多种部署方式，包括公有云API、私有化部署、端侧SDK和AIoT。
- 深入场景的智能识别应用：包括合同机器人、财经知识库问答、DocFlow票据自动化等，解决复杂场景下的识别问题。
- 多种部署方式：支持公有云API、私有化部署、端侧SDK和AIoT等多种部署方式，满足不同业务场景技术需求。
如何使用TextIn
- 注册和登录：访问TextIn的官方网站。注册一个账户或使用已有账户登录。
- 选择服务：根据需求选择相应的服务，比如公有云API、私有化部署、端侧SDK或AIoT。
- 获取API密钥：如果选择用公有云API服务，需要在用户控制台获取API密钥，用于API调用时的身份验证。
- 集成SDK或API：
  - 如果你需要在应用程序中集成TextIn的功能，下载相应的SDK并按照开发文档集成到应用中。
  - 如果用API服务，需要根据提供的API文档编写代码，发送HTTP请求到TextIn的服务器。
- 发送数据：将需要识别的图像或文档数据发送到TextIn。基于API调用上传文件，或在集成SDK的应用中直接处理图像。
- 接收和处理结果：
  - TextIn处理发送的数据，返回识别结果。
  - 根据返回的数据格式（通常是JSON）解析结果，在应用中使用这些数据。
- 优化和调整：根据实际使用情况，需要调整识别参数优化识别效果。
TextIn的应用场景
- 金融行业：混合粘贴发票的切割、分类和字段信息提取。处理复杂场景，如错位行、倾斜、重叠、遮挡、变形和不均匀照明。
- 物流行业：识别和提取物流单据上的文字信息，如运单号、收货人信息等。
- 制造业：自动化识别产品标签、序列号和质量检验报告。
- 移动互联网：提供移动应用中的文字识别功能，如拍照翻译、文档扫描等。
- 智能政府：提取和处理政府文件、公共记录和行政文档。
November 11, 2024
adwrite.ai – AI广告文案写作工具，基于关键词生成多个定制化广告文案
adwrite.ai是什么

adwrite.ai是AI广告文案生成平台。用户输入关键词，adwrite.ai生成多个定制化的广告文案，支持直接导入到Google Ads账户中。adwrite.ai帮助用户节省时间，提高广告的点击率（CTR），优化广告效果。adwrite.ai基于AI技术，简化广告创作流程，让营销人员更高效地管理和提升广告表现。

adwrite.ai的主要功能
- 关键词输入与广告生成：用户输入关键词，adwrite.ai基于关键词生成定制化的搜索广告文案。
- 多语言支持：Adwrite.ai生成多种语言的广告，帮助用户覆盖更广泛的受众。
- 一键导入Google Ads：生成的广告文案直接导入到用户的Google Ads账户中，简化广告设置流程。
- 提高点击率（CTR）：adwrite.ai用生成的广告文案提高广告的点击率，提升广告效果。
adwrite.ai的产品官网
- 产品官网：adwrite.ai
adwrite.ai的产品定价
- Basic计划：每月4.50欧元。每月50个广告，1个账户，支持30多种语言。
- Premium计划（最佳价值）：每月14.50欧元。每月无限量广告，无限账户，支持30多种语言。
- Standard计划：每月9.50欧元。每月500个广告，无限账户，支持30多种语言。
adwrite.ai的应用场景
- 搜索引擎营销（SEM）：用户创建和优化针对Google、Bing等搜索引擎的广告文案，提高广告的相关性和吸引力。
- Google Ads管理：Adwrite.ai支持一键导入Google Ads，适合需要在Google Ads平台上管理多个广告系列和广告组的用户。
- 多语言广告创作：对于需要在不同国家和地区推广产品或服务的企业，帮助快速生成本地化的广告文案。
- 提高广告点击率（CTR）：帮助用户生成更具吸引力的广告文案提高广告的点击率，提高广告的投资回报率（ROI）。
- 广告文案测试：用户生成多个版本的广告文案，进行A/B测试，找出最有效的广告文案。
November 11, 2024
Wavtool – AI驱动基于浏览器的在线音乐创作平台
Wavtool是什么

Wavtool 是AI音频创作平台，Wavtool支持用户在不下载或安装任何软件的情况下，直接在浏览器中录制、作曲、制作、混音和导出音乐。Wavtool 强调创意过程的人性化， AI 功能辅助和加速人类的艺术创作，不是取代音乐制作人。平台支持多种音频文件格式导入，提供虚拟乐器和样本库。Wavtool 支持用户将项目导出为 WAV 和 MIDI 文件，让音乐制作更加便捷和易于访问。

Wavtool 的主要功能
- AI音乐创作：WavTool 提供一系列AI功能，包括侧链压缩、高级合成和灵活的信号路由等，支持用户创作原创音乐。
- Conductor AI：WavTool 的 Conductor AI 功能为新手提供指导和建议，完成音乐创作过程，提供建议，直接进行更改，帮助用户获得最佳音质。
- 基于浏览器的音乐制作：用户在浏览器中录制、作曲、制作、混音、母带处理和导出音乐，无需安装或更新，让音乐制作变得轻松无忧且易于访问。
- 多轨支持：WavTool 支持多个音轨，支持用户同时处理各种声音部分，例如鼓、和弦、旋律、低音线和复调旋律。
- 高级合成：WavTool 提供一系列合成器和声音探索工具，让用户尝试不同的声音和声音的可能性。
Wavtool 的产品官网
- 产品官网：wavtool.com
Wavtool 的产品定价
- BASIC 层级：免费。导出 WAV 文件
- INDIE 层级：每月 $4 美元。导出 WAV/MIDI 文件
- PRO 层级：每月 $20 美元。Stem 分割，音色转移
Wavtool 的应用场景
- 个人音乐制作：音乐爱好者和独立音乐制作人创作和制作自己的音乐作品。
- 在线协作：音乐团队或远程合作者实时在线协作，共同完成音乐项目。
- 教育和学习：教师和学生进行音乐理论教学、作曲练习和音乐制作技能的学习。
- 现场表演：DJ 和现场音乐表演者进行现场混音和音效处理。
- 音频编辑和后期制作：音频工程师和视频制作人进行音频剪辑、混音和母带处理。
November 11, 2024
3D AI Studio – AI 3D模型生成工具，支持文本、图像生成带逼真纹理的3D模型
3D AI Studio是什么

3D AI Studio是创新的AI 3D模型生成工具，通过文本、图像输入快速生成3D模型，简化了3D内容创作。平台具备文本到3D、图像到3D转换、AI纹理化、重网格化等功能，支持多种文件格式，拥有用户友好的界面。提供丰富的3D资产库和社区资源，动画生成能力。3D AI Studio致力于提供安全、高效的3D建模解决方案，满足不同用户的需求。

3D AI Studio的主要功能
- 文本到3D（Text to 3D）：用户输入描述性的文本，AI将这些文本描述转化为详细的3D模型。
- 图像到3D（Image to 3D）：用户上传2D图像，平台将其转换为3D模型。
- AI纹理化（AI Texturing）：自动为3D模型应用逼真的纹理，提升模型的真实感。
- 重网格化（Remeshing）：优化模型的几何结构，提高模型质量，适合3D打印和动画。
- 3D资产库（3D Asset Library）：提供预制3D资产，加速项目开发。
- 动画生成（Animation Generation）：AI生成高质量3D动画，支持自动绑定和动画制作。
- 多文件格式支持：支持FBX、STL、OBJ等多种3D模型文件格式。
3D AI Studio的产品官网
- 产品官网：3daistudio.com
3D AI Studio的应用场景
- 游戏开发：3D AI Studio能快速创建和迭代视频游戏制作中的角色、环境和对象的3D资产，加速游戏开发过程。
- 产品设计：可以快速生成产品的3D原型和可视化，有助于设计和展示过程。
- 建筑可视化：根据描述或概念草图创建建筑和室内的3D模型，用于客户演示或项目规划。
- 数字艺术创作：将艺术概念转化为3D雕塑或场景，扩展数字艺术家的创意可能性。
- 教育和培训：轻松开发教育内容、科学可视化或培训模拟的3D模型。
- 动画和渲染：轻松创建引人入胜的动画和详细渲染，提升项目的视觉吸引力，同时不影响质量。
November 11, 2024
Rodin – AI 3D模型生成工具，多个角度融合生成更精确的3D模型
Rodin是什么

Rodin是影眸科技推出的AI 3D生成工具，专注于生成高质量的3D资产，在游戏资产创作领域显示出巨大潜力。采用AI直接生成3D模型的技术路线，通过2D升维3D的方式处理贴图。Rodin的操作界面简洁，用户可以通过输入提示词或上传图片来生成3D模型。在实际测评中，Rodin在结构清晰、对称结构还原和生成效率方面表现出色，尽管在精度和数据集泛化能力上存在局限。Rodin的生成效果在特定数据集内达到了初步可用水平，为游戏开发提供了一种快速生成3D模型的新方法。

Rodin的主要功能
- 3D模型生成：用户可以通过输入文本提示（文生3D）或上传图片（图生3D）来生成3D模型。
- 多视图融合：支持从多个角度上传照片，解锁更精确的3D模型生成。
- 模型预览与调整：在生成模型后，用户可以预览模型，进行细节调整，如对称性、边缘光滑等。
- 材质生成：用户可以输入材质描述的提示词，调整PBR材质生成的发散性以及与原图的相关度。
- 模型打包：完成材质生成后，用户可以选择不同的模型打包方式，包括基础模型、LOD以及高模的选项，挑选渲染模式和材质分辨力。
Rodin的产品官网
- 产品官网：hyperhuman.deemos.com/rodin
Rodin的产品定价
- 免费试用：7天免费试用。
- 创作者：24美元/月，每月30个积分。
- 专业版：120美元/月，每月208个积分。
- 教育版：1224美元/月，每月30个积分。
Rodin的应用场景
- 角色设计：快速生成游戏角色的3D模型，减少传统建模的时间和成本。
- 环境构建：创建游戏环境和建筑的3D模型，如城堡、森林等。
- 道具制作：生成武器、工具和其他游戏内物品的3D模型。
- 特效模型：为特效场景生成复杂的3D模型，如爆炸、烟雾等。
- 角色建模：为动画电影创建角色模型，包括虚构生物和人类角色。
- 虚拟现实（VR）和增强现实（AR）：为VR和AR应用创建虚拟环境和物体。生成可以与用户互动的3D模型。
November 11, 2024