Author: Chimy

Vary-toy：开源的小型视觉多模态模型
Vary-toy是什么

Vary-toy是一个小型的视觉语言模型（LVLM），由来自旷视、国科大、华中大的研究人员共同提出，旨在解决大型视觉语言模型（LVLMs）在训练和部署上的挑战。对于资源有限的研究者来说，大型模型通常拥有数十亿参数，难以在消费级GPU上（如GTX 1080Ti）进行训练和部署。Vary-toy的核心目标便是让研究人员能够在有限的硬件资源下，体验到当前LVLMs的所有功能（文档OCR、视觉定位、图像描述、视觉文答等）。

Vary-toy的主要功能
- 文档级光学字符识别（OCR）：Vary-toy能够识别和理解文档图像中的文字，这在处理扫描文档、PDF文件等场景中非常有用。
- 图像描述：模型能够生成图像的描述性文本，这对于图像内容的理解和生成图像描述任务（如VQA）至关重要。
- 视觉问答（VQA）：Vary-toy能够回答关于图像内容的问题，这涉及到理解图像的视觉信息以及与之相关的文本信息。
- 对象检测：通过强化的视觉词汇，Vary-toy具备了自然对象感知（定位）的能力，能够在图像中识别和定位物体。
- 图像到文本的转换：Vary-toy可以将图像内容转换为结构化的文本格式，例如将PDF图像转换为Markdown格式。
- 多模态对话：Vary-toy模型支持多模态对话，能够理解和生成与图像内容相关的对话。
Vary-toy的官方入口
- 官方项目主页：https://varytoy.github.io/
- Arxiv研究论文：https://arxiv.org/abs/2401.12503
- Demo运行地址：https://vary.xiaomy.net/
- GitHub代码库：https://github.com/Ucas-HaoranWei/Vary-toy
Vary-toy的技术原理

Vary-toy的工作原理基于几个关键的技术和设计决策，这些决策共同作用于提高模型在视觉语言任务上的性能，同时保持模型的小型化。以下是Vary-toy工作原理的主要组成部分：
1. 视觉词汇生成：Vary-toy利用一个小型的自回归模型（OPT-125M）来生成新的视觉词汇网络。这个网络通过处理PDF图像文本对和自然图像中的对象检测数据来学习如何有效地编码视觉信息。与传统的Vary模型相比，Vary-toy在生成视觉词汇时，不再将自然图像作为负样本，而是将其视为正样本，从而更充分地利用网络的容量。
2. 视觉词汇与CLIP的融合：在生成新的视觉词汇后，Vary-toy将其与原始的CLIP（Contrastive Language-Image Pre-training）模型相结合。CLIP是一个强大的视觉-语言模型，能够将图像和文本映射到共享的嵌入空间。通过这种方式，Vary-toy能够利用CLIP的图像理解能力，同时通过新的视觉词汇网络增强对文本信息的处理。
3. 多任务预训练：Vary-toy在预训练阶段采用了多任务学习策略，这意味着模型在训练过程中同时处理多种类型的数据，如图像描述、PDF OCR、对象检测、纯文本对话和视觉问答（VQA）。这种多任务训练有助于模型学习更丰富的视觉和语言表示，提高其在各种下游任务上的泛化能力。
4. 模型结构：Vary-toy遵循Vary的管道设计，但在结构上有所调整。当输入图像时，新的视觉词汇分支会将图像调整到1024×1024的分辨率，而CLIP分支则通过中心裁剪获取224×224的图像。两个分支输出的图像特征被合并，作为输入到1.8B参数的Qwen-1.8B语言模型中。
5. 数据输入格式：为了适应不同的任务，Vary-toy需要处理多种输入格式。例如，对于PDF图像-文本对，模型使用了一个特定的提示（如“Provide the OCR results of this image.”）来指导输出正确的结果。对于对象检测任务，模型使用不同的提示模板来处理图像中的多个对象。
6. 微调（SFT）：在预训练之后，Vary-toy通过指令调优（SFT）阶段进一步优化模型。这个阶段使用LLaVA-80K数据集，这是一个包含详细描述和提示的图像数据集，由GPT4生成。这有助于模型更好地理解和生成与图像内容相关的文本。
通过这些工作机制，Vary-toy能够在保持模型小型化的同时，实现对复杂视觉语言任务的有效处理。这种设计使得Vary-toy成为一个在资源受限环境中进行视觉语言研究的有力工具。

如何使用Vary-toy
1. 访问Vary-toy的官方demo体验地址（vary.xiaomy.net）
2. 点击上传一张图片或者在左侧选择示例图片
3. 输入提示指令如描述图像内容、检测图像中的物体等
4. 等待模型生成结果即可
January 29, 2024
ActAnywhere – Adobe推出的AI视频背景生成模型
ActAnywhere是什么

ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型，旨在解决视频背景生成的问题，特别是在需要将前景主体（如人物）与新背景无缝结合的场景中。这个模型适用于电影制作和视觉效果（VFX）领域，它能够自动化地创建与前景主体运动相协调的视频背景，从而节省了传统手动合成过程中的大量时间和精力。

官方项目主页：https://actanywhere.github.io/

Arxiv论文地址：https://arxiv.org/abs/2401.10822

ActAnywhere的功能特色
- 前景主体与背景融合：ActAnywhere能够根据前景主体的运动和外观，自动生成与之相匹配的背景，使得主体与背景之间的交互看起来自然和连贯。
- 条件帧驱动的背景生成：用户可以提供一个描述新场景的图像（条件帧），ActAnywhere会根据这个条件帧生成视频背景。这允许用户指定特定的背景元素，如特定的建筑、自然景观或室内环境。
- 时间一致性：通过使用时间自注意力机制，ActAnywhere确保生成的视频在时间序列上保持一致性，包括相机运动、光照变化和阴影效果。
- 自监督学习：ActAnywhere在大规模人类-场景交互视频数据集上进行自监督训练，这意味着它能够在没有人工标注的情况下学习如何生成视频背景。
- 零样本学习：ActAnywhere能够在没有额外训练的情况下，对新的、未见过的数据（如非人类主体）进行生成，这表明模型能够从训练数据中学习到通用的背景生成策略。
ActAnywhere的工作原理

ActAnywhere通过以下的步骤和组件，能够生成具有高度现实感和时间连贯性的视频背景：
1. 数据准备：
  - 使用前景主体分割算法（如Mask R-CNN）从输入视频中获取前景主体的分割序列（S）和对应的掩膜（M）。
  - 引入一个条件帧（c），这是一个描述所需生成背景的图像，可以是背景图像或包含前景和背景的复合帧。
2. 特征编码：
  - 使用预训练的变分自编码器（VAE）将前景主体分割序列编码为潜在特征（ˆS）。
  - 将前景掩膜序列下采样并与潜在特征对齐，以匹配特征维度。
3. 扩散过程：
  - 在训练过程中，使用VAE编码器将原始视频帧编码为潜在表示（Z），然后在正向扩散过程中逐渐添加高斯噪声。
  - 在测试时，潜在表示（Z0）初始化为高斯噪声，并通过逆向扩散过程逐步去噪，以生成最终的视频帧。
4. 时间注意力机制：
  - 在去噪的U-Net中插入一系列运动模块，这些模块包含特征投影层和1D时间自注意力块，以实现时间上的连贯性。
  - 条件帧的特征（Fc）通过CLIP图像编码器提取，并注入到U-Net的交叉注意力层中，以确保生成的视频背景与条件帧保持一致。
5. 训练目标：
  - 使用简化的扩散目标进行训练，即预测添加的噪声。通过最小化预测噪声与真实噪声之间的差异来训练模型。
6. 数据增强和处理：
  - 在训练过程中，为了处理不完美的分割掩膜，应用随机矩形裁剪和图像腐蚀操作。
  - 在测试时，通过随机丢弃分割、掩膜或条件帧来实现无分类器的引导。
7. 模型训练：
  - 在大规模人类-场景交互视频数据集（HiC+）上进行训练，该数据集包含240万个视频。
  - 使用AdamW优化器，固定学习率为3e-5，冻结共享的VAE和CLIP编码器，微调U-Net。
8. 生成过程：
  - 在测试时，将前景主体序列和条件帧输入到训练好的模型中，模型将生成与前景主体运动相协调的视频背景。
ActAnywhere的应用场景
- 视频背景替换：ActAnywhere可以将视频中的前景主体放置到全新的背景中，这对于电影制作、广告、虚拟现实（VR）和增强现实（AR）等领域非常有用。例如，可以将演员置于虚构的场景中，或者在不实际拍摄的情况下模拟特定环境。
- 视觉效果增强：在视觉效果（VFX）制作中，ActAnywhere可以用来生成复杂的背景效果，如动态天气、光影变化、人群互动等，而无需实际拍摄这些元素。
- 创意内容制作：艺术家和内容创作者可以使用ActAnywhere来快速尝试和实现他们的创意想法，例如，将角色置于不同的历史时期或未来世界，或者与虚构的生物互动。
- 教育和培训：在教育领域，ActAnywhere可以用来创建模拟场景，帮助学生更好地理解复杂的概念或历史事件，或者用于安全培训，模拟紧急情况。
- 游戏和娱乐：游戏开发者可以利用ActAnywhere生成动态背景，为玩家提供更加丰富和真实的游戏体验。同时，它也可以用于电影预告片、音乐视频和其他娱乐内容的制作。
January 29, 2024
DemoFusion – 免费开源的图像分辨率超清增强框架
DemoFusion是什么

DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架，通过扩展现有的开源生成人工智能模型（如Stable Diffusion），使得这些模型能够在不进行额外训练和不产生过高内存需求的情况下，将模糊的低分辨率图像变得更加高清（放大4倍、16倍甚至更高分辨率）。DemoFusion采用渐进式增强、跳跃残差和扩张采样机制来实现更高分辨率的图像生成，对于资源有限的用户来说，达成类似于Magnific AI的解决方案。

DemoFusion的官网入口
- 官方项目主页：https://ruoyidu.github.io/demofusion/demofusion.html
- Arxiv研究论文：https://arxiv.org/abs/2311.16973
- GitHub代码库：https://github.com/PRIS-CV/DemoFusion
- Hugging Face运行地址：
  - Image to Image版本：https://huggingface.co/spaces/radames/Enhance-This-DemoFusion-SDXL
  - Text to Image版本：https://huggingface.co/spaces/fffiloni/DemoFusion
- Replicate运行地址：
  - Image to Image版本：https://replicate.com/lucataco/demofusion-enhance
  - Text to Image版本：https://replicate.com/lucataco/demofusion
- Google Colab运行地址：https://colab.research.google.com/github/camenduru/DemoFusion-colab/blob/main/DemoFusion_colab.ipynb
DemoFusion的功能特色
- 高分辨率图像生成：DemoFusion能够将预训练的GenAI模型（如SDXL）的图像生成能力扩展到更高的分辨率，例如从1024×1024像素提升到4096×4096像素或更高，而无需对模型进行额外的训练。
- 渐进式上采样：通过逐步增加图像分辨率的方式，DemoFusion允许用户在生成过程中逐步细化图像细节，同时保持图像的整体质量和语义一致性。
- 全局语义一致性：通过跳跃残差和扩张采样机制，DemoFusion能够在生成高分辨率图像时保持全局的语义一致性，避免局部区域的重复和结构扭曲。
- 快速迭代：由于渐进式上采样的特性，DemoFusion允许用户在生成过程中快速预览低分辨率的结果，从而在等待高分辨率图像生成完成之前，对图像的布局和风格进行快速迭代和调整。
- 无需额外硬件：DemoFusion能够在消费级的硬件（如RTX 3090 GPU）上运行，这意味着用户不需要昂贵的硬件投资就能生成高分辨率的图像。
- 易于集成：DemoFusion作为一个插件式的框架，可以轻松地与现有的AI生成模型集成，使得研究人员和开发者能够快速地将高分辨率图像生成能力应用到他们的项目中。
- 丰富的应用场景：DemoFusion不仅适用于艺术创作，还可以用于各种需要高分辨率图像的领域，如游戏开发、电影制作、虚拟现实等。
DemoFusion的工作原理

DemoFusion的工作原理基于几个关键步骤和机制，这些步骤共同作用以生成高分辨率的图像。以下是其主要的工作流程：
1. 初始化（Initialization）：
  - DemoFusion首先从一个低分辨率的图像开始，这个图像是通过一个预训练的潜在扩散模型（如SDXL）生成的。
2. 渐进式上采样（Progressive Upscaling）：
  - 从低分辨率图像开始，DemoFusion通过迭代过程逐步增加图像的分辨率。这个过程涉及到将当前分辨率的图像上采样到更高的分辨率，然后通过扩散过程引入噪声，最后通过去噪过程恢复图像。这个过程重复进行，每次都在更高的分辨率上进行，以逐渐增加图像的细节。
3. 跳跃残差（Skip Residual）：
  - 在去噪过程中，DemoFusion利用之前迭代步骤中的噪声反转表示作为跳跃残差。这有助于在生成过程中保持图像的全局结构，同时允许局部细节的优化。
4. 扩张采样（Dilated Sampling）：
  - 为了增强每个去噪路径的全局上下文，DemoFusion引入了扩张采样。这意味着在潜在空间中，通过扩张采样来获取全局表示，然后这些全局表示被用于指导局部去噪路径，以生成具有全局一致性的图像内容。
5. 局部和全局路径融合（Fusing Local and Global Paths）：
  - 在每个迭代步骤中，DemoFusion将局部去噪路径（通过扩张采样得到的局部潜在表示）和全局去噪路径（通过跳跃残差得到的全局潜在表示）结合起来，以生成最终的高分辨率图像。
6. 解码（Decoding）：
  - 最后，通过一个解码器将最终的潜在表示转换回图像空间，得到高分辨率的输出图像。
DemoFusion的这些步骤和机制共同作用，使得它能够在不进行额外训练的情况下，有效地生成具有丰富细节和良好全局一致性的高分辨率图像。

如何使用DemoFusion
1. 访问DemoFusion的Replicate或Hugging Face运行地址
2. 上传你要放大的图片或使用示例图片
3. 输入prompt提示词描述图片画面
4. 调节Seed值并设置Demofusion参数
5. 最后点击Run运行，等待图片高清放大
January 28, 2024
Freepik Pikaso – 实时AI绘图工具，将草绘转换为图像
Freepik Pikaso是什么

Freepik Pikaso是由创意和设计资源平台Freepik推出的一个实时AI绘画生成器，该工具借助人工智能技术，允许用户通过简单的手绘草图和描述性文字来实时生成艺术作品。用户可以在Pikaso中描绘自己的创意，然后AI会根据这些输入实时生成图像，将用户的初步想法转化为精美的艺术作品。

Freepik Pikaso的主要功能
- 实时AI绘画创作：用户可以在Pikaso中实时绘制或草图，AI会根据用户的输入即时生成艺术作品。
- 描述性艺术生成：用户可以通过描述场景、风格、颜色、光线等元素来指导AI创作，AI会根据这些描述生成相应的图像。
- 图标和元素库：提供了丰富的图标、形状和设计元素库，用户可以利用这些资源来丰富和完善自己的创作，即使没有绘画基础也能轻松创作。
- 摄像头和屏幕共享功能：Pikaso可以将用户的摄像头实时视频流或桌面上显示的任何内容（包括第三方图像或3D编辑器）转化为AI图像。
- 播放模式：用户可以将创作过程导出为视频，有助于展示和解释创意过程。
- 图像质量提升：提供图片变高清功能，即使是模糊的图像也能通过AI技术被“重新想象”成高清图像，最高可达4K分辨率。
如何使用Freepik Pikaso
1. 访问Freepik Pikaso的官网（freepik.com/ai/pikaso-ai-drawing），点击Try Pikaso now进行注册/登录
2. 清除画布中的内容，编写要生成的图像的描述和提示词
3. 搜索添加或者上传电脑中的图像或图标元素
4. 设置画笔颜色和笔触大小，然后开始绘画，还可以自定义背景
5. 可拖动Imagination滑块控制人工智能的想象散发程度
6. 右侧会根据实时绘画显示生成的图片
7. 生成后的图片可进行复制、下载或重新生成
Freepik Pikaso的产品价格
- 免费版：每天绘图有限次数，可以免费生成 20 张增强的高清绘图图像
- Premium高级版：144美元一年，每天绘图无限制，可以生成4000张增强的高清绘图图像。此外，还可以使用Freepik平台上的所有设计资源
Freepik Pikaso的适用人群
- 设计师：快速生成设计概念，提供灵感，或者作为创意过程中的一个辅助工具
- 艺术家和插画家：来探索新的艺术风格，或者将草图转化为完整的艺术作品
- 内容创作者：创建独特的视觉内容，增强和丰富作品的吸引力
- 营销和广告专业人士：高效制作广告素材、社交媒体图像或品牌视觉元素
- 非专业用户：低门槛快速上手，让没有专业设计背景的用户也能轻松创作出有趣的图像
January 27, 2024
Real-ESRGAN：腾讯推出的开源图像分辨率提升模型
Real-ESRGAN是什么

Real-ESRGAN（Real-World Blind Super-Resolution with Pure Synthetic Data）是由腾讯的ARC实验室推出的一个开源深度学习模型，专门用于处理和提升低分辨率图像到高分辨率图像的质量。这个模型的特点是能够在没有真实高分辨率图像作为参考的情况下，通过合成的退化过程来训练，从而模拟现实世界中的图像退化。这种方法被称为“盲超分辨率”（blind super-resolution），因为它不需要知道图像是如何从高分辨率退化到低分辨率的。

Real-ESRGAN的功能特色
- 图像质量提升：将低分辨率的图像转换为高分辨率的图像，同时保持或增强图像的细节和纹理，减少模糊和噪点。
- 去除伪影：在图像放大过程中，Real-ESRGAN能够识别并减少常见的图像伪影，如振铃（ringing）和过冲（overshoot）。
- 模拟真实世界退化：通过高阶退化模型，Real-ESRGAN能够模拟现实世界中的多种图像退化过程，如相机模糊、传感器噪声、锐化、JPEG压缩等。
- 无需真实高分辨率图像：Real-ESRGAN的训练不依赖于真实高分辨率图像，而是通过合成的退化过程来生成训练数据，这使得模型能够在没有真实高分辨率图像的情况下进行训练。
- 增强图像细节：在提升分辨率的同时，Real-ESRGAN能够增强图像中的局部细节，如纹理、边缘和轮廓，使得放大后的图像更加清晰和自然。
Real-ESRGAN的官方入口
- 官方GiHub项目库：https://github.com/xinntao/Real-ESRGAN
- 研究论文：https://arxiv.org/abs/2107.10833
- Replicate运行地址：https://replicate.com/xinntao/realesrgan
- Google Colab运行地址：https://colab.research.google.com/drive/1k2Zod6kSHEvraybHl50Lys0LerhyTMCo?usp=sharing
- Arc版Anime-6B：https://arc.tencent.com/zh/ai-demos/imgRestore
Real-ESRGAN的工作原理

Real-ESRGAN的工作原理基于深度学习和生成对抗网络（GAN）的框架，具体包括以下几个关键步骤：
1. 数据合成：由于Real-ESRGAN训练时不使用真实的高分辨率图像，它首先需要合成训练数据。这通过模拟现实世界中的图像退化过程来实现，包括模糊、下采样、噪声添加和JPEG压缩等。这些过程模拟了从高分辨率图像到低分辨率图像的退化路径。为了增加多样性，Real-ESRGAN采用了高阶退化模型，即通过多次重复这些退化过程来生成训练样本。
2. 模型架构：Real-ESRGAN使用了类似于ESRGAN的生成器网络，这是一个深度卷积神经网络（CNN），包含多个残差密集块（Residual-in-Residual Dense Blocks, RRDBs）。这个网络负责从低分辨率图像恢复出高分辨率图像。为了提高判别器的能力，Real-ESRGAN还采用了一个带有谱归一化（Spectral Normalization, SN）的U-Net判别器。
3. 训练过程：训练分为两个阶段。首先，使用L1损失函数训练一个以峰值信噪比（PSNR）为导向的模型（Real-ESRNet）。然后，这个模型被用作生成器的初始化，并结合L1损失、感知损失（基于VGG网络的特征图）和GAN损失（对抗损失）来训练Real-ESRGAN。这种结合损失的方法旨在在提升图像细节的同时，保持图像的真实感。
4. 谱归一化：为了稳定训练过程并提高判别器的性能，Real-ESRGAN在U-Net判别器中使用了谱归一化。这种技术有助于防止训练过程中的不稳定性和过拟合，同时能够提供更准确的梯度反馈，帮助生成器学习如何产生更逼真的图像。
5. 生成高分辨率图像：在训练完成后，Real-ESRGAN的生成器网络能够接收低分辨率图像作为输入，并输出相应的高分辨率图像。这个过程中，模型会尝试恢复图像的细节，同时减少由于退化过程引入的伪影。
6. 评估和优化：训练完成后，Real-ESRGAN的性能通过在多个真实世界数据集上的测试来评估。这包括使用非参考图像质量评估指标（如NIQE）和视觉比较。根据评估结果，可以对模型进行进一步的优化和调整。
Real-ESRGAN的应用场景
- 数字图像恢复：在数字媒体领域，Real-ESRGAN可以用来提升老照片、扫描文档、压缩图像等的质量，恢复丢失的细节。
- 视频增强：在视频制作和后期处理中，Real-ESRGAN可以用来提升视频的分辨率，使得在大屏幕上播放时图像更加清晰。
- 社交媒体内容处理：社交媒体平台上的图片和视频往往因为压缩而质量下降，Real-ESRGAN可以帮助用户恢复和提升这些内容的质量。
- 监控视频分析：在监控系统中，Real-ESRGAN可以用来提高监控摄像头捕获的图像分辨率，帮助更好地识别细节，这对于安全监控和事件分析至关重要。
- 医学图像处理：在医学领域，Real-ESRGAN可以用来增强医学扫描图像，如MRI、CT扫描等，帮助医生更清晰地观察和诊断。
January 26, 2024
DDColor – 阿里推出的AI图像上色框架，将黑白图片变彩色
DDColor是什么

DDColor是阿里达摩院的研究人员推出的一个开源的AI图像着色框架，可以一键将黑白图片上色变为全彩图像。该方法通过使用双解码器架构（像素解码器和颜色解码器）来实现对灰度图像的自动着色，使得生成的彩色图像更加逼真和生动，旨在解决传统图像着色方法中存在的多模态不确定性和高度不适定性问题。

DDColor的工作原理

DDColor的工作原理基于一个端到端的深度学习模型，它通过两个主要的解码器组件来实现图像的着色过程。以下是DDColor的核心工作流程：
1. 特征提取：首先，使用一个预训练的图像分类模型（如ConvNeXt）作为编码器，从输入的灰度图像中提取高级语义特征。这些特征包含了图像的结构、纹理和对象信息。
2. 像素解码器：编码器提取的特征被送入像素解码器，该解码器由一系列上采样层组成，逐步恢复图像的空间分辨率。每个上采样层都与编码器的对应层通过跳跃连接（shortcut connection）相连，以便在恢复空间结构的同时保留细节信息。
3. 颜色解码器：颜色解码器接收来自像素解码器的多尺度视觉特征，并生成颜色查询。这些颜色查询是学习得到的，用于表示图像中不同区域的颜色。颜色解码器通过交叉注意力机制将颜色查询与图像特征相匹配，从而生成与图像内容相匹配的颜色。
4. 交叉注意力与自注意力机制：在颜色解码器中，交叉注意力层用于建立颜色查询与图像特征之间的关联，而自注意力层则进一步细化这些颜色查询，使其更加精确地反映图像的语义内容。
5. 颜色丰富度损失：为了增强生成图像的颜色丰富度，DDColor引入了一个基于颜色平面标准差和均值的颜色丰富度损失函数。这个损失函数鼓励模型生成更加多彩和生动的图像。
6. 融合与输出：最后，像素解码器和颜色解码器的输出通过一个融合模块结合起来，生成最终的彩色图像。这个融合过程通过简单的点积操作实现，然后通过一个1×1卷积层生成最终的AB（色相和饱和度）通道。
7. 训练与优化：整个网络在训练过程中，通过最小化像素损失、感知损失、对抗损失和颜色丰富度损失来优化模型。这些损失函数共同作用，确保生成的图像在视觉上逼真，同时保持语义上的一致性。
DDColor的官方入口
- 官方GitHub项目：https://github.com/piddnad/DDColor
- ModelScope运行地址：https://www.modelscope.cn/models/iic/cv_ddcolor_image-colorization/summary
- Replicate运行地址：https://replicate.com/piddnad/ddcolor
如何使用DDColor
1. 访问DDColor的ModelScope魔搭社区或Replicate运行地址
2. 上传你的黑白图片或选择示例照片
3. 点击执行测试，等待图片上色即可
January 25, 2024
哄哄模拟器 – AI模拟各种吵架场景以哄好虚拟对象的应用
哄哄模拟器是什么

哄哄模拟器是一款创新的AI技术驱动的情感沟通辅助应用，基于 Moonshot 的 Kimi智能助手大模型，融合了语言处理技术和人际交往知识，致力于在各种生活和恋爱场景中提升用户的情商与沟通技巧，支持网页版和iOS APP使用。哄哄模拟器通过模拟不同的沟通场景，例如缓解恋人之间的误解、解决日常摩擦矛盾等，用户将在有限的互动次数内尝试说服哄好对方，挑战并提升个人的情感智慧和沟通能力。

哄哄模拟器的主要功能
- 模拟争执场景：用户可进入应用内设定的多样化场景，与AI扮演的角色进行深入互动，体验并学习处理争执的有效策略。
- 文字交流实训：通过文字聊天模式，用户可以与AI角色进行实时沟通，实践并提升自己的文字表达和应对能力。
- 情感状态模拟：应用能够精准模拟各类情感状态，让用户在模拟环境中更贴近真实的情感交流体验。
- 沉浸式音效：特别设计的音效加入，增强模拟场景的真实感，帮助用户更好地沉浸于模拟环境中。
- 恋爱交往文本分析：哄哄模拟器特设恋爱方向的文本分析能力，根据用户需求提供个性化的建议和指导。
- 场景角色定制：用户可根据个人需求自定义模拟场景和角色，实现更个性化、针对性的沟通训练。
哄哄模拟器的官网
- 网页版：https://hong.greatdk.com/
- iOS APP：https://apps.apple.com/by/app/哄哄模拟器/id6463638742
如何使用哄哄模拟器
1. 访问哄哄模拟器的官网（hong.greatdk.com），选择一个场景
2. 进入聊天界面，输入文字开始模拟哄你的虚拟男/女朋友
3. AI会根据你的聊天文字给出原谅值并记录聊天轮次
January 23, 2024
PixVerse – 免费高清的AI视频生成工具
PixVerse是什么

PixVerse是一个免费高质量的AI视频生成工具，用户只需通过简洁的文字描述，即可轻松创作出高清、逼真的视频作品。无论是二次元的动漫风格、写实细腻的现实主义风格，还是立体生动的3D视觉效果，PixVerse都能精准捕捉并实现用户提供的创意构思。

PixVerse的主要功能
- 文本提示生成视频：仅需输入创意描述，PixVerse便能将文字转化为动态影像
- 图片转换为动态视频：将用户提供的静态图片转化为连贯、流畅的视频内容
- 视频质量升级：内置Upscale功能，可轻松将视频提升至4K超高清分辨率（3840×2160），让细节更加丰富，画质更加细腻。
- 灵活的视频生成设置：支持视频风格（现实、卡通、3D动漫）、视频比例（16:9、9:16、1:1、4:3、3:4）等进行设置
- 支持指定角色生成视频：允许用户指定米哈游《原神》游戏里面的角色（如优菈、甘雨、胡桃、神里绫华等）生成相关角色动画视频
如何使用PixVerse生成视频

方法一：使用PixVerse在线版
1. 访问PixVerse的官网（pixverse.ai），点击Get Started in Web，然后登录注册
2. 登录成功后跳转到后台界面，点击Create，选择Text to Video，然后输入提示描述
3. 选择视频风格、视频画面比例、设定种子值
4. 最后点击Create进行创建，等待视频生成即可
方法二：使用PixVerse的Discord服务器
1. 加入PixVerse的Discord 社区：https://discord.gg/MXHErdJHMg
2. 选择并进入任意一个以#generate-room开头的视频生成频道
3. 输入并选择/create指令，然后输入视频提示词、风格、纵横比
4. 然后点击发送等待视频生成
PixVerse的适用人群
- 内容创作者和视频制作人员：为快速制作高质量视频内容的个人或团队提供了一个简便且高效的解决方案
- 广告和市场营销专业人士：创造吸引人的广告和营销视频，更有效地传达品牌信息，吸引潜在客户
- 教育工作者和学生：用于制作教学视频或学术演示，使复杂的概念以更易理解和吸引人的方式呈现。
- 动画和游戏设计师：激发创意灵感，创造风格独特的动画或游戏视觉效果
常见问题

PixVerse是免费的吗？

PixVerse支持免费体验，付费信息以官网为准。

PixVerse生成的视频可以商用吗？

PixVerse生成的视频可以免费用于商业用途。

PixVerse最高生成多少分辨率的视频？

借助PixVerse的Upscale功能，最高可以生成4K分辨率的视频。

PixVerse生成的视频时长为多少？

PixVerse目前默认生成的单个视频时长为4秒。
January 23, 2024
Leonardo.ai – 免费的AI绘画和图像生成工具和社区
Leonardo.ai 是一个领先的AI绘画和图像生成工具和平台，致力于通过先进的人工智能技术，为广大用户打造一个免费、创新、互动的视觉艺术社区。该平台利用人工智能模型（主要是Stable Diffusion及相关微调模型）帮助用户创造高质量视觉素材，将创意无限放大，让想象变为现实。

Leonardo.ai的主要功能
- 图像生成：支持文生图和图生图模式，可生成任意风格的绘画
- AI画布：将初步草图迅速转化为精美的画作，支持实时创作
- 3D纹理生成：为3D模型生成逼真的纹理，提升模型的真实感
- 实时图像生成：可根据用户实时输入的提示词进行图像生成
- 图像编辑：内置Canvas Editor，可编辑、优化、添加、删除、修改画面中的元素和样式
- 模型资源库：提供丰富的微调模型库，涵盖多种风格，满足不同创作需求
- 作品社区：发现和欣赏社区分享的精彩作品，并可以一键创作同款
- 图像到视频生成：最新Motion功能，可以让的静态图像动起来
- 训练定制模型：创建自己的专属数据集进行LoRA模型训练
如何使用Leonardo Ai生成图片
1. 访问Leonardo AI的官网，然后进行注册或登录
2. 登录成功后会自动跳转到后台创作界面，
3. 点击Create New Image按钮或选择Image Generation
4. 输入提示词，自行调整生成张数、图片分辨率、微调模型等设置
5. 然后点击Generate按钮生成即可
Leonardo.ai的产品价格
- Free免费版：每日提供免费150个token，1张图片消耗1个token
- Apprentice Standard版：12美元每月（年付折合10美元每月），每月可获得8500个token、支持最多5个待处理作业、私人生成、每月训练10个模型、最多保留10个模型
- Artisan Unlimited版：30美元每月（年付折合24美元每月），每月可获得25000个token，宽松条件下无限生成图像、最多10个待处理作业、私人生成、每月训练20个模型、最多保留20个模型
- Maestro Unlimited版：60美元每月（年付折合48美元每月），每月可获得60000个token，宽松条件下无限生成图像和视频、最多20个待处理作业、私人生成、每月训练50个模型、最多保留50个模型、3个并发生成
Leonardo.ai的适用人群
- 艺术家和插画师：将概念转化为独特的视觉艺术作品，并节省大量手工绘制草图
- 游戏开发者： 创建游戏资产，例如角色设计、场景和纹理
- 广告和营销专业人士： 用于快速生成广告素材、营销图像和社交媒体内容
- 影视制作人员： 用于概念艺术和视觉效果的初步设计，帮助影视制作人员形成视觉概念
常见问题

Leonardo.ai是免费的吗？

Leonardo.ai提供每日免费生成150张图片的额度。

Leonardo.ai基于什么模型？

Leonardo.ai主要基于Stable Diffusion和SD微调模型。

Leonardo.ai支持哪些平台？

Leonardo.ai支持在线网页版和移动端iOS、Android和iPad应用程序使用。
January 22, 2024
星火作家大神 – 科大讯飞推出的面向作家的AI写作工具
星火作家大神是什么

星火作家大神是由科大讯飞推出的面向作家的AI小说写作工具，基于讯飞星火认知大模型的AI能力，加上简洁而直观的操作界面，用户只需简单输入写作需求，星火作家大神便能快速打造出内容丰富、风格多样的小说或网络文学作品。无论是悬疑、爱情、奇幻、穿越，或是其他任何题材，星火作家大神均能以其独到的智能和创意，满足创作者的各类写作需求。

星火作家大神的主要功能
- 多种文体生成：支持生成长篇小说、短篇故事和短剧等，灵活适应不同的文学形式，为作家们提供更为全面的写作支持。
- 多元设定构建：从角色设定到世界观架构，星火作家大神能够灵活构建各种背景设定，为作品注入更为丰富的维度和深度。
- 创意灵感匹配：无论你正面临灵感枯竭还是思维碰壁，星火作家大神都能即时为你提供灵感火花，激发更多创作可能。
- 篇章内容生成：基于你的创作需求，星火作家大神能够高效生成连贯、生动的篇章内容，帮助你快速拓展故事脉络。
- 独立片段描绘：针对特定场景或情感细节，星火作家大神能够提供精准而生动的描写，增强文本的表现力和感染力。
- 加工润色续写：不仅能够生成原创内容，星火作家大神还能对现有文本进行深度加工和润色，提升文本的整体质量和连贯性。
如何使用星火作家大神
1. 访问星火作家大神的官网（https://zj.iflynote.com/），点击免费使用进行登录/注册
2. 登录成功后会跳转到后台创作界面，点击「新建书籍」，选择文体并输入作品名
3. 创建好该书籍后进入写作界面，选择你要使用的AI功能并输入相关描述，点击立即生成即可
January 22, 2024