Author: Chimy

Tora – 阿里推出的AI视频生成框架
Tora是什么

Tora是阿里推出的AI视频生成框架，基于轨迹导向的扩散变换器（DiT）技术，将文本、视觉和轨迹条件融合，生成高质量且符合物理世界动态的视频内容。Tora由轨迹提取器、时空DiT和运动引导融合器组成，能够精确控制视频的动态表现，支持长达204帧、720p分辨率的视频制作。Tora在运动保真度和模拟现实世界物理动态方面表现出色，为视频生成领域提供了一个强大的新工具。

Tora的主要功能

简单来说，Tora能够根据你给的指令（比如文字描述、图片或者物体移动的路线），制作出既真实又流畅的视频。
- 轨迹提取器（Trajectory Extractor, TE）：将输入的轨迹转换成层次化的时空运动块，这些运动块与视频内容的潜在空间相匹配。
- 时空扩散变换器（Spatial-Temporal DiT）：结合空间和时间的自注意力机制，处理视频数据，使模型能够理解和生成具有连贯运动的视频。
- 运动引导融合器（Motion-guidance Fuser, MGF）：负责将轨迹提取器生成的时空运动块整合到DiT模型中，确保生成的视频内容遵循预定的轨迹和动态。
Tora的技术原理
- 轨迹理解：Tora使用一个叫做“轨迹提取器”的工具，它能够理解给定的轨迹信息。就像是给Tora一张地图，告诉它视频中的物体应该在哪里以及如何移动。
- 时空编码：Tora将这些轨迹信息转换成一种特殊的编码形式，称为“时空运动块”。这些运动块就像是视频的骨架，决定了视频中物体的运动方式。
- 视频生成框架：Tora采用了一种叫做“扩散变换器”（DiT）的先进技术。技术结合了扩散模型和变换器架构的优点，让Tora能够生成高质量的视频。
- 动态融合：Tora还有一个“运动引导融合器”，作用是将前面得到的时空运动块与视频内容结合起来。Tora就可以确保生成的视频不仅画面好看，而且物体的运动也非常自然和流畅。
- 两阶段训练：为了让Tora更好地理解和生成运动，通过一个两阶段的训练过程来学习。学习如何从密集的光流（一种描述物体运动的密集数据）中提取运动信息。学习如何根据用户提供的更简单的轨迹信息来生成视频。
- 数据预处理：在训练之前，Tora还需要对视频数据进行一些处理，比如根据场景检测将长视频分割成短片段，然后根据美学评分和运动分割结果选择适合训练的视频片段。
Tora的项目地址
- 项目官网：https://ali-videoai.github.io/tora_video/
- GitHub仓库：https://github.com/ali-videoai/Tora
- arXiv技术论文：https://arxiv.org/pdf/2407.21705
Tora的应用场景
- 影视制作：Tora可以用于生成电影、电视剧或短片中的特效场景，通过轨迹控制生成复杂的动态画面，减少实际拍摄成本和时间。
- 动画创作：在动画领域，Tora可以根据脚本自动生成动画序列，为动画师提供初步的动态草图，加速创作过程。
- 虚拟现实（VR）和增强现实（AR）：Tora可以生成与用户互动的动态环境，为VR和AR应用提供逼真的视觉效果。
- 游戏开发：在电子游戏中，Tora可以用来快速生成游戏环境和角色动画，提高游戏设计的效率。
August 3, 2024
Stable Fast 3D – Stability AI推出的AI新模型，0.5秒将图片转为3D
Stable Fast 3D是什么

Stable Fast 3D（SF3D）是Stability AI推出的一种创新3D网格重建技术，能在0.5秒内从单张图片生成高质量的3D模型。Stable Fast 3D采用先进的Transformer网络，结合快速UV展开和材质属性预测，有效减少了光照效果对模型的影响，并提高了细节捕捉能力。Stable Fast 3D不仅速度快，还保证了3D资产在不同光照条件下的可用性，适用于游戏、电影、电子商务和虚拟现实等多个领域。

Stable Fast 3D的主要功能
- 超快速度：想象一下，你拍一张照片，眨眼的功夫，3D模型就做好了。
- 自动上色：Stable Fast 3D不仅能做出模型的形状，还能自动给模型上色，就像照片上的颜色一样。
- 光照调整：有时候照片上因为光线的原因看起来颜色会不一样，SF3D能智能地调整，让3D模型看起来更自然。
- 细节捕捉：即使是照片上很小的细节，SF3D也能捕捉到，并在3D模型上呈现出来。
- 材质感知：Stable Fast 3D还能猜出模型表面的材质，比如是光滑的还是粗糙的，让3D模型看起来更真实。
- 使用方便：做好的3D模型文件不大，用起来很方便，可以放在游戏里、电影里，或者用来展示商品。
Stable Fast 3D的技术原理
- 图像理解：Stable Fast 3D首先需要理解输入的照片。就像你看一张照片知道上面是什么一样，Stable Fast 3D分析照片中的物体形状和表面特征。
- 生成3D：SF3D使用一种特殊的网络（Transformer网络），将照片中的物体转换成3D空间中的表示。这就像是把平面的图画变成立体的模型。
- UV展开：在3D建模中，UV展开是一种技术，可以把3D模型的表面“摊平”，变成2D平面，这样更容易添加颜色和纹理。SF3D使用快速的UV展开技术，让这个过程更快完成。
- 材质和光照：Stable Fast 3D不仅能生成3D形状，还能预测物体表面应该是什么样的材质，比如是金属的、塑料的还是木头的。Stable Fast 3D还能估计照片上的光照条件，确保3D模型在不同光照下看起来都真实。
- 去除光照效果：有时候照片上的光照会影响3D模型的材质看起来不真实。SF3D有一个步骤是专门用来去除这些不需要的光照效果，让模型在任何光照下都好看。
- 网格细化：生成3D网格后，SF3D还会进一步细化这个网格，会更加平滑，减少粗糙的边缘或不自然的阶梯状效果。
- 高效渲染：SF3D使用高效的渲染技术来生成最终的3D模型，模型在任何3D软件或游戏中都能快速渲染出来。
- 输出3D模型：所有这些步骤完成后，Stable Fast 3D输出一个完整的3D模型，模型包含了形状、纹理和材质信息，准备好用于各种3D应用。
Stable Fast 3D的项目地址
- 项目官网：https://stable-fast-3d.github.io/
- 在线Demo：https://huggingface.co/spaces/stabilityai/stable-fast-3d
- GitHub仓库：https://github.com/Stability-AI/stable-fast-3d
- arXiv技术论文：https://arxiv.org/abs/2408.00653
- YouTube视频：https://youtu.be/uT96UCBSBko
Stable Fast 3D的应用场景
- 游戏开发：快速生成游戏内所需的3D资产，如角色、道具或环境元素。
- 电影和视频制作：用于创建电影中的特效元素或动画中的3D对象，提高制作效率。
- 电子商务：为在线商店生成产品的3D视图，提供更加丰富的商品展示。
- 增强现实（AR）和虚拟现实（VR）：创建AR/VR体验中的3D模型，提升沉浸感。
- 3D打印：从图片快速生成3D模型，用于3D打印各种物品。
- 教育和培训：在教育领域，快速生成复杂的3D结构，帮助学生更好地理解。
- 建筑和室内设计：快速生成建筑元素或室内装饰的3D模型，辅助设计和展示。
- 医疗和科学可视化：生成人体器官或科学概念的3D模型，用于研究和教育。
- 广告和营销：快速制作吸引人的3D广告素材，提升广告效果。
August 3, 2024
FLUX.1 – Stable Diffusion创始团队推出的开源AI图像生成模型
FLUX.1是什么

FLUX.1是由Stable Diffusion创始团队推出的开源AI图像生成模型，拥有12B参数，是迄今为止最大的文生图模型。包含三种变体：顶级性能的FLUX.1 [pro]、开源非商业用途的FLUX.1 [dev] 和快速高效的FLUX.1 [schnell]。FLUX.1以卓越的图像质量、高度逼真的人体解剖学表现和先进的提示词遵循能力脱颖而出，为AI图像生成设定了新的行业标准。

FLUX.1的功能特色
- 大规模参数：拥有12B（120亿）参数，是迄今为止最大的开源文本到图像模型之一。
- 多模态架构：基于多模态和并行扩散Transformer块的混合架构，提供强大的图像生成能力。
- 高性能变体：提供三种不同性能和用途的模型变体，包括专业版（FLUX.1 [pro]）、开发版（FLUX.1 [dev]）和快速版（FLUX.1 [schnell]）。
- 图像质量：在视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性等方面超越了其他流行的模型。
- 开源和可访问性：部分模型变体如FLUX.1 [dev]和FLUX.1 [schnell]是开源的，易于研究和非商业应用。
- 技术创新：引入了流匹配训练方法、旋转位置嵌入和并行注意力层，提高了模型性能和硬件效率。
FLUX.1的技术原理
- 多模态架构：FLUX.1采用了多模态架构，这意味着模型能够同时处理和理解多种类型的数据，如文本和图像，从而更好地捕捉不同数据间的关联性。
- 并行扩散Transformer块：模型利用并行扩散Transformer结构，这是一种先进的神经网络组件，能够高效地处理序列数据，增强模型对信息的编码和解码能力。
- 流匹配训练方法：FLUX.1通过流匹配方法改进了传统的扩散模型。这种方法是一种通用的训练生成模型的技术，能够简化训练过程并提高模型的生成质量。
- 旋转位置嵌入：模型引入了旋转位置嵌入技术，这是一种特殊的编码方式，可以增强模型对图像中不同位置特征的识别能力，从而提升图像的细节表现。
- 并行注意力层：通过并行注意力机制，模型能够同时关注输入序列中的多个部分，这有助于捕捉长距离依赖关系并提高生成图像的准确性。
FLUX.1的项目地址
- 项目官网：https://blackforestlabs.ai/#get-flux
- 在线Demo：
- GitHub仓库：https://github.com/black-forest-labs/flux
- HuggingFace模型库：https://huggingface.co/black-forest-labs/FLUX.1-schnell
如何使用FLUX.1
- 选择合适的模型变体：
  - FLUX.1 [pro]：适合需要顶级性能的商业应用，需要通过API访问。
  - FLUX.1 [dev]：适用于非商业用途，是一个开源的、经过指导蒸馏的模型，可以在HuggingFace上获取。
  - FLUX.1 [schnell]：适合本地开发和个人使用，是最快的模型，同样在HuggingFace上可以获取。
- 设置环境：如果是本地部署，需要设置Python环境并安装必要的依赖库。
- 安装FLUX.1：可以通过Git克隆官方GitHub仓库到本地环境，并按照指南安装所需的Python包。
- 使用API：对于FLUX.1 [pro]，需要注册并获取API密钥来访问模型。
- 编写代码：根据官方文档或示例代码，编写脚本来与模型交互，生成图像。
- 生成图像：使用模型提供的接口，输入文本提示（prompt），模型将根据文本生成图像。
下面是一个简单的使用示例，假设您已经设置了环境并安装了必要的依赖：
```
# 克隆FLUX.1 GitHub仓库
git clone https://github.com/black-forest-labs/flux

# 进入仓库目录
cd flux

# 创建并激活Python虚拟环境
python3.10 -m venv .venv
source .venv/bin/activate

# 安装依赖
pip install -e '.[all]'

# 根据需要设置环境变量，例如指定模型权重路径
export FLUX_SCHNELL=path_to_flux_schnell_sft_file

# 使用提供的脚本进行图像生成
python -m flux --name 'FLUX.1 [schnell]' --loop
```
FLUX.1的应用场景
- 媒体和娱乐：在电影、游戏和动画制作中，FLUX.1可用来创建逼真的背景、角色和场景。
- 艺术创作与设计：使用FLUX.1生成高质量的图像，辅助艺术家和设计师快速实现创意构想。
- 广告和营销：生成吸引人的广告图像和营销材料，以提高宣传效果。
- 教育和研究：在学术研究中，FLUX.1可作为工具来探索图像生成的新技术和理论。
- 内容创作：为社交媒体、博客和在线内容创作提供独特的图像，增加内容的吸引力。
August 2, 2024
Poe AI新功能「Previews」 – 实时预览 AI 生成的 Web 应用
Poe AI是什么

Poe AI 是由问答社区 Quora 推出的一款集成了多个 AI 聊天机器人的平台。用户可以在一个统一的界面上与多个不同的 AI 聊天机器人进行互动，从而获得多样化的信息和解决方案。Poe AI 集合了目前一些最强大的 AI 聊天工具，例如 ChatGPT、GPT-4、Claude 等，每个机器人都有其独特的能力和专长。

Poe AI新功能「Previews」是什么

Poe 新功能「Previews」允许用户实时预览 AI 生成的 Web 应用。与 AI 对话，用户可快速创建并体验原型，如游戏、编辑器等。功能支持交互体验，简化编程和设计过程，提高开发效率。

例1：做一个解压小游戏，类似俄罗斯方块。一阵闪电般的代码编写后，居然能在预览框里直接玩游戏了！

例2：做一个适合小学生的涂鸦小程序，添加一些简单的图形素材供小朋友选择；添加一些互动游戏环节。

眼瞅着，小游戏越来越丰富！

核心功能特点：
- 实时预览：用户在与 AI 聊天机器人对话时，可以实时看到生成的代码片段、网页设计、游戏等内容的预览效果。
- 交互体验：用户不仅可以查看预览，还可直接与这些应用程序进行交互，例如玩游戏、编辑文本、制作梗图等。
- 快速原型开发：即使是编程零基础的用户，也可通过与 AI 的对话快速生成应用程序原型，大大加快了开发速度。
- 多样化应用：「Previews」功能支持多种类型的应用程序，包括但不限于游戏、文本编辑器、数据分析工具等。
- 无缝切换：用户可与多个 AI 聊天机器人进行对话，并且可以无缝切换，获取不同的解决方案或优化现有应用。
- AI 编码支持：Poe 集成了擅长编码的 AI 聊天机器人，如 Claude-3.5-Sonnet、GPT-4、Gemini 1.5 Pro，可以帮助用户生成高质量的代码。
Poe AI官网地址

Poe AI官网：poe.com ，支持Web、移动端（安卓、苹果）、客户端（Windows、Mac）多种平台。

Poe AI新功能「Previews」的应用场景
- 编程辅助：帮助开发者快速生成代码片段，实时预览编程结果，加速开发过程。
- 网页设计：允许设计师与 AI 交流，实时生成和调整网页布局、样式和用户界面元素。
- 游戏开发：通过 AI 快速构思和原型化游戏，实时预览游戏玩法和设计。
- 教育工具：创建交互式教育应用程序，如数学解题器、语言学习工具等，提供实时反馈。
- 数据可视化：设计数据图表和可视化工具，帮助用户理解复杂数据集。
August 1, 2024
JoyCoder – 京东推出的AI编程助手
JoyCoder是什么

JoyCoder是京东推出的AI编程助手，专为提升研发效率设计。通过代码预测续写、智能问答等功能，帮助开发者快速编写代码，解决技术难题。支持多模型切换，适配JetBrains、VSCode等IDE，提供沉浸式编码体验。JoyCoder还集成了本地行云DevOps能力，实现一键部署和代码评审，支持Java、Python等多种编程语言。

JoyCoder的功能特色
- 代码预测生成：自动理解上下文代码，为用户生成行级或函数级代码，提高编码速度。
- 注释生成代码：根据注释内容自动生成代码，简化编程流程。
- 一键生成单元测试：支持JUnit、Mockito等框架，快速创建单元测试代码。
- 一键生成接口文档：利用AI分析上下文，自动汇总生成技术文档。
- 本地行云DevOps能力融合：支持本地代码评审、一键部署等DevOps功能。
- 研发智能问答：基于海量文档进行问答训练，提供在线搜索和私域知识库搜索，解答研发问题。
JoyCoder的技术原理
- AI算法：JoyCoder利用机器学习算法、自然语言处理（NLP）和深度学习技术，来理解编程语言的结构和语义。
- 代码上下文理解：通过分析当前代码的上下文，包括变量、函数调用、类结构等，JoyCoder能够预测接下来的代码逻辑。
- 模型训练：使用大量的代码数据进行训练，JoyCoder的模型能够学习到不同编程语言的编码风格和模式。
- 多模型支持：JoyCoder支持多种代码模型，模型可以针对不同的编程场景和需求进行优化。
- 智能问答系统：集成了基于知识图谱的问答系统，能够理解研发人员的问题并提供准确的答案。
- 集成开发环境（IDE）集成：JoyCoder与多种IDE集成，能够在用户现有的开发环境中无缝工作。
- DevOps集成：JoyCoder与DevOps工具链集成，支持持续集成和持续部署（CI/CD），提高开发流程的自动化程度。
- 用户自定义和反馈学习：允许用户根据自己的需求调整模型参数，系统会根据用户的使用情况和反馈进行学习和优化。
- 代码规范性提升：JoyCoder在京东内部经过大量使用和优化，能提升代码的规范性和减少编程错误。
JoyCoder的使用地址
- 项目官网：https://www.jdcloud.com/cn/products/joycoder
JoyCoder的适用人群
- 软件开发者：需要快速编写代码、生成单元测试和接口文档的软件开发人员。
- 研发团队：在团队协作中，JoyCoder可以帮助团队成员解决技术问题，提高整体的编码效率。
- 编程新手：对于初学者来说，JoyCoder可以提供代码示例和指导，帮助他们更快地学习和掌握编程技能。
- 技术顾问和架构师：在设计系统架构或进行技术选型时，可以使用JoyCoder来快速验证想法。
- 教育工作者和学生：在教学或学习编程的过程中，JoyCoder可以作为辅助工具，提供编程示例和自动生成代码。
August 1, 2024
Diffree – OpenGVLab推出的AI贴图框架
Diffree是什么

Diffree是由OpenGVLab推出的AI贴图框架，能根据用户的文字描述，在图片中自动找到合适的位置添加新对象。通过智能掩码预测，无需手动绘制，即可确定新对象的形状和位置。Diffree在添加过程中，注重保持与原始图像的背景一致性，包括光线、色调和颜色，确保新对象看起来自然融入。使用高质量数据集OABench进行训练，以学习如何在图像中无缝添加新元素。这项技术在室内装饰设计等领域具有广泛的应用潜力。

Diffree的功能特色
- 文本到图像的编辑：用户通过输入文字描述，Diffree能够在图像中识别并添加相应的对象。
- 自动掩码预测：Diffree能够自动预测并确定新添加对象的位置和形状，无需用户手动绘制掩码。
- 无缝融合：新添加的对象与原始图像的背景在光线、色调、颜色等方面保持一致，实现自然融合。
- 背景信息保留：在添加新对象的过程中，Diffree会保留原始图像的背景信息，确保新旧元素之间的和谐。
- 高质量图像输出：通过逐步生成和细化，Diffree输出的图像质量高，新添加的对象看起来像是原本就在图像中。
Diffree的技术原理
- 文字描述输入：用户向系统提供文字描述，明确指出他们想要在图像中添加的对象，例如“添加一只猫”。
- 掩码预测：Diffree使用先进的算法来预测新对象应该出现的位置以及它的大致形状。过程相当于在图像上创建一个虚拟的轮廓，指导AI理解对象应该放置在哪里。
- 逐步生成：Diffree不是简单地将对象“贴”在图像上，而是逐步构建新图像。过程类似于拼图，AI会一块一块地构建新图像，同时确保每一块都与原始图像的背景融合。
- 背景保留：在生成新对象的同时，Diffree非常注重保留原始图像的背景信息。包括光线、阴影和纹理等，确保新对象能够无缝地融入到图像中。
- 多阶段细化：Diffree可能采用多阶段细化的过程，逐步优化新对象与背景的融合，提高最终图像的真实感。
- 高质量数据集训练：Diffree使用了OABench的高质量数据集进行训练，数据集包含了大量的真实世界图像对，帮助AI学习如何在保持背景一致性的情况下添加新对象。
Diffree的项目地址
- 项目官网：https://opengvlab.github.io/Diffree/
- GitHub仓库：https://github.com/OpenGVLab/Diffree
- Hugging Face模型库：https://huggingface.co/spaces/LiruiZhao/Dif_free
- arXiv技术论文：https://arxiv.org/pdf/2407.16982
Diffree的应用场景
室内设计：用户可以向空房间的照片添加家具、装饰品等，快速预览室内设计效果。

电子商务：在线零售商可以使用Diffree在产品图片中添加或替换产品，展示不同颜色、款式或配件。

游戏开发：游戏设计师可以在游戏场景中快速添加或修改元素，提高开发效率。

电影和视频制作：后期制作团队可以利用Diffree添加或修改场景中的元素，节省特效制作成本。

广告创意：广告设计师可以轻松地在广告图像中尝试不同的产品摆放或背景，以寻找最佳视觉效果。
July 31, 2024
Get笔记 – 得到推出的免费AI语音转文字小程序
Get笔记是什么

Get笔记是得到推出的免费AI实时语音转文字小程序。具备高准确率的语音识别技术，帮助用户将语音快速转换为文本，提供文本润色功能，优化笔记内容。用户界面简洁，易于上手，支持录音和文字保存，以及时间轴展示，方便管理和回顾。适用于工作记录、学习笔记和个人备忘等多种场景，提高记录效率，随时随地捕捉灵感。目前完全免费，无使用次数限制，是提升生产力的得力助手。

Get笔记的功能特色
- 实时语音转写：用户通过录音功能说出想法，AI技术能够即时将语音转换成文字，方便快速记录信息。
- 文本智能润色：转换得到的文字将由AI进行智能润色，提高文本的流畅性和可读性，同时去除口语中的冗余词汇如“嗯”、“然后”等。
- 自动标题生成：根据用户的录音内容，AI能够智能生成合适的标题，帮助用户快速把握笔记核心。
- 录音与文本保存：用户可以保存录音文件和转写后的文本，便于日后的回顾和使用。
如何使用Get笔记
- 打开小程序：在微信中搜索“Get笔记小程序”。
- 开始录音：进入小程序后，点击录音按钮开始录制你的语音。
- 实时转写：说话的同时，AI会实时将你的语音转换成文字，并显示在屏幕上。
- 查看和编辑内容：录音结束后，可以查看AI转写的文字。支持手动编辑这些文字。
- 文本润色：使用文本润色功能，AI将帮助你优化文本，文本内容更加流畅和专业。
- 保存笔记：完成编辑后，保存录音和转写的文字。可以在小程序中随时回顾和使用这些笔记。
Get笔记的应用场景
- 会议记录：在工作会议中，使用Get笔记快速记录讨论要点和决策事项，节省会后整理的时间。
- 学习笔记：学生可以在课堂上使用它来记录教师的讲解，或者在自学时记录重要概念和思考。
- 采访记录：记者或研究人员在进行采访时，利用Get笔记记录访谈内容，确保信息的准确和完整性。
- 灵感捕捉：对于创意工作者，如作家、设计师等，Get笔记可以帮助他们随时随地记录灵感和创意。
- 语言学习：语言学习者可以用Get笔记练习发音并记录语言练习，转写的文本可以帮助学习者检查和改进。
July 31, 2024
MindSearch – 上海人工智能实验室推出的AI搜索框架
MindSearch是什么

MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架，结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型，MindSearch能在3分钟内从300多个网页中搜集有效信息，完成通常需要人类3小时的任务。采用多智能体框架模拟人类思维，先规划后搜索，提高了信息的准确性和完整性。项目已全栈开源，用户可以免费体验和本地部署。

MindSearch的主要功能
- 复杂查询处理：将复杂的用户查询分解为多个更小的、可管理的子问题，以便更精确地搜索相关信息。
- 动态图构建：通过构建有向无环图（DAG），模拟人类解决问题时的思维过程，逐步细化问题并探索解决方案。
- 并行信息检索：基于多代理架构，实现多个子问题的并行搜索，提高信息检索的速度和效率。
- 分层检索策略：WebSearcher采用从粗到细的检索策略，先广泛搜集信息，再选择最有价值的页面进行深入阅读和信息提取。
- 上下文管理：在多代理系统中有效管理上下文信息，确保在信息检索和整合过程中保持信息的连贯性和完整性。
- 响应生成：综合检索到的信息，生成准确、全面且深入的响应，以回答原始的复杂查询。
- 性能提升：在封闭集和开放集问答任务中，通过上述功能显著提高回答的质量，包括深度和广度。
- 人类偏好：生成的响应更符合人类的偏好，相比于其他AI搜索引擎，MindSearch提供的解答更受人类评估者的青睐。
MindSearch的技术原理
- WebPlanner：作为高级规划器，负责将用户查询分解为多个子问题，并通过动态图构建过程（有向无环图，DAG）来模拟多步骤信息寻求的心智模型。
- WebSearcher：执行分层信息检索，根据WebPlanner分配的子问题，从互联网上检索并汇总有价值的信息。
- 多代理协作：WebPlanner和WebSearcher作为独立的代理，分别处理问题分解和信息检索任务，实现任务的并行处理和信息的有效整合。
- 动态图构建：通过代码生成和执行，动态构建问题解决的逻辑图，使LLM能够逐步细化问题并检索相关信息。
- 上下文管理：在多代理之间进行有效的上下文状态转移，确保在信息检索和整合过程中不丢失关键信息。
MindSearch的项目地址
- 项目官网：https://mindsearch.netlify.app/
- 在线Demo：https://mindsearch.openxlab.org.cn/
- GitHub仓库：https://github.com/InternLM/mindsearch
- arXiv技术论文：https://arxiv.org/abs/2407.20183
MindSearch的应用场景
- 学术研究：研究人员可以用MindSearch快速搜集和整理大量文献资料，以支持他们的研究工作。
- 市场分析：企业可以用MindSearch搜集市场数据，分析竞争对手信息，以及监控行业趋势。
- 新闻报道：新闻工作者可以用MindSearch来搜集新闻事件的背景信息，快速撰写报道。
- 法律研究：法律专业人士可用MindSearch搜集相关法律条文、案例和判例，以辅助法律分析和案件准备。
- 技术支持：技术支持团队可以用MindSearch快速找到解决技术问题的方法和步骤。
July 31, 2024
GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型
GPT-4o Long Output模型是什么

GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型，支持高达64k tokens的长文本输出，相当于约200页小说。相较于原GPT-4o模型，输出能力提升16倍，但输入上限降至64k tokens，满足用户对更长文本处理的需求。该模型定价为每百万输入tokens 6美元，输出tokens 18美元。GPT-4o Long Output模型为测试模型，测试时间会维持数周，名为GPT-4o-64k-Output-Alpha 。

GPT-4o Long Output模型的核心特点
- 超长输出能力：支持高达64k tokens的输出，是原模型的16倍，能够生成更长、更复杂的文本内容。
- 输入与输出权衡：用户最大可输入上限为64k tokens，以获得最大64k tokens的输出，需在输入和输出长度间做出选择。
- 高成本定价：每百万输入tokens定价6美元，每百万输出tokens定价18美元，反映了长输出的计算成本。
- 探索新用例：OpenAI希望通过此模型帮助用户探索更多创新的应用场景，如长剧本创作等。
- 最大上下文限制：尽管输出能力增强，但最大上下文长度保持与GPT-4o相同，为128k tokens。
GPT-4o Long Output模型的应用场景
- 长篇内容创作：生成长篇故事、小说、剧本等，为电影、电视剧或视频游戏提供创意素材。
- 学术论文撰写：辅助研究人员撰写详细的研究报告和学术论文，整合大量数据和文献。
- 技术文档编写：帮助软件开发者和工程师编写技术手册、API文档、软件指南等。
- 市场分析报告：为商业分析师提供长篇市场分析、趋势预测和商业策略建议。
- 教育材料开发：辅助教育工作者创建课程内容、教学计划和学习材料。
July 31, 2024
CrushOn AI – AI 角色扮演聊天应用
CrushOn AI 是什么

CrushOn AI 是 Peekaboo Game Limited 推出的 AI 角色扮演聊天应用，允许用户与 AI 生成的角色进行深入对话和角色扮演。自 2023 年 9 月发布后，用户量激增，尤其受到年轻男性群体的欢迎。以开放的 NSFW 内容和高用户粘性著称，CrushOn AI 提供免费和付费服务，但同时也存在隐私政策和成本问题。

CrushOn AI 的功能特色
1. 角色创建与定制：用户可以创建和自定义自己的原创角色，包括性格特征、外观和背景故事。
2. 多样化角色库：提供多种预设角色，涵盖动漫、电影、电视剧、原创角色、奇幻科幻以及历史人物等类型。
3. AI聊天模型：应用内集成了多个AI语言模型，以提供详细且上下文适宜的聊天回应。
4. 角色扮演场景：用户可以与AI角色进行各种角色扮演场景的互动，支持分支对话和回应的重新生成。
5. 无限制内容访问：CrushOn AI 允许用户自由探索包括 NSFW（成人内容）在内的各种主题，不设内容过滤器。
如何使用 CrushOn AI
- CrushOn AI 官网：crushon.ai
- Apple Store应用商店：https://apps.apple.com/us/app/crushon-ai-ai-friend-chat/id6461416660
CrushOn AI 怎么收费

CrushOn AI 的收费模式包括免费和多种付费订阅计划。
- 免费用户每月可以发送有限数量的消息，例如50条消息，并且这些消息在7天不活动后会被删除。
- 免费用户还可以创建自定义角色、访问社区角色，但共享聊天容量在高峰时段可能不可用。
付费订阅计划则提供了更多的消息容量和高级功能。
- 标准版每月5.99美元，提供2000条消息和具有基本优先级的专用聊天功能；
- 高级版每月14.99美元，提供6000条消息和良好的记忆力；
- 豪华版每月49.99美元，提供无限消息和最大内存，以及其他高级功能，如调整内存大小和AI消息长度等。
July 31, 2024