Author: Chimy

Llama 3.2 – Meta推出的中小型视觉语言模型和轻量级文本模型
Llama 3.2是什么

Llama 3.2是Meta公司最新推出的开源AI大模型系列，包括小型和中型视觉语言模型（11B和90B参数）以及轻量级纯文本模型（1B和3B参数）。Llama 3.2模型专为边缘设备和移动设备设计，支持128K令牌的上下文长度，并针对高通和联发科硬件进行优化。Llama 3.2模型在图像理解和文本处理任务上具有高性能，并且通过torchtune进行定制化微调，使用torchchat部署到本地，推动了AI技术的开放性和可访问性。

Llama 3.2的主要功能
- 视觉和文本处理能力：支持图像推理用例，如文档理解、图像描述和视觉锚定任务。
- 轻量级模型：提供多语言文本生成和工具调用能力，适合在设备上运行，保护用户隐私。
- 高性能：在本地边缘运行的重写任务和摘要等方面处于同类产品的领先地位。
- 优化硬件支持：特别优化了在高通和联发科硬件上的使用。
- 定制化和部署：用torchtune进行定制化微调，用torchchat部署到本地。
Llama 3.2的技术原理
- 模型架构：
  - 适配器架构：支持图像输入，Llama 3.2用适配器架构，将预训练的图像编码器集成到预训练的语言模型中。
  - 交叉注意力层：适配器由一系列交叉注意力层组成，将图像编码器的表示输入到语言模型中，实现图像和文本的对齐。
- 训练流程：
  - 预训练：从预训练的Llama 3.1文本模型开始，添加图像适配器和编码器，在大规模的（图像，文本）对数据上进行预训练。
  - 领域内数据训练：在中等规模的高质量领域内数据上进行训练，提高模型在特定任务上的性能。
  - 知识增强训练：使用知识增强的（图像，文本）对数据进行训练，进一步提升模型的理解能力。
- 优化策略：
  - 剪枝：通过剪枝技术减小模型大小，同时保留模型性能。
  - 知识蒸馏：用较大的教师模型训练较小的学生模型，提高小模型的性能。
- 部署方法：
  - 本地部署：模型在本地设备上运行，提供即时响应并保护用户隐私。
  - Llama Stack分发：提供标准化的接口和工具，简化在不同环境中使用Llama模型的方式。
- 安全性：引入Llama Guard 3，过滤文本图像输入提示或文本输出响应，增强模型的安全性。
Llama 3.2的项目地址
- 项目官网：llama.com
- GitHub仓库：https://github.com/meta-llama/llama-models/tree/main/models/llama3_2
- HuggingFace模型库：https://huggingface.co/meta-llama
Llama 3.2的应用场景
- 移动设备上的智能助手：提供快速响应的语音和视觉交互。进行实时的语言翻译和图像识别。
- 增强现实（AR）：在AR应用中提供图像描述和视觉锚定，增强用户对现实世界的交互体验。
- 智能家居设备：用在家庭自动化，如智能音箱和安全摄像头，进行语音指令识别和图像分析。
- 健康监测：在移动设备上分析健康数据，如心电图（ECG）或血糖水平，并提供实时反馈。
- 教育工具：提供个性化学习体验，包括语言学习、课程内容总结和互动式教学。
- 客户服务自动化：在聊天机器人中使用，提供更自然和智能的客户支持。
September 26, 2024
14个免费的AI编程工具，智能自动编写和生成代码
在AIGC技术和工具井喷爆发的时代，对高效智能编程工具的需求和关注也达到前所未有的高度。本篇文章将介绍14款免费好用的AI编程助手工具，无论你是经验丰富的开发人员或刚开始踏上编程旅途，这些AI代码软件都可以帮助你提高项目开发中的生产力、创造力和准确性，快速高效地进行编程开发。
文章目录：
- Trae
- MarsCode
- 代码小浣熊
- 文心快码
- GitHub Copilot
- 通义灵码
- CodeWhisperer
- CodeGeeX
- Cody
- CodeFuse
- Project IDX
- Codeium
- CodiumAI
- AskCodi
Trae

Trae 是字节跳动推出的免费 AI IDE，通过 AI 技术提升开发效率。支持原生中文，集成了 Claude 3.7 和 GPT-4o 等主流 AI 模型（国内版为豆包大模型和DeepSeek模型），完全免费使用。Trae 的主要功能包括 Builder 模式和 Chat 模式，其中 Builder 模式可帮助开发者从零开始构建项目， Chat 模式支持对代码库或编程问题进行提问和优化。Trae 具备友好的交互设计，如代码预览、Webview 功能，以及强大的代码生成能力。

⌨️ 支持的编程语言

Trae支持Go、Python、C++、C、C#、Java、PHP、Rust、HTML、TypeScript、JavaScript、CSS、Less、swan、San、Vue、Stylus、Kotlin、Objective-C、Swift、Perl、Ruby、Shell、SQL、R、GraphQL、Dockerfile、RMarkdown等语言。

🛠️ 产品优势与特点

支持原生中文，集成了 Claude 3.7 和 GPT-4o 等主流 AI 模型（国内版为豆包大模型和DeepSeek模型），完全免费使用。

🤑 产品价格

Trae 目前是完全免费的，用户可通过官网下载安装即可使用。

MarsCode

MarsCode是字节跳动公司推出的免费AI编程辅助工具，不仅提供了一个由AI驱动的云端集成开发环境（IDE），还可以作为VS Code和JetBrains的智能编程插件使用。该工具通过AI助手实现代码补全、生成和优化，支持云函数的开发，并配备了API测试、存储和部署工具，能够自动创建JSON Schema。MarsCode插件支持多种主流编程语言和IDE，提供代码编辑、解释、注释生成、单元测试创建、错误修复等辅助功能，有效提升了编程效率和代码质量，覆盖了后端、前端、App开发等多种编程语言和框架。

⌨️ 支持的编程语言

MarsCode支持Go、Python、C++、C、C#、Java、PHP、Rust、HTML、TypeScript、JavaScript、CSS、Less、swan、San、Vue、Stylus、Kotlin、Objective-C、Swift、Perl、Ruby、Shell、SQL、R、GraphQL、Dockerfile、RMarkdown等语言。

🛠️ 兼容的编辑器和IDE

MarsCode兼容 Visual Studio Code、JetBrains IDEs 等主流编辑器和 IDE。

🤑 产品价格

MarsCode目前是完全免费的，用户可通过在线云端IDE和下载安装对应的插件扩展即可使用。

代码小浣熊

代码小浣熊Raccoon是商汤科技推出的免费AI编程助手，该工具由商汤科技自主研发的日日新大模型提供动力。不仅支持多种编程语言，还具备执行多种任务的能力，为开发者带来了前所未有的编程体验。代码小浣熊Raccoon集成了众多智能代码生成和辅助工具，覆盖了从软件需求分析、架构设计、代码编写到软件测试的整个开发周期。它能够满足程序员在代码编写、数据分析以及编程学习等多个方面的需求，为编程工作提供了全面的解决方案。

⌨️ 支持的编程语言

代码小浣熊支持Python、C#、C/C++、Java、Go、JavaScript、SQL等30多种主流编程语言

🛠️ 兼容的编辑器和IDE

代码小浣熊兼容Visual Studio Code、Android Studio和JetBrains旗下的系列IDE。

🤑 产品价格

代码小浣熊目前是完全免费的，用户只需前往IDE和编辑器下载对应的插件即可。

文心快码

文心快码是百度基于文心大模型推出的AI编程助手，通过智能化手段提升开发者的编程效率和代码质量。文心快码支持超过100种主流编程语言，能无缝集成到VS Code、IntelliJ IDEA等流行的IDE中，通过插件形式提供便捷使用。具备实时代码续写、注释生成代码、对话式代码生成、自动生成单元测试、自动注释、代码优化建议、代码解释以及技术问答等多项智能功能。不仅加快了编码速度，还通过智能分析帮助开发者优化代码结构，自动生成规范注释，简化了编程流程。文心快码针对不同用户群体提供了标准版、专业版和企业版三种定价方案，满足从个人开发者到企业研发部门的多样化需求。

⌨️ 支持的编程语言

文心快码支持超过100种主流编程语言，包括C/C++、Java、Python、Go、JavaScript、TypeScript等，覆盖了从系统编程到Web开发、移动应用开发等多个领域

🛠️ 兼容的编辑器和IDE

文心快码支持常用 IDE，VS Code、IntelliJ IDEA、GoLand、PyCharm、WebStorm、CLion、PhpStorm、Android Studio、Xcode、iCoding等IDE插件，一键安装，即装即用。

🤑 产品价格

文心快码目前是完全免费的，用户只需前往IDE和编辑器下载对应的插件即可。
GitHub Copilot

GitHub Copilot是由全球最大的程序员社区和代码托管平台 GitHub 联合 OpenAI 和微软 Azure 团队推出的 AI 编程助手，该工具基于 OpenAI Codex 大模型进行了改进并升级，累计已超过数百万个开发者和2万多个企业组织所使用。GitHub Copilot 支持和兼容多种语言和IDE，可为程序员快速提供代码建议，帮助开发者更快、更少地编写代码。

⌨️ 支持的编程语言

GitHub Copilot 支持 C、C++、C#、Go、Java、JavaScript、PHP、Python、Ruby、Scala 和 TypeScript。

🛠️ 兼容的编辑器和IDE

GitHub Copilot 支持和兼容 Visual Studio、NeoVim、VS Code、Azure Data Studio 和 JetBrains 旗下的系列 IDEs 和代码编辑器。

🤑 产品价格

对于经过验证的学生、教师或流行开源项目的维护人员，GitHub Copilot 可免费使用。普通用户的话，GitHub Copilot 提供免费 30 天的试用，免费试用结束后，需要付费订阅。对于个人来说，GitHub Copilot 每月10美元（年付的话一年100美元）。若订阅商业版，每个用户每月19美元。

通义灵码

通义灵码是阿里巴巴团队推出的一款基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力，并针对阿里云 SDK/API 的使用场景调优，为开发者带来高效、流畅的编码体验。

⌨️ 支持的编程语言

通义灵码支持 Java、Python、Go、C/C++、JavaScript、TypeScript、PHP、Ruby、Rust、Scala 等主流编程语言。

🛠️ 兼容的编辑器和IDE

通义灵码兼容 Visual Studio Code、JetBrains IDEs 等主流编辑器和 IDE。

🤑 产品价格

通义灵码目前是完全免费的，用户只需前往IDE下载对应的插件即可。

CodeWhisperer

CodeWhisperer是亚马逊 AWS 团队推出的 AI 编程软件，该代码生成器由机器学习技术驱动，可为开发人员实时提供代码建议。当用户编写代码时，CodeWhisperer 会根据现有的代码和注释自动生成建议，可供个人免费使用，生成无限次数的代码建议。

⌨️ 支持的编程语言

CodeWhisperer 支持 15 种编程语言，包括 Java、Python、JavaScript、TypeScript、C#、Go、PHP、Rust、Kotlin、SQL、Ruby、C++、C、Shell、Scala。

🛠️ 兼容的编辑器和IDE

CodeWhisperer 支持的代码编辑器或IDE包括Amazon Sagemaker Studio、JupyterLab、Visual Studio Code、JetBrains 旗下的IDEs、AWS Cloud9、AWS Lambda、AWS Glue Studio。

🤑 产品价格

对于个人开发人员可以免费使用 CodeWhisperer，支持不限次数地生成代码建议并免费使用引用跟踪器，且每月可免费进行 50 次代码扫描。对于企业组织来说，专业版本的价格是每人每月19美元，提供500次代码安全扫描。

CodeGeeX

CodeGeeX是智谱AI推出的开源的免费AI编程助手，该工具基于130亿参数的预训练大模型，可以快速生成代码，帮助开发者提升开发效率。CodeGeeX 支持多种IDE与编程语言，提供代码自动生成和补全、代码翻译、自动添加注释、智能问答等AI功能。

⌨️ 支持的编程语言

CodeGeeX 支持Python、Java、C++、C、C#、JavaScript、Go、PHP、TypeScript 等多种编程语言。

🛠️ 兼容的编辑器和IDE

CodeGeeX 支持的代码编辑器和IDE包括 Visual Studio Code、IntelliJ IDEA、PyCharm、WebStorm、HBuilderX、GoLand、Android Studio、PhpStorm。

🤑 产品价格

CodeGeeX 插件对个人用户完全免费，并且其代码模型已开源。

Cody

Cody是代码搜索平台Sourcegraph推出的一款AI代码编写助手，该工具借助Sourcegraph强大的代码语义索引和分析能力，可以了解开发者的整个代码库，不止是代码片段。Cody人工智能编程助手可以回答开发者的技术问题并直接在IDE中编写和补全代码，还可以使用代码图来保持上下文和准确性。

⌨️ 支持的编程语言

Cody 基于广泛的训练数据，理论上支持所有的编程语言，对于Python、Go、JavaScript 和 TypeScript的表现更好。

🛠️ 兼容的编辑器和IDE

Cody 目前支持 VS Code、Neovim 和 JetBrains 旗下的 IDE，并即将推出 Emacs 版。

🤑 产品价格

Cody 对于个人用户来说是永久免费的，若要使用企业版则需要联系他们的产品专家。

CodeFuse

CodeFuse是蚂蚁集团支付宝团队为国内开发者提供智能研发服务的免费AI代码助手，该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。CodeFuse 具备代码补全、添加注释、解释代码、生成单测，以及代码优化功能，以帮助开发者更快、更轻松地编写代码。

⌨️ 支持的编程语言

CodeFuse 支持 40 多种编程语言，包括 C++、Java、Python、JavaScript 等。

🛠️ 兼容的编辑器和IDE

支持在支付宝小程序云云端研发、Visual Studio Code，以及 JetBrains 旗下的8款IDE中使用。

🤑 产品价格

CodeFuse目前是完全免费的，用户只需申请体验，然后下载插件使用即可。

Project IDX

Project IDX是由谷歌推出的一款基于人工智能的云端全栈开发平台和代码编辑器，致力于提高程序员的应用程序开发效率。这个免费的AI编程工具内嵌了AI助手Gemini，能够自动生成代码，提供编码建议，帮助开发者理解并优化他们的代码。Project IDX支持多种编程语言和框架，包括Angular和React等，允许开发者根据需要定制开发环境或从GitHub导入现有的应用程序。

⌨️ 支持的编程语言

Project IDX支持多个编程语言和框架，包括但不限于Angular、React、Flutter、Go、Next.js、Python/Flask、Svelte等。

🛠️ 兼容的编辑器和IDE

Project IDX是一个云端IDE，用户需在线使用。

🤑 产品价格

Project IDX目前是完全免费的，用户只需访问其官网在线使用即可。

Codeium

Codeium是一个由 AI 驱动的编程助手工具，旨在通过提供代码建议、重构提示和代码解释来帮助软件开发人员，以提高编程效率和准确性。Codeium 与主流的开发环境集成，并支持多种编程语言，可以理解代码上下文，自动进行代码补全、错误检测，甚至生成样板代码，可以高效加快开发过程，并减少代码错误的可能性。

⌨️ 支持的编程语言

Codeium 支持70多种编程语言：如 C、C++、C#、 Java、JavaScript、Python、PHP等主流编程语言。

🛠️ 兼容的编辑器和IDE

Codeium 兼容40多个编辑器：支持 VSCode、JetBrains IDEs、Visual Studio、Eclipse等常用编辑器和集成开发环境。

🤑 产品价格

Codeium 的个人版是完全免费的，团队版每个用户每月12美元

CodiumAI

CodiumAI是一款AI代码测试和分析工具，可以智能分析开发者编写代码、文档字符串和注释，并且可以与人聊天互动，在编程时生成测试建议和提示。该工具智能创建全面的测试套件，包括自动生成单元测试、智能分析代码、代码修改建议、查找代码错误、自动添加文档字符串等，以便在软件发布前发现Bug或错误，确保软件的可靠性和准确性。

⌨️ 支持的编程语言

CodiumAI 支持几乎所有编程语言，不过，某些高级功能（例如单元测试运行和修复）仅支持 Python、JavaScript、TypeScript 和 Java。

🛠️ 兼容的编辑器和IDE

CodiumAI 目前支持 VS Code 和 JetBrains 旗下的 IntelliJ、WebStore、CLion、PyCharm 等IDE。

🤑 产品价格

CodiumAI 针对个人开发者是完全免费的，团队版每个用户每月19美元。

AskCodi

AskCodi是一个基于 OpenAI GPT 大模型技术的 AI 自动编程工具，可以帮助开发人员更快、更省力地编写代码。该AI编程工具提供了代码生成、单元测试创建、文档编写、代码转换等功能，并与主流的IDE扩展/插件无缝集成，帮助开发者提高生产力，减少手动编码的过程，专注于逻辑和更高层次的创造力上。

⌨️ 支持的编程语言

AskCodi 支持流行的编程语言和框架，包括如HTML、Python、JavaScript、Java、C++、React、Vue框架等。

🛠️ 兼容的编辑器和IDE

AskCodi 目前支持通过 Visual Studio Code、Sublime Text 和 JetBrains 旗下系列 IDEs 的扩展或插件使用。

🤑 产品价格
- Basic 免费版，每月提供50个积分，访问基本模型和AI聊天机器人（1积分约等于3000 token）
- Premium 高级版，每月9.99美元，每月提供500个积分，访问基本模型、GPT-3.5-Turbo、自动补全
- Ultimate 旗舰版，每月29.99美元，每月3000积分，访问基本模型、GPT-3.5-Turbo和GPT-4和所有功能
September 25, 2024
Cal AI – 扫描食物热量的APP，AI分析食物中蛋白、碳水和脂肪含量
Cal AI是什么

Cal AI是一款基于AI技术能扫描食物热量的APP，通过用户拍摄食物照片追踪卡路里和营养成分，帮助用户管理饮食和体重。Cal AI基于先进的图像识别技术，分析食物的蛋白质、碳水化合物和脂肪含量，并提供详细的营养信息。用户创建个性化的营养计划，根据生活方式和健康目标进行调整。Cal AI支持用户修正AI分析的结果，确保数据的准确性，并提供条形码扫描和手动输入等替代食物记录方法。Cal AI的便捷性和准确性使其成为健康意识用户的理想选择。

Cal AI的主要功能
- 拍照识别食物：用户拍摄食物照片，应用基于AI技术识别食物并估算营养成分。
- 营养分析：提供食物的卡路里、蛋白质、碳水化合物和脂肪等营养成分的详细分析。
- 个性化营养计划：根据用户的生活方式、健康目标和饮食偏好，创建个性化的饮食计划。
- 结果修正：用户审查AI分析的结果，并手动进行修正，提高准确性。
- 多种输入方式：除了拍照，用户通过条形码扫描、食品标签扫描或手动输入食物信息。
- 饮食记录：帮助用户记录饮食，便于跟踪饮食习惯和营养摄入。
Cal AI的产品官网
- 产品官网：calai.app
Cal AI的应用场景
- 体重管理：用户通过监测卡路里和营养摄入来减重或增重。
- 健康饮食：关注健康饮食的用户用来确保摄入均衡的营养。
- 健身规划：运动员和健身爱好者用Cal AI监控宏量营养素的摄入，支持他们的训练和健身目标。
- 饮食限制：有特定饮食需求或食物过敏的用户追踪食物选择，确保饮食安全。
- 糖尿病管理：糖尿病患者监测碳水化合物的摄入量，帮助管理血糖水平。
- 孕妇和哺乳妈妈：孕妇和哺乳妈妈需要特定的营养，Cal AI能确保营养的充足和均衡。
September 25, 2024
MMMLU – OpenAI推出的多语言大规模多任务语言理解数据集
MMMLU是什么

MMMLU（多语言大规模多任务语言理解）是OpenAI推出的一个开源数据集，为评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在广受欢迎的大规模多任务语言理解（MMLU）基准的基础上，数据集包含57个不同学科领域的任务，从基础数学到复杂的法律和物理问题，覆盖广泛的主题和难度级别。MMMLU的关键特点是支持多种语言，包括但不限于阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语等14种语言，能评估模型在资源丰富和资源匮乏的语言上的表现。通过专业翻译人员进行翻译，MMMLU能确保数据集的准确性和可靠性，对于评估AI模型在跨语言任务中的能力至关重要。

MMMLU的主要功能
- 多语言评估：MMMLU提供一个框架，用于评估AI模型在多种语言上的性能，包括资源丰富和资源匮乏的语言。
- 多任务能力测试：数据集包含多种任务类型，从基础常识到高级专业知识，测试模型在不同领域的应用能力。
- 跨文化理解：基于多语言测试，MMMLU能评估模型对不同文化背景下语言的理解和推理能力。
- 提升模型多样性：MMMLU包含多种语言和文化内容，推动模型开发注重多样性和包容性。
- 支持研究和开发：为研究人员和开发者提供一个标准化的测试基准，方便在全球范围内测试和比较模型性能。
MMMLU的技术原理
- 数据集构建：MMMLU基于MMLU数据集构建，涵盖57个不同类别的广泛主题。
- 专业翻译：专业人工翻译人员将测试集翻译成14种语言，确保评估的准确性和可靠性。
- 多语言支持：设计用于支持多种语言的评估，包括对资源匮乏语言的评估，提高AI模型的全球适用性。
- 评估工具开发：开发用于运行评估的代码和工具，工具公开访问，方便社区使用。
- 性能分析：基于MMMLU的测试结果，分析模型在不同语言和任务上的性能，识别模型的强项和弱点。
MMMLU的项目地址
- HuggingFace模型库：https://huggingface.co/datasets/openai/MMMLU
MMMLU的应用场景
- 语言模型评估：研究人员用MMMLU评估和比较不同语言模型在多语言和多任务环境下的性能。
- 机器翻译系统：开发者用MMMLU测试和改进机器翻译系统在不同语言对之间的翻译质量。
- 跨文化交流：MMMLU帮助开发理解和生成适应不同文化背景的文本的AI系统，促进跨文化交流。
- 教育技术：在教育领域，MMMLU用来开发多语言教学辅助工具，帮助学生学习不同语言和文化。
- 国际化业务：企业可以用MMMLU评估和优化AI系统，更好地服务于使用不同语言的国际客户。
September 25, 2024
PortraitGen – 中科大推出的AI人像视频编辑工具
PortraitGen是什么

PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制，将2D人像视频转换为4D高斯场，实现高质量的3D和时间一致性编辑。工具支持多模态编辑，包括文本驱动、图像驱动编辑以及重新照明，能快速、高效地对视频中的人物进行风格化、换衣、光照调整等操作。通过面部感知编辑和表达式相似性指导，PortraitGen确保编辑后的肖像自然且与原始视频帧保持一致性。

PortraitGen的主要功能
- 多模态人像编辑：支持文本驱动和图像驱动两种编辑模式，用户可以通过输入文字描述来指定人物的动作、表情以及场景的变化，或者用参考图像来实现风格转换或进行虚拟试穿等操作。
- 光照调节（Relighting）：基于IC-Light技术，基于文本描述动态调整视频中的光照效果，使光照与场景自然融合。
- 人脸感知编辑：通过面部感知编辑模块，确保在视频编辑过程中，保留人物的面部结构和个性化特征，优化人物的表情和面部动作的自然性和一致性。
- 风格转换与虚拟试穿：支持风格转换和虚拟试穿，用户可以通过参考图像实现全局风格的迁移（如转换为动画风格），或为视频中的人物添加虚拟服装等物品。
- 多镜头和复杂场景处理：能处理多镜头视频，保持风格、人物一致性，可以通过高斯纹理技术实现复杂风格的视频渲染，如乐高风格或像素艺术风格。
- 快速生成与高帧率输出：能在短时间内完成编辑，生成视频时支持高达100帧每秒（FPS）的渲染速度，适合用于高效视频制作场景。
PortraitGen的技术原理
- 3D高斯溅射（3DGS）：基于3D高斯表示场景，通过3D协方差矩阵定义每个高斯的中心点、方向和大小，及不透明度和颜色属性，实现动态3D场的构建。
- 神经高斯纹理机制：在SMPL-X模型的UV空间上维护一个3D高斯场，根据输入视频跟踪的底层网格变形来变形高斯，用UV映射和2D神经渲染器将特征图转换为RGB信号。
- 面部感知编辑模块：对头部区域进行两次编辑，增强面部结构感知，提高编辑质量。
- 表达式相似性指导：将渲染图像和输入源图像映射到EMOCA的潜在表达式空间，用损失函数确保表情的相似性。
- 多模态编辑技术：结合大规模2D生成模型的知识，实现文本驱动编辑、图像驱动编辑和重新照明。
PortraitGen的项目地址
- 项目官网：ustc3dv.github.io/PortraitGen
- GitHub仓库：https://github.com/USTC3DV/PortraitGen-code
- arXiv技术论文：https://arxiv.org/pdf/2409.13591
PortraitGen的应用场景
- 电影和影视制作：在电影、电视剧或短片制作中，创建或修改角色的外貌，实现特效化妆或风格化的场景转换。
- 艺术创作：艺术家和插画师用 PortraitGen 创作具有特定风格的人像艺术作品，如将肖像转换为像素艺术或油画风格。
- 广告和宣传：在广告行业中，根据品牌形象或产品特点，对人物肖像进行定制化编辑，吸引目标受众。
- 时尚行业：时尚设计师和零售商基于虚拟试穿功能，在虚拟环境中展示服装和配饰，为客户提供新的购物体验。
- 社交媒体和短视频：内容创作者和影响者用 PortraitGen 编辑自己的肖像视频，增加创意效果，提高内容的吸引力和互动性。
- 游戏开发：在游戏角色设计中，快速生成或编辑角色的外貌，提高游戏的个性化和丰富性。
September 25, 2024
豆包Seaweed – 字节跳动推出的AI视频生成模型，基于Transformer结构
豆包Seaweed是什么

豆包Seaweed是字节跳动推出的AI视频生成模型，支持文生视频和图生视频两种模式。基于Transformer结构，利用时空压缩技术进行训练，原生支持多分辨率输出，适配不同屏幕比例。豆包Seaweed默认生成720p、24fps、5秒视频，可延长至20-30秒。豆包Seaweed模型生成的视频逼真度高，细节丰富，动态流畅，色彩光影专业。广泛应用于电商、文旅、教育、影视等领域，大幅降低视频制作门槛，提升内容创作效率。

豆包Seaweed的主要功能
- 多模态输入：支持从文本或图像生成视频，满足多样化创作需求。
- 基于Transformer的结构：利用先进的Transformer模型结构，确保视频生成的质量和效率。
- 时空压缩潜空间训练：通过时空压缩的潜在空间进行训练，提高模型对视频内容的理解能力。
- 多分辨率生成：原生支持多种分辨率的视频生成，适配不同播放需求。
- 高清图像适配与保真：根据用户输入的高清图像分辨率进行适配，保证视频输出的清晰度。
- 高质量视频输出：默认输出为720p分辨率、24fps、时长5秒，可动态延长至20-30秒。
- 高逼真度：生成的视频具有极高的逼真度和细腻丰富的细节层次。
- 专业级视觉美感：具备专业级的色彩调和和光影布局，提升画面的视觉审美。
- 流畅的动态表现：视频动态流畅自然，符合真实物理运动机制。
如何使用豆包Seaweed

方法一：即梦AI官网体验
- 访问即梦AI官网：使用电脑访问即梦AI官网，完成注册账号并登录。
- 找到AI视频生成：在即梦首页找到 AI视频 – 视频生成，点击进入即可使用AI视频生成功能。
- 体验AI视频生成：即梦AI支持文生视频、图生视频、对口型三个功能，底层模型均为豆包大模型。输入文字描述或者本地上传图片，能快速转换为视频内容。
- 免费额度与产品定价：即梦AI的产品定价策略包括免费版和付费会员制。免费版用户每天可以获得60积分，用于体验平台的基础功能。基础会员：价格为79元/月，标准会员：价格为239元/月，高级会员：价格为649元/月。
方法二：豆包大模型官网体验
- 访问火山引擎官网：使用电脑访问豆包大模型官网，完成注册账号并登录。
- 找到豆包视频生成模型：点击立即体验，找到豆包视频生成模型 PixelDance 和 Seaweed 。
- 体验豆包视频生成模型：
  - 如果是个人：直接访问“Doubao-视频生成-Seaweed”，每周10次免费体验（2024年10月31日截止）。
  - 如果是企业：需要提交申请表单，说明使用场景申请API对接（暂未对外开放）。
豆包Seaweed的应用场景
- 电商营销：创造吸引人的产品介绍视频，提高在线销售转化率。
- 城市文旅宣传：制作引人入胜的城市旅游宣传片，提升城市品牌影响力。
- 动画教育：生成教育动画视频，学习内容更加直观和有趣。
- 短剧制作：快速制作短剧视频，满足数字媒体平台的快节奏内容需求。
- 社交媒体内容：为社交媒体平台定制短视频，增加用户参与度和分享率。
- 企业宣传视频：制作企业宣传片，有效传达企业文化和价值主张。
- 广告制作：设计创意广告视频，增强品牌记忆点和市场竞争力。
- 音乐视频(MV)：创作与音乐情感相匹配的MV，提升音乐作品的观赏性。
September 24, 2024
豆包PixelDance – 字节跳动推出的AI视频生成大模型，基于DiT结构
豆包PixelDance是什么

豆包PixelDance是字节跳动最新推出的AI视频生成模型，采用DiT结构，支持文生视频和图生视频。它能理解复杂指令，生成长达10秒的连贯视频片段，涵盖多主体交互和时序性动作。豆包PixelDance模型具备卓越的语义理解力和丰富的运镜效果，能一键生成具有故事性的多镜头短片。豆包PixelDance支持多种风格和视频比例，适用于影视、广告、短视频等多种场景，极大简化视频创作流程。

豆包PixelDance的主要功能
- 复杂指令理解：豆包PixelDance能理解并执行复杂的文本提示，生成与描述相匹配的视频内容。
- 时序性动作生成：支持生成具有连贯动作的视频，包括多主体间的交互和复杂动作序列。
- 多镜头语言能力：具备丰富的运镜技巧，如环绕、缩放、平移等，提供接近专业摄像的视觉效果。
- 一键短片生成：能够根据单一文本提示生成具有起承转合的完整故事短片。
- 多风格支持：支持多种艺术风格，包括3D动画、2D动画、国画、黑白、水彩、水粉等。
- 多比例适配：兼容多种视频比例，如1:1、3:4、4:3、16:9、9:16、21:9，适应不同播放设备。
- 高效DiT融合计算单元：优化的计算单元让视频动作更自然，表情更丰富，细节更精细。
- 扩散模型训练方法：创新的训练方法提升了模型生成故事性视频的能力。
- 一致性保持：在多镜头切换中保持主体、风格和氛围的一致性。
- 泛化能力：深度优化的Transformer结构提升了模型的泛化能力，使其能够适应各种不同的视频生成任务。
如何使用豆包PixelDance

方法一：即梦AI官网体验
- 访问即梦AI官网：使用电脑访问即梦AI官网，完成注册账号并登录。
- 找到AI视频生成：在即梦首页找到 AI视频 – 视频生成，点击进入即可使用AI视频生成功能。
- 体验AI视频生成：即梦AI支持文生视频、图生视频、对口型三个功能，底层模型均为豆包大模型。输入文字描述或者本地上传图片，能快速转换为视频内容。
- 免费额度与产品定价：即梦AI的产品定价策略包括免费版和付费会员制。免费版用户每天可以获得60积分，用于体验平台的基础功能。基础会员：价格为79元/月，标准会员：价格为239元/月，高级会员：价格为649元/月。
方法二：豆包大模型官网体验
- 访问火山引擎官网：使用电脑访问豆包大模型官网，完成注册账号并登录。
- 找到豆包视频生成模型：点击立即体验，找到豆包视频生成模型 PixelDance 和 Seaweed 。
- 体验豆包视频生成模型：
  - 如果是个人：直接访问“Doubao-视频生成-Seaweed”，每周10次免费体验（2024年10月31日截止）。
  - 如果是企业：需要提交申请表单，说明使用场景申请API对接（暂未对外开放）。
豆包PixelDance的应用场景
- 影视制作：使用PixelDance快速生成电影预告片和动态故事板，提升前期制作效率。
- 广告传媒：创造吸引人的广告内容，通过精准的视频营销提高品牌影响力。
- 短视频内容创作：生成适合社交媒体传播的短视频，增加用户互动和参与度。
- 直播行业：提供动态背景和视觉效果，丰富直播观看体验。
- 电商：制作高质量的产品介绍视频，提高在线购物的转化率。
- 动画制作：辅助动画师快速迭代创意，加速动画内容的制作流程。
September 24, 2024
GOT-OCR2.0 – 开源的端到端OCR模型，多语言多模态识别，多样化输入输出
GOT-OCR2.0是什么

GOT-OCR 2.0是一种先进的光学字符识别（OCR）模型，推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成，能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多种光学字符。GOT-OCR 2.0支持多种语言，尤其是中文和英文，能输出多种格式化结果，如Markdown和LaTeX。模型具备交互式OCR功能，包括区域级识别和动态分辨率策略、多页OCR技术，适用于高分辨率图像和批量文档处理。GOT-OCR 2.0具有580M参数，模型尺寸为1.43GB，提供精准、高效的OCR解决方案。

GOT-OCR2.0的主要功能
- 多语言和多模态识别：支持多种语言的文本识别，包括中文和英文，及手写体和印刷体。
- 多样化输入输出：能处理照片、文档、切片等多种输入格式，支持纯文本、Markdown、TikZ、SMILES、Kern等输出格式。
- 长文本处理：解码器支持长达8K的token，适用于处理学术论文、法律文件等长文本资料。
- 交互式OCR功能：通过坐标或颜色引导的区域级识别，提供更灵活的用户体验。
- 动态分辨率策略：适应超高分辨率图像，如大幅海报或拼接PDF页面，保持识别准确性。
- 多页OCR技术：批量处理多页文档，提高长篇PDF文件或多图片文档的处理效率。
GOT-OCR2.0的技术原理
- 编码器-解码器架构：
  - 编码器：负责将输入的图像压缩成一系列的图像token，token捕捉图像中的视觉信息。
  - 解码器：接收编码器输出的图像token，转换为文本输出。解码器支持长上下文，能处理长文本。
- 高压缩率编码器：编码器将1024×1024像素的图像压缩成256×1024尺寸的图像token，有助于处理高分辨率图像。
- 长上下文解码器：解码器支持长达8K的token序列，能处理包含大量文本的长文档。
- 多阶段训练策略：
  - 预训练阶段：编码器在大量文本数据上进行预训练，学习文本的视觉表示。
  - 联合训练阶段：编码器与新的解码器一起训练，适应更广泛的OCR任务。
  - 后训练阶段：对解码器进行进一步训练，支持细粒度OCR、动态分辨率和多页OCR等高级功能。
GOT-OCR2.0的项目地址
- GitHub仓库：https://github.com/Ucas-HaoranWei/GOT-OCR2.0
- HuggingFace模型库：https://huggingface.co/stepfun-ai/GOT-OCR2_0
- arXiv技术论文：https://arxiv.org/pdf/2409.01704
GOT-OCR2.0的应用场景
- 文档数字化：纸质文档（如书籍、手稿、法律文件、学术论文等）转换为电子格式，便于存储、检索和编辑。
- 场景文本识别：在自然场景中识别和提取文本，如街道标志、广告牌、菜单等。
- 票据处理：自动识别和提取发票、收据、账单上的文本信息，简化财务和会计流程。
- 身份验证和安全：在需要验证个人身份的场景中，如银行业务、机场安检等，识别护照、身份证或驾驶执照上的信息。
- 物流和运输：自动识别包裹上的条形码和地址信息，提高物流分拣和配送的效率。
- 医疗记录管理：识别和数字化医生的手写处方、病历记录和其他医疗文档。
September 24, 2024
onewebot2 – 微信AI机器人一键运行包，双击exe直接使用
onewebot2是什么

oneWebot2是一款微信AI机器人一键运行软件包，用户下载exe文件后，双击即可启动，无需复杂的Python环境配置。有图形化界面，简化配置流程，非技术用户轻松设置和运行微信机器人。oneWebot2支持与coze API集成，支持用户扩展机器人功能，如自动回复和消息管理。软件适合需要在微信上实现自动化服务的用户，个人、企业能通过oneWebot2创建智能助手。

onewebot2的主要功能
- 图形化界面：提供一个直观的图形化界面，用户通过简单的操作配置和运行微信机器人。
- coze API集成：支持与coze API的集成，方便用户基于coze平台的功能扩展机器人的能力。
- 一键运行：软件被打包为exe文件，用户下载后直接使用，无需复杂的环境配置。
- Windows支持：在Windows 11上进行测试，确保在操作系统上的稳定性。
onewebot2的技术原理
- 基于 dify-on-wechat 二次开发：基于已有的微信机器人框架进行开发。
- Python 环境独立：打包为 exe 文件，用户无需单独配置 Python 环境。
- coze 平台支持：通过 coze.cn 注册并获取 botid 和 token 使用。
- 开源项目：代码开源，用户能自定义和扩展功能。
onewebot2的项目地址
- GitHub仓库：https://github.com/ImGoodBai/onewebot2
如何使用onewebot2
- 下载一键包：可以从GitHub的发布页面下载。
- 解压下载的zip包：双击运行app-ui.exe。
- 输入Botid：在输入框中填入coze平台的botid和token，这些信息需要用户提前在coze.cn注册并配置后获取。
- 使用微信扫描登录：手机微信顶部会显示“Web微信已登录”字样，表明配置完成。
onewebot2的应用场景
- 个人助理：oneWebot2 作为个人助理，帮助用户管理日常任务，如日程提醒、天气查询、新闻摘要等。
- 企业客服：在企业环境中，oneWebot2 作为客服机器人，自动回答用户咨询，提供即时的客户支持，减轻客服人员的工作负担。
- 智能群管理：oneWebot2 集成到微信群中，帮助管理群聊，自动回复常见问题，维护群秩序。
- 教育辅助：作为教育辅助工具，帮助解答学生的问题，提供学习资料和辅导。
- 娱乐互动：oneWebot2 用于娱乐场景，如聊天机器人，提供幽默的对话和互动游戏。
- 信息查询：用户通过 oneWebot2 查询各种信息，如股票价格、航班信息、酒店预订等
September 24, 2024
SFR-RAG – 专注于上下文理解和检索增强生成的语言模型
SFR-RAG是什么

SFR-RAG是由Salesforce AI Research推出的一款大型语言模型，专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解，在检索增强生成领域进行优化。SFR-RAG包含90亿参数，规模相对较小，但在特定任务中的表现超越更大型的同类产品，如Command-R+ (104B)、GPT-4o等。SFR-RAG能有效处理信息不足或矛盾的上下文场景，执行复杂的多跳推理，可靠地生成引用。SFR-RAG集成函数调用功能，能与外部工具动态交互，检索高质量的上下文信息。

SFR-RAG的主要功能
- 上下文理解：理解和分析提供的上下文信息，生成准确和相关的文本。
- 检索增强生成：结合外部信息源，通过检索相关文档增强生成文本的事实准确性。
- 幻觉最小化：设计用来减少生成与现实不符或完全捏造的信息。
- 多跳推理：执行复杂的推理任务，通过综合多个上下文信息来推断答案。
- 可靠引用：在生成文本时提供准确的来源引用。
- 函数调用：集成函数调用功能，与外部工具交互以检索高质量的上下文信息。
SFR-RAG的技术原理
- 指令调整：SFR-RAG通过指令调整（instruction-tuning）进行训练，强调上下文生成和幻觉最小化。
- 聊天模板：引入新的聊天模板，包括“Thought”（思考）和“Observation”（观察）角色，改进模型的内部推理和外部信息检索。
- 检索器集成：与知识检索器协同工作，从大量文档中检索与用户查询最相关的信息。
- 多模态学习：通过多模态学习，模型能处理和理解来自不同来源的信息。
- 偏好学习：用偏好学习（preference learning）技术微调模型，以便更好地模仿人类对信息的评估和选择。
SFR-RAG的项目地址
- 项目官网：blog.salesforceairesearch.com/sfr-rag
- GitHub仓库：https://github.com/SalesforceAIResearch/SFR-RAG
- arXiv技术论文：https://arxiv.org/pdf/2409.09916
SFR-RAG的应用场景
- 客户服务：作为聊天机器人，提供基于上下文的准确回答，提高客户满意度。
- 知识问答：在问答系统（如TriviaQA、HotpotQA）中，提供基于复杂上下文的详细回答。
- 内容创作：辅助撰写文章、报告或营销材料，确保内容的准确性和相关性。
- 教育辅导：作为教学辅助工具，提供个性化的学习建议和答案解析。
- 市场研究：分析市场数据和趋势，生成基于最新信息的报告。
- 法律咨询：提供基于法律文档和案例的咨询，帮助解读法律条文。
- 医疗咨询：辅助医生和患者理解复杂的医疗信息，提供基于最新研究的建议。
September 24, 2024