Author: Chimy

堆友相机 – 堆友AI推出的AI写真照片制作工具

Written by Chimy on September 6, 2025. Posted in AI工具.

堆友相机是什么

堆友相机是阿里旗下堆友AI中的AI写真照片生成工具，基于AI技术为用户提供个人写真照制作服务。堆友相机支持一键生成数字人分身，用户可以创建属于自己的数字人分身，生成多种风格的写真照片。使用堆友相机创建分身即送12张写真，用户可以免费体验会员模式，生图版权零压力，海量灵感一键生成。用户可以通过输入关键词或描述，让AI生成符合要求的图像，支持多种绘画风格，如写实、卡通、抽象、国风等，满足不同用户的需求。用户可以根据自己的需求调整生成图像的风格、细节等参数，实现个性化定制。

堆友相机

堆友相机的主要功能

创建数字人分身：用户可以创建属于自己的数字人分身，打造个性化AI相机。
生成多种风格写真：提供多种主题和风格，如商务正装、赛博朋克、港风等，满足不同场景需求。
免费体验会员模式：新用户注册登录后可免费体验会员模式，生图版权无压力。
海量灵感一键生成：自动试图推词，零门槛复刻优质作品，为用户提供丰富灵感。

如何使用堆友相机

注册登录：访问堆友相机官网：d.design/toolbox/camera ，点击右上角头像注册，首次注册会获得50堆豆。
创建数字人分身：在堆友相机中，选择创建数字人分身，按照提示上传照片或选择预设模型，完成分身创建。
选择主题和风格：堆友相机提供40+主题和多种风格供选择，如商务正装、赛博朋克、港风等，选择适合的风格和主题。
生成写真照片：选择好主题和风格后，点击生成写真照片，堆友相机会根据选择生成高质量的写真照片。
调整和保存：生成照片后，可以对照片进行进一步调整，如清晰度、色彩饱和度等，调整满意后保存或下载。

堆友相机的应用场景

电商营销：可用于生成电商产品展示图、模特图等，帮助商家提升产品展示效果，吸引更多顾客。
图片处理：提供自由扩图、高清放大等功能，方便用户对图片进行处理和优化。
创意设计：支持创意融合、AI艺术字等功能，为设计师提供灵感和创作素材，助力创意设计。
文案创作：结合AI助手功能，为文案创作提供灵感和辅助，提高文案创作效率。
个人创作：用户可以创建数字人分身，生成个性化的写真照片，满足个人创作和分享的需求。

Claudable – 基于Next.js的开源Web应用构建器

Written by Chimy on September 6, 2025. Posted in AI工具, AI项目和框架.

Claudable是什么

Claudable是基于Next.js的开源Web应用构建器，结合了Claude Code和Cursor CLI的先进AI代理能力，以及Lovable简单直观的应用构建体验。用户只需用自然语言描述想要构建的内容，Claudable能生成生产就绪的Next.js代码，支持即时预览和热重载，无需复杂的设置即可开始构建。支持一键部署到Vercel，自动设置版本控制和持续部署，连接生产就绪的PostgreSQL数据库。

Claudable

Claudable的主要功能

自然语言转代码：用户通过自然语言描述需求，Claudable即可生成对应的Next.js代码。
即时预览与热重载：在AI构建应用过程中，用户能立即看到更改效果，支持代码的热重载。
零设置快速启动：无需复杂的沙盒、API密钥或数据库配置，用户可迅速开始应用构建。
美观的用户界面：利用Tailwind CSS和shadcn/ui为应用生成美观的UI界面。
一键部署到Vercel：无需额外配置，可将应用推送到Vercel并获得实时URL。
GitHub集成：自动为应用设置版本控制和持续部署功能。
连接Supabase数据库：能连接生产就绪的PostgreSQL数据库，并提供身份验证功能。
自动错误检测与修复：自动检测应用中的错误并进行修复，保障应用的稳定运行。

Claudable的项目地址

Github仓库：https://github.com/opactorai/Claudable

如何使用Claudable

前期准备：
- 安装 Node.js 18+、Python 3.10+（可选）、Git。
- 安装并登录 Claude Code 或 Cursor CLI。
快速启动：
- 克隆代码仓库：git clone https://github.com/opactorai/Claudable.git。
- 进入项目目录：cd Claudable。
- 安装依赖：npm install。
- 启动开发服务器：npm run dev。
构建与部署：
- 在 Claude Code 中描述你的应用，例如：“a Pomodoro timer with Slack notifications”。
- 观察终端生成代码，浏览器自动刷新显示应用。
- 使用 npm run deploy 将应用部署到 Vercel，并获得一个实时 URL。

Claudable的应用场景

个人开发者快速构建项目：帮助个人开发者快速搭建个人网站、工具应用等，无需复杂配置和大量代码编写，节省时间和精力。
小型团队开发产品原型：小型团队可以快速迭代功能，快速开发产品原型，进行功能测试和用户反馈收集，加速产品开发周期。
教育机构教学辅助：作为教学工具，让初学者快速上手Web开发，通过自然语言描述生成代码的方式，帮助学生理解开发流程和逻辑。
企业快速开发内部工具：企业内部可以快速开发一些小型的管理工具、数据可视化工具等，提高工作效率，满足特定业务需求。
创意人员快速实现想法：设计师、创意人员等非专业开发人员可以快速将创意转化为实际可运行的Web应用，进行展示和验证。

Qwen3-Max-Preview – 阿里通义推出的最新旗舰模型

Written by Chimy on September 6, 2025. Posted in AI工具, AI项目和框架.

Qwen3-Max-Preview是什么

Qwen3-Max-Preview 是阿里巴巴旗下通义千问团队发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型，参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进，支持超过 100 种语言，中英文理解能力出色。在数学推理、编程和科学推理等任务中表现出色，能更可靠地遵循复杂指令，减少幻觉，生成更高质量的响应。用户可以通过 Qwen Chat 网页免费体验，也可以通过阿里云百炼平台的 API 进行调用。

Qwen3-Max-Preview

Qwen3-Max-Preview的主要功能

强大的语言理解与生成能力：支持超过100种语言，中英文理解能力出色，能生成高质量的文本内容，满足用户在写作、对话等多种场景下的需求。
卓越的推理与指令执行能力：在数学、编程、逻辑和科学推理等任务中表现出色，能更准确地理解和执行复杂指令，减少错误和幻觉。
长文本处理能力：支持256,000 tokens的上下文窗口，能处理长篇幅的文档和复杂的文本内容，适用于长文档分析和生成。
多场景应用支持：适用于问答、写作、对话、编程辅助等多种场景，为用户提供多样化的解决方案。
优化的翻译与常识推理能力：在翻译和常识推理方面进行了优化，更准确地进行跨语言交流和常识判断。
企业级部署与API调用：支持通过阿里云百炼平台的API进行企业级部署，满足不同用户的需求，提供灵活的使用方式。

Qwen3-Max-Preview的技术原理

大规模参数训练：采用超过1万亿参数的模型架构，通过海量数据进行训练，提升模型对各种语言和知识的理解与生成能力。
非推理模型架构：基于非推理模型设计，专注于语言理解和生成任务，避免了推理模型可能出现的复杂性和不确定性。
多语言支持：通过多语言训练数据和优化算法，支持超过100种语言，增强模型在不同语言环境下的适应性和准确性。
上下文窗口扩展：支持256,000 tokens的上下文窗口，能处理更长的文本内容，提升对长文档的理解和生成能力。
优化的指令跟随：通过特定的训练方法和数据增强技术，提升模型对复杂指令的理解和执行能力，减少错误和幻觉。
翻译与常识推理优化：在翻译和常识推理方面进行了针对性优化，提升模型在跨语言交流和常识判断中的表现。
检索增强生成（RAG）优化：针对检索增强生成任务进行了优化，提升模型在结合外部信息进行生成时的效果和准确性。

如何使用Qwen3-Max-Preview

Qwen Chat 网页界面：访问 Qwen Chat 官网进行免费试用，适合个人用户快速体验模型功能。
阿里云百炼平台 API：通过阿里云百炼使用 API 接口，适合企业用户进行大规模部署和集成。
OpenRouter 集成：在 OpenRouter 平台上使用模型名称 qwen/qwen3-max，支持标准 OpenAI API 格式，方便开发者快速接入。
本地部署：对于有隐私和安全需求的用户，可以考虑本地部署，但需要满足一定的硬件和软件条件。

Qwen3-Max-Preview的应用场景

智能客服：提供自动化的客户支持，快速响应用户问题，提高服务效率和质量。
内容创作：辅助写作、生成文章、故事、文案等内容，激发创意，提升创作效率。
编程辅助：帮助开发者生成代码片段、调试代码、解决编程问题，提高开发效率。
教育辅导：为学生提供学习辅导，解答学术问题，辅助教学活动，提升学习效果。
语言翻译：实现多种语言之间的翻译，促进跨语言交流，支持全球化业务。
数据分析：处理和分析长文档，提取关键信息，辅助决策制定，提升工作效率。

Novix – AI科研平台，全流程科研Agent

Written by Chimy on September 6, 2025. Posted in AI工具.

Novix是什么

Novix 是专注于科学研究的 AI 平台，通过人工智能技术加速科学研究过程。能从新想法的生成到实验验证的整个过程为研究人员提供支持。具体功能包括生成突破性的研究假设、自动扫描和总结科学文献、创建详细的实验方案、进行复杂的数据分析、生成出版就绪的图表以及构建和优化机器学习模型。Novix 帮助研究人员快速推进项目，提高研究效率。

Novix

Novix的主要功能

新想法生成：通过分析大量科学文献，识别不同领域间的未探索联系，生成突破性的研究假设。
文献综述：自动扫描、综合和总结海量科学文献，帮助研究人员了解当前知识空白和新兴研究趋势。
方法设计：创建详细的实验协议，涵盖方法论、统计方法和验证框架，满足特定的研究目标。
数据分析：执行复杂的统计分析、模式识别和数据挖掘，提取有意义的见解。
绘图生成：创建出版就绪的可视化图表、交互式图表和科学图形，自动进行样式和格式化。
模型实现：构建、训练和优化机器学习模型，自动调整超参数并评估性能，适用于科学应用。
四个专业 Agent
- DeepSurvey：自动化文献综述，帮你读透几十篇文章，生成对比表格和研究脉络。
- IdeaSpark：结合你的兴趣和最新研究，提出创新研究方向和潜在假设。
- AutoExperiment：从零搭建实验，自动生成代码、运行、返回结果，并提供改进建议。
- JupyterNotebook：直接在可交互 notebook 里写代码、跑数据分析，结果可视化一键生成。

Novix的官网地址

官网地址：https://novix.science/

Novix的应用场景

学术研究：帮助研究人员快速生成研究想法、设计实验方案、分析数据和撰写论文。
工业研发：加速产品研发过程，提高实验效率，降低研发成本。
教学与实训：支持教学和教研场景的快速转换，提供灵活的资源调度和弹性伸缩，方便师生使用。
科研绘图：提供科研绘图功能，帮助研究人员更直观地展示研究成果。
多模态资源整合：整合多模态资源与 AI 能力，有效消除跨系统操作的障碍。

极客侧边栏 – AI浏览器扩展工具，集成AI助手和书签管理

Written by Chimy on September 5, 2025. Posted in AI工具.

极客侧边栏是什么

极客侧边栏是集成了 AI 助手和书签管理功能的浏览器扩展工具。支持多种浏览器，包括 Chrome、Edge 和 Firefox，能显著提升用户的上网效率。通过集成先进的 AI 模型，极客侧边栏可以快速解析文档、联网检索信息、生成图片、分析截图以及总结网页内容。提供跨平台的书签云同步功能，支持智能分类、一键整理和自动添加标签，帮助用户更好地管理书签。用户可以在浏览器侧边栏直接使用这些功能，无需切换标签页，操作便捷。极客侧边栏的界面简洁，性能稳定，数据传输加密。

Geek Sidebar

极客侧边栏的主要功能

AI 助手集成：深度集成多种顶尖 AI 大模型，支持快速解析文档内容、联网检索、AI 图片生成、智能截图分析和网页内容总结等智能功能。
书签云管理：提供跨平台书签云同步，支持 Chrome、Edge 和 Firefox，采用端到端加密技术保障书签数据安全。具备智能分类建议、一键智能整理、自动添加标签等功能。
效率工具：支持侧边栏网页应用、云笔记等功能，用户可在侧边栏直接加载兼容网站，实现分屏阅读，提升工作效率。
简洁界面与流畅操作：界面简洁，操作流畅，数据加密传输，确保用户隐私和使用安全。
跨平台兼容：支持多种浏览器和设备，方便用户在不同平台上使用，实现数据同步和功能共享。

极客侧边栏的官网地址

官网地址：https://www.geeksidebar.com/

如何使用极客侧边栏

安装扩展：在 Chrome、Edge 或 Firefox 浏览器商店中搜索 Geek Sidebar，点击安装按钮完成安装。
登录账号：安装完成后，打开浏览器侧边栏，点击 Geek Sidebar 图标，使用邮箱注册或已有账号登录。
使用 AI 助手：登录后，点击侧边栏中的 AI 助手图标，输入问题或上传文件，即可获得智能回答或内容解析。
管理书签：在侧边栏的书签管理区域，可同步本地书签至云端，进行智能分类、整理和添加标签等操作。
使用效率工具：点击侧边栏的网页应用或云笔记图标，直接加载兼容网站或记录笔记，实现分屏阅读和信息整理。
反馈与设置：如有问题，可通过官网或侧边栏内的反馈入口联系客服。也可在设置中调整功能选项和个性化配置。

极客侧边栏的应用场景

学习与研究：快速获取资料，整理学习资源，提升学习效率。
工作与办公：整理工作资料，快速检索信息，提高工作效率。
写作与创作：提供灵感，辅助内容创作，整理创作素材。
信息管理：智能整理书签，分类管理网页资源，方便快速查找。
多任务处理：分屏阅读，同时处理多个任务，提升工作和学习效率。

OneCAT – 美团联合上交大推出的统一多模态模型

Written by Chimy on September 5, 2025. Posted in AI工具, AI项目和框架.

OneCAT是什么

OneCAT是美团推出的新型统一多模态模型，采用纯解码器架构，能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计，通过特定模态的专家混合（MoE）结构和多尺度自回归机制，实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制，进一步增强了视觉生成能力和跨模态对齐能力。

OneCAT

OneCAT的主要功能

多模态理解：能高效处理图像和文本的多模态理解任务，无需外部视觉编码器或分词器，直接在纯解码器架构中实现对图文内容的深度理解。
文本到图像生成：根据文本描述生成高质量图像，通过多尺度自回归机制逐步从低分辨率到高分辨率预测视觉标记，生成过程高效且生成效果出色。
图像编辑：支持基于指令的图像编辑，将视觉生成过程条件化在参考图像和编辑指令上，无需额外架构修改即可实现强大的条件生成能力，可对图像进行精准的局部和全局调整。

OneCAT的技术原理

纯解码器架构：OneCAT采用纯解码器自回归Transformer模型，无需外部视觉组件，如视觉变换器（ViT）或视觉标记器，显著简化了模型结构，降低了计算开销，尤其在处理高分辨率输入时效率优势明显。
模态特定的专家混合（MoE）结构：模型包含三个专门的前馈网络（FFN）专家，分别处理文本令牌、连续视觉令牌和离散视觉令牌，用于实现语言理解、多模态理解和图像合成。所有查询、键、值（QKV）和注意力层在不同模态和任务之间共享，提高了参数效率，增强了跨模态对齐能力。
多尺度视觉自回归机制：在大型语言模型（LLM）中引入，以粗到细、层次化的方式生成图像，逐步从最低分辨率到最高分辨率预测视觉令牌，大幅减少解码步骤，同时保持最先进的性能。
多模态多功能注意力机制：基于PyTorch FlexAttention，使模型能灵活适应多种模态和任务。文本标记采用因果注意力，连续视觉标记通过全注意力处理，多尺度离散视觉标记通过块状因果注意力处理。

OneCAT的项目地址

项目官网：https://onecat-ai.github.io/
Github仓库：https://github.com/onecat-ai/onecat
HuggingFace模型库：https://huggingface.co/onecat-ai/OneCAT-3B
arXiv技术论文：https://arxiv.org/pdf/2509.03498

OneCAT的应用场景

智能客服与内容审核：OneCAT的多模态理解能力能高效处理图像和文本内容，可用于智能客服系统中理解用户上传的图文信息并提供准确回复，也可用于内容审核领域，自动识别和筛选违规的图文内容。
创意设计与数字内容创作：其文本到图像生成功能可根据文本描述生成高质量图像，为设计师和创作者提供创意灵感，快速生成符合需求的图像内容，可用于广告设计、影视特效制作、游戏开发等领域的前期概念设计。
广告设计与营销：在广告设计中，OneCAT可以根据广告文案快速生成相应的图像素材，提高设计效率。可以用于生成个性化的广告内容，根据不同的目标受众生成符合其喜好的广告图像。
影视后期制作：OneCAT的图像编辑功能可以用于影视后期制作中的图像修复、风格转换、特效添加等任务，帮助影视制作人员快速实现创意效果，提升制作效率。
教育与学习：在教育领域，OneCAT可以生成与教学内容相关的图像，帮助学生更好地理解和记忆知识。例如，根据科学概念生成相应的示意图，或者根据历史事件描述生成相关的场景图像。

EmbeddingGemma – 谷歌开源的多语言文本嵌入模型

Written by Chimy on September 5, 2025. Posted in AI工具, AI项目和框架.

EmbeddingGemma是什么

EmbeddingGemma是谷歌开源的多语言文本嵌入模型，专为端侧AI设计，支持在笔记本、手机等设备上部署。模型拥有3.08亿参数，基于Gemma 3架构打造，支持100多种语言，量化后内存占用不到200MB，能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准（MTEB）上表现优异，性能接近尺寸翻倍的Qwen-Embedding-0.6B，能生成高质量嵌入向量，支持离线运行，保护用户隐私，支持与Gemma 3n配合用在移动RAG管道、语义搜索等，是推动端侧智能普及的重要基石。

EmbeddingGemma

EmbeddingGemma的主要功能

生成高质量文本嵌入向量：将文本转换为数值向量，在高维空间表征文本语义，精准捕捉语言细微差别与复杂特性，为后续应用提供坚实基础。
支持多语言：涵盖100多种语言，满足跨语言应用需求，如多语言语义搜索、跨语言信息检索等，打破语言壁垒。
灵活的输出维度：支持将输出维度从768自定义到128，开发者能根据实际需求在速度、存储和质量之间灵活权衡。
端侧部署：经过量化后占用内存不到200MB，支持在EdgeTPU上快速生成嵌入向量，实现低延迟、离线运行，保护用户隐私。
与多种工具集成：与sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等流行工具兼容，方便开发者快速集成到现有项目中。
支持检索增强生成（RAG）：支持与Gemma 3n配合构建移动优先的RAG管道，实现个性化、行业特定和离线支持的聊天机器人，提升语义搜索和问答系统的性能。

EmbeddingGemma的技术原理

基于Transformer架构：基于Gemma 3架构，一种改进的Transformer架构，能有效处理长文本序列，提供2K令牌上下文窗口，增强模型对长文本的理解能力。
Matryoshka表征学习（MRL）：基于MRL技术，模型能生成多种维度的嵌入向量。开发者根据需求选择不同维度的向量，在性能和资源消耗之间达到最佳平衡。
量化感知训练（QAT）：为降低模型的内存占用和提高运行速度，EmbeddingGemma用量化感知训练技术。通过QAT，模型在保持较高性能的同时，显著降低内存使用量，在资源受限的设备上能高效运行。
多语言训练：模型在训练过程中用来自100多种语言的大量文本数据，支持理解和生成多种语言的嵌入向量。
端到端的文本处理：模型直接在设备硬件上生成文档嵌入，无需联网，确保用户数据的隐私和安全。模型用与Gemma 3n相同的分词器进行文本处理，进一步优化RAG应用的内存占用。

EmbeddingGemma的项目地址

项目官网：https://developers.googleblog.com/zh-hans/embeddinggemma-mobile-first-embedding-model/
HuggingFace模型库：https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

EmbeddingGemma的应用场景

检索增强生成（RAG）：与Gemma 3n配合，构建移动优先的RAG管道，实现个性化、离线支持的聊天机器人，提升语义搜索和问答系统的性能。
多语言应用：用在跨语言信息检索和多语言聊天机器人，打破语言壁垒，满足多语言环境需求。
端侧AI：低内存占用和快速推理能力能在离线状态下运行，适用移动设备上的智能应用，保护用户隐私。
文本分类与聚类：帮助将文本数据分类或聚类，用在数据挖掘和分析。
语义相似度计算：用在文本相似度计算和推荐系统，判断文本语义相似度，提供精准推荐。

Vibe Coding实战项目：用Qwen3-Coder做了个AI跳舞视频生成器

Written by Chimy on September 5, 2025. Posted in AI教程.

前段时间发现通义发起了一个 Qwen3-Coder 挑战赛，最高奖金有10000元，研究了一下，我发现这个赛道太宽了，不限项目，用 AI Coding 做数据分析、个人Blog、抓取信息等等都ok。

小白也能参加，因为这场挑战赛很看重项目创意。

官方还专门设置了“整活奖”，这不正是我擅长的吗？

于是我小小的发挥了一下，做了一个有意思的小网站，在网站内上传一张个人照片，点击立即生成，就可以得到人物跳舞的视频。

体验地址：https://kseek.ai/

整个开发过程可以分为3步：

构思设计，先想清楚要做一个什么项目，用什么模型

生成调试，把需求交给Qwen3-Coder，生成前后端，再跑通流程

优化页面布局，让网站看起来更完整

这篇教程详细记录了这个网站开发的全过程和要点，全程不需要自己写代码，即使是完全看不懂代码的小白，跟着操作，也能搞定全栈开发。

如果你也想在自己的项目中接入AI大模型的各项能力，但又不知道从哪一步开始，这篇内容也许就能帮到你~

01. 项目构思

我们需要先明确需求，比如我最初的思路是通过接入大模型的API做一个图生视频的网站。

我们打开阿里云百炼的模型广场，筛选视频生成模型，点击查看详情，了解一下这些模型的应用案例。

比如图生视频，就分为首帧图片加输入提示词生成，和首帧图片使用视频特效生成（无需提示词），还有基于首尾帧的视频效果。

我想做的AI跳舞视频生成工具，通过图生视频特效生成是更方便，也是效果更稳定的方案~

于是我们的开发方向就变得具体且清晰了：使用 wanx2.1-i2v-plus 模型的图生视频特效功能，生成跳舞视频。

02. 网站开发

我们可以看看阿里云百炼平台给出的API参考，了解模型 API 调用的一些条件和使用逻辑。

还有具体使用什么模型的效果，比如我要用生成跳舞特效的视频，在阿里云给出的示例表格里 template 参数值是 dance2。

当然，我们看不懂也没关系，直接把这些内容打包发给 Qwen3-Coder，让它现学现用。通过平台的这些信息帮我们完成开发。

我们下载VS Code，安装通义灵码插件，关于通义灵码的使用可以看这篇教程AI零成本搭建个人网站，小白3步搞定！

点击左上角的文件，打开一个空白的文件夹，后续的项目文件都会存储在这里~

在通义灵码中选择 Qwen3-Coder 模型，智能体模式。在这个模式下，我们只需要说需求，Qwen3-Coder 就可以调用合适的工具帮我们完成开发项目。

我们先输入开发需求和阿里云百炼官方给出的一些要求和示例代码，让 Qwen3-coder 先做一个图生视频的网站。

Qwen3-coder 开发的过程中，我们只需要手动点点接收、执行就可以，每次执行完任务，它都会在最后总结汇报，我们一起来看看：

Qwen3-coder 创建了一个完整的包含前后端的全栈项目，并且实现了我们想要的图生视频功能。

我们按照 Qwen3-coder 回复的使用说明来操作一下。

我们直接点击代码上方的文件名称，点击 Qwen3-coder 说的 backend/.env 文件。

在阿里云百炼新建API Key，输入到这里。

接着我们按照提示启动后端。

在调试过程中，我们经常会用到这两行代码：

cd backend

npm run dev

我发现其实这两行代码分别代表：把路径更新到后端文件所在的文件夹，启动终端。

要注意的是，如果默认打开的位置和终端文件夹不在一个系统盘，backend就需要改成完整的文件地址，比如，D:\backend

执行命令后，终端出现了后端的端口地址，代表后端服务已经成功启动了。

在编辑器最上方点击新建终端。

再复制启动前端的代码，用同样的方法启动前端。

cd frontend

npm run dev

估计你也猜到了，这两行代码就是把路径更新到前端文件夹，启动终端。

按住crtl，同时单击端口地址，我们就可以通过浏览器访问前端啦。

前端整个界面非常简单，只有两个按钮，一个上传图片，一个生成视频。

我试着操作一下，上传图片的逻辑是通的，但是生成视频出现了报错。

咱们可以把报错信息直接截图发给 Qwen3-coder ，让它根据报错信息修改。

它会根据问题做出调整，并且告诉我们它做了哪些更改以及后续建议。

需要特别注意的是，我们需要按照阿里云百炼的请求示例说明，让 Qwen3-coder 将oss://…替换为真实的临时 URL。

这下网站就可以正常运行啦。

03. 前端优化

我感觉这个网站有些过于简洁了，不够好看，于是我让 GPT-5 生成了一套前端UI代码；

生成一个图生视频网站的前端UI界面，主色调为奶白+雾紫，果冻质感，Linear 风格；

然后可以根据它做出的网站，再慢慢优化调整页面布局，比如：

提示词：网站名称修改为：AI 跳舞视频生成器

编辑介绍语：上传照片，AI 帮你生成一段跳舞视频

上传图片下方小字提醒：

支持单人照片；建议使用半身至全身的正面照片

图片和视频的尺寸均为3:4，调整合适的布局

预览效果合适之后，就可以点击右上角，下载代码。

将这段代码文件放进项目文件夹，作为上下文添加。

提示词：用我给你的组件代码应用到前端布局，不改变逻辑。

Qwen3-coder 修改之后，我们重新进入前端页面，网站不仅可以运行，而且看上去也比较美观啦~

04. 一些分享

像我这样的文科生，也能靠AI完成网站的全栈开发，想想还是挺激动的~

不过开发完项目还没结束，想要拿 Qwen3-Coder 挑战赛的万元大奖，还需要报名参赛、完成项目的提报和展示。

传统开发要手写数据结构、算法，一行行敲代码，还得熟悉各种编程语言，门槛高、成本也高，是一门需要长期学习才能获得的专业技能。

现在有了 Vibe Coding ，我们只需要把想法表达清楚，AI 就能搭好项目，还能根据我们的反馈一点点打磨。

更重要的是，在实践过程中，我们会不断接触到新的知识，也会在一次次尝试中积累经验。AI 带来的，不只是效率和便利，还有认知的提升。

在 Qwen3-Coder 上，这种体验尤为明显。比如我想做一个项目，只要说几个关键词，Qwen3-Coder 秒懂我要干啥，还能用我也能看懂的方式把项目讲得清清楚楚。

或许开发正在进入一种新范式，代码不再是起点，想法才是。

原文链接：看不懂代码的我，用Qwen3-Coder做了个AI跳舞视频生成器

Fellou CE – Fellou AI推出的空间Agentic浏览器

Written by Chimy on September 5, 2025. Posted in AI工具.

Fellou CE是什么

Fellou CE是创新的AI浏览器，为全球首款空间Agentic浏览器，通过独特的Z轴空间界面，为每个任务创建独立空间，减少任务干扰，提升多任务处理效率。浏览器核心功能是代理引擎，能理解用户复杂意图、自主执行多步任务，如自动整理资料、生成报告等。Fellou CE具备深度搜索与可视化报告功能，免费为用户提供跨多源的自动化研究和个性化报告。Fellou CE基于本地优先模式，确保用户数据安全，隐私无忧。Fellou CE是一个浏览器，更是用户的智能助手，帮助用户从繁琐的操作中解放出来，专注于创造和决策。

Fellou CE

Fellou CE的主要功能

空间界面（Spatial Interface） ：引入Z轴，为每个任务创建独立空间，减少任务间的干扰，提升多任务处理效率。
动态多任务（Dynamic Multitasking） ：后台自动处理任务，前台操作不受影响，实现真正的并行处理。
影子工作区（Shadow Workspace） ：后台追踪和管理操作，方便用户找回遗忘的信息，提供实时干预功能。
Fellou Home ：三维书桌式界面，直观组织书签、历史记录、文件和任务清单，能减轻用户认知负担。
代理引擎（Agentic Engine） ：支持理解用户复杂意图并自主执行多步任务，如自动整理资料、生成报告等。
深度搜索与可视化报告（Deep Search & Visual Report） ：免费为用户提供跨多源的自动化研究和个性化报告，信息来源可追溯。
并行多代理操作（Parallel Multi – Agent Operations） ：多个AI代理能同时处理不同任务，提高工作效率。
无缝集成（Seamless Integration） ：打破应用、数据和记忆之间的壁垒，实现本地文件与网页的无缝交互。
控制与便利（Control and Convenience） ：可视化整个自动化流程，让用户实时编辑、批准或修改步骤。
信任与透明（Trust & Transparency） ：基于本地优先、隐私优先的模式，确保用户数据安全，透明展示任务执行所需积分（Sparks）。

如何使用Fellou CE

下载与安装：访问Fellou CE官网 https://fellou.ai/。根据操作系统（如Mac或Windows）下载相应的版本并安装。
注册与登录：完成账号注册和登录。
输入指令：在Fellou CE的输入框中输入指令或目标，例如“帮我整理上周的研究资料”或“生成一份市场分析报告”。
查看执行过程：Fellou CE将指令分解为多个步骤，在后台自动执行。用户通过界面能实时查看每个步骤的执行情况，进行干预或修改。
深度搜索与报告：用Deep Search功能，输入关键词或问题，Fellou CE自动从多个来源搜索信息，生成可视化的报告。
管理任务：Fellou CE自动将复杂任务分解为多个子任务，在不同的空间中并行处理。用户设置任务的执行时间，Fellou CE在指定时间自动执行任务。
数据与文件管理：通过Fellou CE直接管理本地文件，如搜索、移动和组织文件。
跨应用集成：用Fellou CE在不同应用之间无缝传输数据，例如从邮箱下载附件，直接导入到文档编辑器中。

Fellou CE的应用场景

工作效率提升：Fellou CE能自动执行多步任务，如“帮我整理上周的研究资料”，自动调取历史记录和本地文档，生成资料集提高工作效率。
旅行规划助手：输入“三天两夜东京行程”，Fellou CE自动分解成订机票、安排酒店、生成攻略、管理预算等子任务，轻松完成旅行计划。
学习资料整理：学生用Fellou CE收集学习资料，如“查找关于量子力学的入门资料”，助力学习。
创意激发与实现：输入“设计一间面朝大海的木屋”，Fellou CE能生成效果图、转成3D模型，让创意快速落地。
健康生活管理：用户能设置健康目标，如“制定一周的健身计划”，Fellou CE根据身体状况和目标，生成个性化健身计划和饮食建议活。

小朋友知识卡片 – AI知识卡片生成工具，变成生动有趣卡片

Written by Chimy on September 5, 2025. Posted in AI工具.

小朋友知识卡片是什么

小朋友知识卡片是AI 知识卡片生成工具，能将任何知识点变成生动有趣的知识卡片，适合孩子学习。输入知识点后，工具自动生成包含详细介绍、对比、案例和总结的知识卡片。卡片语言通俗易懂，能将复杂概念简单化，帮助孩子快速理解。工具完全免费，适合孩子科普和成人快速学习新概念。

小朋友知识卡片

小朋友知识卡片的主要功能

知识点简化与趣味化：将复杂的知识点用简单、有趣的方式呈现，帮助孩子更容易理解和接受。
生成知识卡片：输入任何知识点，工具自动生成包含详细介绍、对比、案例和总结的知识卡片。
语言通俗易懂：用孩子易于理解的语言，避免晦涩难懂的专业术语。
免费使用：完全免费，无需付费即可使用所有功能。
支持多种主题：涵盖广泛的学科和主题，如自然科学、历史、数学等，满足不同学习需求。

如何使用小朋友知识卡片

访问官网：访问小朋友知识卡片官网 https://v0-card-generation-app.vercel.app/
获取API Key：访问 Gemini API Key 获取页面并注册账号，获取API Key。
配置工具：在小朋友知识卡片生成器页面，输入API Key进行配置。
输入知识点：在配置完成后，输入想要了解的知识点，比如“太阳系行星”“恐龙灭绝”等。
生成知识卡片：点击生成按钮，工具自动生成一张包含详细介绍、对比、案例和总结的知识卡片。
查看和使用卡片：生成的知识卡片以简洁有趣的方式展示知识点，适合孩子学习和理解。

小朋友知识卡片的应用场景

家庭学习：家长和孩子一起使用，生成知识卡片，能增进亲子互动，激发孩子学习兴趣。
学校教育：教师将生成的知识卡片作为教学辅助材料，帮助学生更好地理解复杂的知识点，提升课堂教学效果。
在线教育：在线教育平台融入课程内容，丰富教学资源，帮助学生更好地理解和记忆知识点。
图书馆和学习中心：图书馆和学习作为儿童阅读材料，提供给小读者，丰富学习资源，拓宽孩子知识面。
科普活动：在科普展览和社区科普活动中，介绍科学知识，吸引参观者的兴趣，普及科学知识。

Author: Chimy

堆友相机是什么

堆友相机的主要功能

如何使用堆友相机

堆友相机的应用场景

Claudable是什么

Claudable的主要功能

Claudable的项目地址

如何使用Claudable

Claudable的应用场景

Qwen3-Max-Preview是什么

Qwen3-Max-Preview的主要功能

Qwen3-Max-Preview的技术原理

如何使用Qwen3-Max-Preview

Qwen3-Max-Preview的应用场景

Novix是什么

Novix的主要功能

Novix的官网地址

Novix的应用场景

极客侧边栏是什么

极客侧边栏的主要功能

极客侧边栏的官网地址

如何使用极客侧边栏

极客侧边栏的应用场景

OneCAT是什么

OneCAT的主要功能

OneCAT的技术原理

OneCAT的项目地址

OneCAT的应用场景

EmbeddingGemma是什么

EmbeddingGemma的主要功能

EmbeddingGemma的技术原理

EmbeddingGemma的项目地址

EmbeddingGemma的应用场景

01. 项目构思

02. 网站开发

03. 前端优化

04. 一些分享

Fellou CE是什么

Fellou CE的主要功能

如何使用Fellou CE

Fellou CE的应用场景

小朋友知识卡片是什么

小朋友知识卡片的主要功能

如何使用小朋友知识卡片

小朋友知识卡片的应用场景

免责声明