Blog

堆友相机 – 堆友AI推出的AI写真照片制作工具
堆友相机是什么

堆友相机是阿里旗下堆友AI中的AI写真照片生成工具，基于AI技术为用户提供个人写真照制作服务。堆友相机支持一键生成数字人分身，用户可以创建属于自己的数字人分身，生成多种风格的写真照片。使用堆友相机创建分身即送12张写真，用户可以免费体验会员模式，生图版权零压力，海量灵感一键生成。用户可以通过输入关键词或描述，让AI生成符合要求的图像，支持多种绘画风格，如写实、卡通、抽象、国风等，满足不同用户的需求。用户可以根据自己的需求调整生成图像的风格、细节等参数，实现个性化定制。

堆友相机的主要功能
- 创建数字人分身：用户可以创建属于自己的数字人分身，打造个性化AI相机。
- 生成多种风格写真：提供多种主题和风格，如商务正装、赛博朋克、港风等，满足不同场景需求。
- 免费体验会员模式：新用户注册登录后可免费体验会员模式，生图版权无压力。
- 海量灵感一键生成：自动试图推词，零门槛复刻优质作品，为用户提供丰富灵感。
如何使用堆友相机
- 注册登录：访问堆友相机官网：d.design/toolbox/camera ，点击右上角头像注册，首次注册会获得50堆豆。
- 创建数字人分身：在堆友相机中，选择创建数字人分身，按照提示上传照片或选择预设模型，完成分身创建。
- 选择主题和风格：堆友相机提供40+主题和多种风格供选择，如商务正装、赛博朋克、港风等，选择适合的风格和主题。
- 生成写真照片：选择好主题和风格后，点击生成写真照片，堆友相机会根据选择生成高质量的写真照片。
- 调整和保存：生成照片后，可以对照片进行进一步调整，如清晰度、色彩饱和度等，调整满意后保存或下载。
堆友相机的应用场景
- 电商营销：可用于生成电商产品展示图、模特图等，帮助商家提升产品展示效果，吸引更多顾客。
- 图片处理：提供自由扩图、高清放大等功能，方便用户对图片进行处理和优化。
- 创意设计：支持创意融合、AI艺术字等功能，为设计师提供灵感和创作素材，助力创意设计。
- 文案创作：结合AI助手功能，为文案创作提供灵感和辅助，提高文案创作效率。
- 个人创作：用户可以创建数字人分身，生成个性化的写真照片，满足个人创作和分享的需求。
September 6, 2025
Claudable – 基于Next.js的开源Web应用构建器
Claudable是什么

Claudable是基于Next.js的开源Web应用构建器，结合了Claude Code和Cursor CLI的先进AI代理能力，以及Lovable简单直观的应用构建体验。用户只需用自然语言描述想要构建的内容，Claudable能生成生产就绪的Next.js代码，支持即时预览和热重载，无需复杂的设置即可开始构建。支持一键部署到Vercel，自动设置版本控制和持续部署，连接生产就绪的PostgreSQL数据库。

Claudable的主要功能
- 自然语言转代码：用户通过自然语言描述需求，Claudable即可生成对应的Next.js代码。
- 即时预览与热重载：在AI构建应用过程中，用户能立即看到更改效果，支持代码的热重载。
- 零设置快速启动：无需复杂的沙盒、API密钥或数据库配置，用户可迅速开始应用构建。
- 美观的用户界面：利用Tailwind CSS和shadcn/ui为应用生成美观的UI界面。
- 一键部署到Vercel：无需额外配置，可将应用推送到Vercel并获得实时URL。
- GitHub集成：自动为应用设置版本控制和持续部署功能。
- 连接Supabase数据库：能连接生产就绪的PostgreSQL数据库，并提供身份验证功能。
- 自动错误检测与修复：自动检测应用中的错误并进行修复，保障应用的稳定运行。
Claudable的项目地址
- Github仓库：https://github.com/opactorai/Claudable
如何使用Claudable
- 前期准备：
  - 安装 Node.js 18+、Python 3.10+（可选）、Git。
  - 安装并登录 Claude Code 或 Cursor CLI。
- 快速启动：
  - 克隆代码仓库：git clone https://github.com/opactorai/Claudable.git。
  - 进入项目目录：cd Claudable。
  - 安装依赖：npm install。
  - 启动开发服务器：npm run dev。
- 构建与部署：
  - 在 Claude Code 中描述你的应用，例如：“a Pomodoro timer with Slack notifications”。
  - 观察终端生成代码，浏览器自动刷新显示应用。
  - 使用 npm run deploy 将应用部署到 Vercel，并获得一个实时 URL。
Claudable的应用场景
- 个人开发者快速构建项目：帮助个人开发者快速搭建个人网站、工具应用等，无需复杂配置和大量代码编写，节省时间和精力。
- 小型团队开发产品原型：小型团队可以快速迭代功能，快速开发产品原型，进行功能测试和用户反馈收集，加速产品开发周期。
- 教育机构教学辅助：作为教学工具，让初学者快速上手Web开发，通过自然语言描述生成代码的方式，帮助学生理解开发流程和逻辑。
- 企业快速开发内部工具：企业内部可以快速开发一些小型的管理工具、数据可视化工具等，提高工作效率，满足特定业务需求。
- 创意人员快速实现想法：设计师、创意人员等非专业开发人员可以快速将创意转化为实际可运行的Web应用，进行展示和验证。
September 6, 2025
Qwen3-Max-Preview – 阿里通义推出的最新旗舰模型
Qwen3-Max-Preview是什么

Qwen3-Max-Preview 是阿里巴巴旗下通义千问团队发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型，参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进，支持超过 100 种语言，中英文理解能力出色。在数学推理、编程和科学推理等任务中表现出色，能更可靠地遵循复杂指令，减少幻觉，生成更高质量的响应。用户可以通过 Qwen Chat 网页免费体验，也可以通过阿里云百炼平台的 API 进行调用。

Qwen3-Max-Preview的主要功能
- 强大的语言理解与生成能力：支持超过100种语言，中英文理解能力出色，能生成高质量的文本内容，满足用户在写作、对话等多种场景下的需求。
- 卓越的推理与指令执行能力：在数学、编程、逻辑和科学推理等任务中表现出色，能更准确地理解和执行复杂指令，减少错误和幻觉。
- 长文本处理能力：支持256,000 tokens的上下文窗口，能处理长篇幅的文档和复杂的文本内容，适用于长文档分析和生成。
- 多场景应用支持：适用于问答、写作、对话、编程辅助等多种场景，为用户提供多样化的解决方案。
- 优化的翻译与常识推理能力：在翻译和常识推理方面进行了优化，更准确地进行跨语言交流和常识判断。
- 企业级部署与API调用：支持通过阿里云百炼平台的API进行企业级部署，满足不同用户的需求，提供灵活的使用方式。
Qwen3-Max-Preview的技术原理
- 大规模参数训练：采用超过1万亿参数的模型架构，通过海量数据进行训练，提升模型对各种语言和知识的理解与生成能力。
- 非推理模型架构：基于非推理模型设计，专注于语言理解和生成任务，避免了推理模型可能出现的复杂性和不确定性。
- 多语言支持：通过多语言训练数据和优化算法，支持超过100种语言，增强模型在不同语言环境下的适应性和准确性。
- 上下文窗口扩展：支持256,000 tokens的上下文窗口，能处理更长的文本内容，提升对长文档的理解和生成能力。
- 优化的指令跟随：通过特定的训练方法和数据增强技术，提升模型对复杂指令的理解和执行能力，减少错误和幻觉。
- 翻译与常识推理优化：在翻译和常识推理方面进行了针对性优化，提升模型在跨语言交流和常识判断中的表现。
- 检索增强生成（RAG）优化：针对检索增强生成任务进行了优化，提升模型在结合外部信息进行生成时的效果和准确性。
如何使用Qwen3-Max-Preview
- Qwen Chat 网页界面：访问 Qwen Chat 官网进行免费试用，适合个人用户快速体验模型功能。
- 阿里云百炼平台 API：通过阿里云百炼使用 API 接口，适合企业用户进行大规模部署和集成。
- OpenRouter 集成：在 OpenRouter 平台上使用模型名称 qwen/qwen3-max，支持标准 OpenAI API 格式，方便开发者快速接入。
- 本地部署：对于有隐私和安全需求的用户，可以考虑本地部署，但需要满足一定的硬件和软件条件。
Qwen3-Max-Preview的应用场景
- 智能客服：提供自动化的客户支持，快速响应用户问题，提高服务效率和质量。
- 内容创作：辅助写作、生成文章、故事、文案等内容，激发创意，提升创作效率。
- 编程辅助：帮助开发者生成代码片段、调试代码、解决编程问题，提高开发效率。
- 教育辅导：为学生提供学习辅导，解答学术问题，辅助教学活动，提升学习效果。
- 语言翻译：实现多种语言之间的翻译，促进跨语言交流，支持全球化业务。
- 数据分析：处理和分析长文档，提取关键信息，辅助决策制定，提升工作效率。
September 6, 2025
Novix – AI科研平台，全流程科研Agent
Novix是什么

Novix 是专注于科学研究的 AI 平台，通过人工智能技术加速科学研究过程。能从新想法的生成到实验验证的整个过程为研究人员提供支持。具体功能包括生成突破性的研究假设、自动扫描和总结科学文献、创建详细的实验方案、进行复杂的数据分析、生成出版就绪的图表以及构建和优化机器学习模型。Novix 帮助研究人员快速推进项目，提高研究效率。

Novix的主要功能
- 新想法生成：通过分析大量科学文献，识别不同领域间的未探索联系，生成突破性的研究假设。
- 文献综述：自动扫描、综合和总结海量科学文献，帮助研究人员了解当前知识空白和新兴研究趋势。
- 方法设计：创建详细的实验协议，涵盖方法论、统计方法和验证框架，满足特定的研究目标。
- 数据分析：执行复杂的统计分析、模式识别和数据挖掘，提取有意义的见解。
- 绘图生成：创建出版就绪的可视化图表、交互式图表和科学图形，自动进行样式和格式化。
- 模型实现：构建、训练和优化机器学习模型，自动调整超参数并评估性能，适用于科学应用。
- 四个专业 Agent
  - DeepSurvey：自动化文献综述，帮你读透几十篇文章，生成对比表格和研究脉络。
  - IdeaSpark：结合你的兴趣和最新研究，提出创新研究方向和潜在假设。
  - AutoExperiment：从零搭建实验，自动生成代码、运行、返回结果，并提供改进建议。
  - JupyterNotebook：直接在可交互 notebook 里写代码、跑数据分析，结果可视化一键生成。
Novix的官网地址
- 官网地址：https://novix.science/
Novix的应用场景
- 学术研究：帮助研究人员快速生成研究想法、设计实验方案、分析数据和撰写论文。
- 工业研发：加速产品研发过程，提高实验效率，降低研发成本。
- 教学与实训：支持教学和教研场景的快速转换，提供灵活的资源调度和弹性伸缩，方便师生使用。
- 科研绘图：提供科研绘图功能，帮助研究人员更直观地展示研究成果。
- 多模态资源整合：整合多模态资源与 AI 能力，有效消除跨系统操作的障碍。
September 6, 2025
极客侧边栏 – AI浏览器扩展工具，集成AI助手和书签管理
极客侧边栏是什么

极客侧边栏是集成了 AI 助手和书签管理功能的浏览器扩展工具。支持多种浏览器，包括 Chrome、Edge 和 Firefox，能显著提升用户的上网效率。通过集成先进的 AI 模型，极客侧边栏可以快速解析文档、联网检索信息、生成图片、分析截图以及总结网页内容。提供跨平台的书签云同步功能，支持智能分类、一键整理和自动添加标签，帮助用户更好地管理书签。用户可以在浏览器侧边栏直接使用这些功能，无需切换标签页，操作便捷。极客侧边栏的界面简洁，性能稳定，数据传输加密。

极客侧边栏的主要功能
- AI 助手集成：深度集成多种顶尖 AI 大模型，支持快速解析文档内容、联网检索、AI 图片生成、智能截图分析和网页内容总结等智能功能。
- 书签云管理：提供跨平台书签云同步，支持 Chrome、Edge 和 Firefox，采用端到端加密技术保障书签数据安全。具备智能分类建议、一键智能整理、自动添加标签等功能。
- 效率工具：支持侧边栏网页应用、云笔记等功能，用户可在侧边栏直接加载兼容网站，实现分屏阅读，提升工作效率。
- 简洁界面与流畅操作：界面简洁，操作流畅，数据加密传输，确保用户隐私和使用安全。
- 跨平台兼容：支持多种浏览器和设备，方便用户在不同平台上使用，实现数据同步和功能共享。
极客侧边栏的官网地址
- 官网地址：https://www.geeksidebar.com/
如何使用极客侧边栏
- 安装扩展：在 Chrome、Edge 或 Firefox 浏览器商店中搜索 Geek Sidebar，点击安装按钮完成安装。
- 登录账号：安装完成后，打开浏览器侧边栏，点击 Geek Sidebar 图标，使用邮箱注册或已有账号登录。
- 使用 AI 助手：登录后，点击侧边栏中的 AI 助手图标，输入问题或上传文件，即可获得智能回答或内容解析。
- 管理书签：在侧边栏的书签管理区域，可同步本地书签至云端，进行智能分类、整理和添加标签等操作。
- 使用效率工具：点击侧边栏的网页应用或云笔记图标，直接加载兼容网站或记录笔记，实现分屏阅读和信息整理。
- 反馈与设置：如有问题，可通过官网或侧边栏内的反馈入口联系客服。也可在设置中调整功能选项和个性化配置。
极客侧边栏的应用场景
- 学习与研究：快速获取资料，整理学习资源，提升学习效率。
- 工作与办公：整理工作资料，快速检索信息，提高工作效率。
- 写作与创作：提供灵感，辅助内容创作，整理创作素材。
- 信息管理：智能整理书签，分类管理网页资源，方便快速查找。
- 多任务处理：分屏阅读，同时处理多个任务，提升工作和学习效率。
September 5, 2025
OneCAT – 美团联合上交大推出的统一多模态模型
OneCAT是什么

OneCAT是美团推出的新型统一多模态模型，采用纯解码器架构，能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计，通过特定模态的专家混合（MoE）结构和多尺度自回归机制，实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制，进一步增强了视觉生成能力和跨模态对齐能力。

OneCAT的主要功能
- 多模态理解：能高效处理图像和文本的多模态理解任务，无需外部视觉编码器或分词器，直接在纯解码器架构中实现对图文内容的深度理解。
- 文本到图像生成：根据文本描述生成高质量图像，通过多尺度自回归机制逐步从低分辨率到高分辨率预测视觉标记，生成过程高效且生成效果出色。
- 图像编辑：支持基于指令的图像编辑，将视觉生成过程条件化在参考图像和编辑指令上，无需额外架构修改即可实现强大的条件生成能力，可对图像进行精准的局部和全局调整。
OneCAT的技术原理
- 纯解码器架构：OneCAT采用纯解码器自回归Transformer模型，无需外部视觉组件，如视觉变换器（ViT）或视觉标记器，显著简化了模型结构，降低了计算开销，尤其在处理高分辨率输入时效率优势明显。
- 模态特定的专家混合（MoE）结构：模型包含三个专门的前馈网络（FFN）专家，分别处理文本令牌、连续视觉令牌和离散视觉令牌，用于实现语言理解、多模态理解和图像合成。所有查询、键、值（QKV）和注意力层在不同模态和任务之间共享，提高了参数效率，增强了跨模态对齐能力。
- 多尺度视觉自回归机制：在大型语言模型（LLM）中引入，以粗到细、层次化的方式生成图像，逐步从最低分辨率到最高分辨率预测视觉令牌，大幅减少解码步骤，同时保持最先进的性能。
- 多模态多功能注意力机制：基于PyTorch FlexAttention，使模型能灵活适应多种模态和任务。文本标记采用因果注意力，连续视觉标记通过全注意力处理，多尺度离散视觉标记通过块状因果注意力处理。
OneCAT的项目地址
- 项目官网：https://onecat-ai.github.io/
- Github仓库：https://github.com/onecat-ai/onecat
- HuggingFace模型库：https://huggingface.co/onecat-ai/OneCAT-3B
- arXiv技术论文：https://arxiv.org/pdf/2509.03498
OneCAT的应用场景
- 智能客服与内容审核：OneCAT的多模态理解能力能高效处理图像和文本内容，可用于智能客服系统中理解用户上传的图文信息并提供准确回复，也可用于内容审核领域，自动识别和筛选违规的图文内容。
- 创意设计与数字内容创作：其文本到图像生成功能可根据文本描述生成高质量图像，为设计师和创作者提供创意灵感，快速生成符合需求的图像内容，可用于广告设计、影视特效制作、游戏开发等领域的前期概念设计。
- 广告设计与营销：在广告设计中，OneCAT可以根据广告文案快速生成相应的图像素材，提高设计效率。可以用于生成个性化的广告内容，根据不同的目标受众生成符合其喜好的广告图像。
- 影视后期制作：OneCAT的图像编辑功能可以用于影视后期制作中的图像修复、风格转换、特效添加等任务，帮助影视制作人员快速实现创意效果，提升制作效率。
- 教育与学习：在教育领域，OneCAT可以生成与教学内容相关的图像，帮助学生更好地理解和记忆知识。例如，根据科学概念生成相应的示意图，或者根据历史事件描述生成相关的场景图像。
September 5, 2025
EmbeddingGemma – 谷歌开源的多语言文本嵌入模型
EmbeddingGemma是什么

EmbeddingGemma是谷歌开源的多语言文本嵌入模型，专为端侧AI设计，支持在笔记本、手机等设备上部署。模型拥有3.08亿参数，基于Gemma 3架构打造，支持100多种语言，量化后内存占用不到200MB，能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准（MTEB）上表现优异，性能接近尺寸翻倍的Qwen-Embedding-0.6B，能生成高质量嵌入向量，支持离线运行，保护用户隐私，支持与Gemma 3n配合用在移动RAG管道、语义搜索等，是推动端侧智能普及的重要基石。

EmbeddingGemma的主要功能
- 生成高质量文本嵌入向量：将文本转换为数值向量，在高维空间表征文本语义，精准捕捉语言细微差别与复杂特性，为后续应用提供坚实基础。
- 支持多语言：涵盖100多种语言，满足跨语言应用需求，如多语言语义搜索、跨语言信息检索等，打破语言壁垒。
- 灵活的输出维度：支持将输出维度从768自定义到128，开发者能根据实际需求在速度、存储和质量之间灵活权衡。
- 端侧部署：经过量化后占用内存不到200MB，支持在EdgeTPU上快速生成嵌入向量，实现低延迟、离线运行，保护用户隐私。
- 与多种工具集成：与sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等流行工具兼容，方便开发者快速集成到现有项目中。
- 支持检索增强生成（RAG）：支持与Gemma 3n配合构建移动优先的RAG管道，实现个性化、行业特定和离线支持的聊天机器人，提升语义搜索和问答系统的性能。
EmbeddingGemma的技术原理
- 基于Transformer架构：基于Gemma 3架构，一种改进的Transformer架构，能有效处理长文本序列，提供2K令牌上下文窗口，增强模型对长文本的理解能力。
- Matryoshka表征学习（MRL）：基于MRL技术，模型能生成多种维度的嵌入向量。开发者根据需求选择不同维度的向量，在性能和资源消耗之间达到最佳平衡。
- 量化感知训练（QAT）：为降低模型的内存占用和提高运行速度，EmbeddingGemma用量化感知训练技术。通过QAT，模型在保持较高性能的同时，显著降低内存使用量，在资源受限的设备上能高效运行。
- 多语言训练：模型在训练过程中用来自100多种语言的大量文本数据，支持理解和生成多种语言的嵌入向量。
- 端到端的文本处理：模型直接在设备硬件上生成文档嵌入，无需联网，确保用户数据的隐私和安全。模型用与Gemma 3n相同的分词器进行文本处理，进一步优化RAG应用的内存占用。
EmbeddingGemma的项目地址
- 项目官网：https://developers.googleblog.com/zh-hans/embeddinggemma-mobile-first-embedding-model/
- HuggingFace模型库：https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
EmbeddingGemma的应用场景
- 检索增强生成（RAG）：与Gemma 3n配合，构建移动优先的RAG管道，实现个性化、离线支持的聊天机器人，提升语义搜索和问答系统的性能。
- 多语言应用：用在跨语言信息检索和多语言聊天机器人，打破语言壁垒，满足多语言环境需求。
- 端侧AI：低内存占用和快速推理能力能在离线状态下运行，适用移动设备上的智能应用，保护用户隐私。
- 文本分类与聚类：帮助将文本数据分类或聚类，用在数据挖掘和分析。
- 语义相似度计算：用在文本相似度计算和推荐系统，判断文本语义相似度，提供精准推荐。
September 5, 2025
Vibe Coding实战项目：用Qwen3-Coder做了个AI跳舞视频生成器

前段时间发现通义发起了一个 Qwen3-Coder 挑战赛，最高奖金有10000元，研究了一下，我发现这个赛道太宽了，不限项目，用 AI Coding 做数据分析、个人Blog、抓取信息等等都ok。

小白也能参加，因为这场挑战赛很看重项目创意。

官方还专门设置了“整活奖”，这不正是我擅长的吗？

于是我小小的发挥了一下，做了一个有意思的小网站，在网站内上传一张个人照片，点击立即生成，就可以得到人物跳舞的视频。

体验地址：https://kseek.ai/

整个开发过程可以分为3步：

构思设计，先想清楚要做一个什么项目，用什么模型

生成调试，把需求交给Qwen3-Coder，生成前后端，再跑通流程

优化页面布局，让网站看起来更完整

这篇教程详细记录了这个网站开发的全过程和要点，全程不需要自己写代码，即使是完全看不懂代码的小白，跟着操作，也能搞定全栈开发。

如果你也想在自己的项目中接入AI大模型的各项能力，但又不知道从哪一步开始，这篇内容也许就能帮到你~

01. 项目构思

我们需要先明确需求，比如我最初的思路是通过接入大模型的API做一个图生视频的网站。

我们打开阿里云百炼的模型广场，筛选视频生成模型，点击查看详情，了解一下这些模型的应用案例。

比如图生视频，就分为首帧图片加输入提示词生成，和首帧图片使用视频特效生成（无需提示词），还有基于首尾帧的视频效果。

我想做的AI跳舞视频生成工具，通过图生视频特效生成是更方便，也是效果更稳定的方案~

于是我们的开发方向就变得具体且清晰了：使用 wanx2.1-i2v-plus 模型的图生视频特效功能，生成跳舞视频。

02. 网站开发

我们可以看看阿里云百炼平台给出的API参考，了解模型 API 调用的一些条件和使用逻辑。

还有具体使用什么模型的效果，比如我要用生成跳舞特效的视频，在阿里云给出的示例表格里 template 参数值是 dance2。

当然，我们看不懂也没关系，直接把这些内容打包发给 Qwen3-Coder，让它现学现用。通过平台的这些信息帮我们完成开发。

我们下载VS Code，安装通义灵码插件，关于通义灵码的使用可以看这篇教程AI零成本搭建个人网站，小白3步搞定！

点击左上角的文件，打开一个空白的文件夹，后续的项目文件都会存储在这里~

在通义灵码中选择 Qwen3-Coder 模型，智能体模式。在这个模式下，我们只需要说需求，Qwen3-Coder 就可以调用合适的工具帮我们完成开发项目。

我们先输入开发需求和阿里云百炼官方给出的一些要求和示例代码，让 Qwen3-coder 先做一个图生视频的网站。

Qwen3-coder 开发的过程中，我们只需要手动点点接收、执行就可以，每次执行完任务，它都会在最后总结汇报，我们一起来看看：

Qwen3-coder 创建了一个完整的包含前后端的全栈项目，并且实现了我们想要的图生视频功能。

我们按照 Qwen3-coder 回复的使用说明来操作一下。

我们直接点击代码上方的文件名称，点击 Qwen3-coder 说的 backend/.env 文件。

在阿里云百炼新建API Key，输入到这里。

接着我们按照提示启动后端。

在调试过程中，我们经常会用到这两行代码：

cd backend

npm run dev

我发现其实这两行代码分别代表：把路径更新到后端文件所在的文件夹，启动终端。

要注意的是，如果默认打开的位置和终端文件夹不在一个系统盘，backend就需要改成完整的文件地址，比如，D:\backend

执行命令后，终端出现了后端的端口地址，代表后端服务已经成功启动了。

在编辑器最上方点击新建终端。

再复制启动前端的代码，用同样的方法启动前端。

cd frontend

npm run dev

估计你也猜到了，这两行代码就是把路径更新到前端文件夹，启动终端。

按住crtl，同时单击端口地址，我们就可以通过浏览器访问前端啦。

前端整个界面非常简单，只有两个按钮，一个上传图片，一个生成视频。

我试着操作一下，上传图片的逻辑是通的，但是生成视频出现了报错。

咱们可以把报错信息直接截图发给 Qwen3-coder ，让它根据报错信息修改。

它会根据问题做出调整，并且告诉我们它做了哪些更改以及后续建议。

需要特别注意的是，我们需要按照阿里云百炼的请求示例说明，让 Qwen3-coder 将oss://…替换为真实的临时 URL。

这下网站就可以正常运行啦。

03. 前端优化

我感觉这个网站有些过于简洁了，不够好看，于是我让 GPT-5 生成了一套前端UI代码；

生成一个图生视频网站的前端UI界面，主色调为奶白+雾紫，果冻质感，Linear 风格；

然后可以根据它做出的网站，再慢慢优化调整页面布局，比如：

提示词：网站名称修改为：AI 跳舞视频生成器

编辑介绍语：上传照片，AI 帮你生成一段跳舞视频

上传图片下方小字提醒：

支持单人照片；建议使用半身至全身的正面照片

图片和视频的尺寸均为3:4，调整合适的布局

预览效果合适之后，就可以点击右上角，下载代码。

将这段代码文件放进项目文件夹，作为上下文添加。

提示词：用我给你的组件代码应用到前端布局，不改变逻辑。

Qwen3-coder 修改之后，我们重新进入前端页面，网站不仅可以运行，而且看上去也比较美观啦~

04. 一些分享

像我这样的文科生，也能靠AI完成网站的全栈开发，想想还是挺激动的~

不过开发完项目还没结束，想要拿 Qwen3-Coder 挑战赛的万元大奖，还需要报名参赛、完成项目的提报和展示。

传统开发要手写数据结构、算法，一行行敲代码，还得熟悉各种编程语言，门槛高、成本也高，是一门需要长期学习才能获得的专业技能。

现在有了 Vibe Coding ，我们只需要把想法表达清楚，AI 就能搭好项目，还能根据我们的反馈一点点打磨。

更重要的是，在实践过程中，我们会不断接触到新的知识，也会在一次次尝试中积累经验。AI 带来的，不只是效率和便利，还有认知的提升。

在 Qwen3-Coder 上，这种体验尤为明显。比如我想做一个项目，只要说几个关键词，Qwen3-Coder 秒懂我要干啥，还能用我也能看懂的方式把项目讲得清清楚楚。

或许开发正在进入一种新范式，代码不再是起点，想法才是。

原文链接：看不懂代码的我，用Qwen3-Coder做了个AI跳舞视频生成器

September 5, 2025
Fellou CE – Fellou AI推出的空间Agentic浏览器
Fellou CE是什么

Fellou CE是创新的AI浏览器，为全球首款空间Agentic浏览器，通过独特的Z轴空间界面，为每个任务创建独立空间，减少任务干扰，提升多任务处理效率。浏览器核心功能是代理引擎，能理解用户复杂意图、自主执行多步任务，如自动整理资料、生成报告等。Fellou CE具备深度搜索与可视化报告功能，免费为用户提供跨多源的自动化研究和个性化报告。Fellou CE基于本地优先模式，确保用户数据安全，隐私无忧。Fellou CE是一个浏览器，更是用户的智能助手，帮助用户从繁琐的操作中解放出来，专注于创造和决策。

Fellou CE的主要功能
- 空间界面（Spatial Interface） ：引入Z轴，为每个任务创建独立空间，减少任务间的干扰，提升多任务处理效率。
- 动态多任务（Dynamic Multitasking） ：后台自动处理任务，前台操作不受影响，实现真正的并行处理。
- 影子工作区（Shadow Workspace） ：后台追踪和管理操作，方便用户找回遗忘的信息，提供实时干预功能。
- Fellou Home ：三维书桌式界面，直观组织书签、历史记录、文件和任务清单，能减轻用户认知负担。
- 代理引擎（Agentic Engine） ：支持理解用户复杂意图并自主执行多步任务，如自动整理资料、生成报告等。
- 深度搜索与可视化报告（Deep Search & Visual Report） ：免费为用户提供跨多源的自动化研究和个性化报告，信息来源可追溯。
- 并行多代理操作（Parallel Multi – Agent Operations） ：多个AI代理能同时处理不同任务，提高工作效率。
- 无缝集成（Seamless Integration） ：打破应用、数据和记忆之间的壁垒，实现本地文件与网页的无缝交互。
- 控制与便利（Control and Convenience） ：可视化整个自动化流程，让用户实时编辑、批准或修改步骤。
- 信任与透明（Trust & Transparency） ：基于本地优先、隐私优先的模式，确保用户数据安全，透明展示任务执行所需积分（Sparks）。
如何使用Fellou CE
- 下载与安装：访问Fellou CE官网 https://fellou.ai/。根据操作系统（如Mac或Windows）下载相应的版本并安装。
- 注册与登录：完成账号注册和登录。
- 输入指令：在Fellou CE的输入框中输入指令或目标，例如“帮我整理上周的研究资料”或“生成一份市场分析报告”。
- 查看执行过程：Fellou CE将指令分解为多个步骤，在后台自动执行。用户通过界面能实时查看每个步骤的执行情况，进行干预或修改。
- 深度搜索与报告：用Deep Search功能，输入关键词或问题，Fellou CE自动从多个来源搜索信息，生成可视化的报告。
- 管理任务：Fellou CE自动将复杂任务分解为多个子任务，在不同的空间中并行处理。用户设置任务的执行时间，Fellou CE在指定时间自动执行任务。
- 数据与文件管理：通过Fellou CE直接管理本地文件，如搜索、移动和组织文件。
- 跨应用集成：用Fellou CE在不同应用之间无缝传输数据，例如从邮箱下载附件，直接导入到文档编辑器中。
Fellou CE的应用场景
- 工作效率提升：Fellou CE能自动执行多步任务，如“帮我整理上周的研究资料”，自动调取历史记录和本地文档，生成资料集提高工作效率。
- 旅行规划助手：输入“三天两夜东京行程”，Fellou CE自动分解成订机票、安排酒店、生成攻略、管理预算等子任务，轻松完成旅行计划。
- 学习资料整理：学生用Fellou CE收集学习资料，如“查找关于量子力学的入门资料”，助力学习。
- 创意激发与实现：输入“设计一间面朝大海的木屋”，Fellou CE能生成效果图、转成3D模型，让创意快速落地。
- 健康生活管理：用户能设置健康目标，如“制定一周的健身计划”，Fellou CE根据身体状况和目标，生成个性化健身计划和饮食建议活。
September 5, 2025
小朋友知识卡片 – AI知识卡片生成工具，变成生动有趣卡片
小朋友知识卡片是什么

小朋友知识卡片是AI 知识卡片生成工具，能将任何知识点变成生动有趣的知识卡片，适合孩子学习。输入知识点后，工具自动生成包含详细介绍、对比、案例和总结的知识卡片。卡片语言通俗易懂，能将复杂概念简单化，帮助孩子快速理解。工具完全免费，适合孩子科普和成人快速学习新概念。

小朋友知识卡片的主要功能
- 知识点简化与趣味化：将复杂的知识点用简单、有趣的方式呈现，帮助孩子更容易理解和接受。
- 生成知识卡片：输入任何知识点，工具自动生成包含详细介绍、对比、案例和总结的知识卡片。
- 语言通俗易懂：用孩子易于理解的语言，避免晦涩难懂的专业术语。
- 免费使用：完全免费，无需付费即可使用所有功能。
- 支持多种主题：涵盖广泛的学科和主题，如自然科学、历史、数学等，满足不同学习需求。
如何使用小朋友知识卡片
- 访问官网：访问小朋友知识卡片官网 https://v0-card-generation-app.vercel.app/
- 获取API Key：访问 Gemini API Key 获取页面并注册账号，获取API Key。
- 配置工具：在小朋友知识卡片生成器页面，输入API Key进行配置。
- 输入知识点：在配置完成后，输入想要了解的知识点，比如“太阳系行星”“恐龙灭绝”等。
- 生成知识卡片：点击生成按钮，工具自动生成一张包含详细介绍、对比、案例和总结的知识卡片。
- 查看和使用卡片：生成的知识卡片以简洁有趣的方式展示知识点，适合孩子学习和理解。
小朋友知识卡片的应用场景
- 家庭学习：家长和孩子一起使用，生成知识卡片，能增进亲子互动，激发孩子学习兴趣。
- 学校教育：教师将生成的知识卡片作为教学辅助材料，帮助学生更好地理解复杂的知识点，提升课堂教学效果。
- 在线教育：在线教育平台融入课程内容，丰富教学资源，帮助学生更好地理解和记忆知识点。
- 图书馆和学习中心：图书馆和学习作为儿童阅读材料，提供给小读者，丰富学习资源，拓宽孩子知识面。
- 科普活动：在科普展览和社区科普活动中，介绍科学知识，吸引参观者的兴趣，普及科学知识。
September 5, 2025