Blog

  • 堆友相机 – 堆友AI推出的AI写真照片制作工具

    堆友相机是什么

    堆友相机是阿里旗下堆友AI中的AI写真照片生成工具,基于AI技术为用户提供个人写真照制作服务。堆友相机支持一键生成数字人分身,用户可以创建属于自己的数字人分身,生成多种风格的写真照片。使用堆友相机创建分身即送12张写真,用户可以免费体验会员模式,生图版权零压力,海量灵感一键生成。用户可以通过输入关键词或描述,让AI生成符合要求的图像,支持多种绘画风格,如写实、卡通、抽象、国风等,满足不同用户的需求。用户可以根据自己的需求调整生成图像的风格、细节等参数,实现个性化定制。

    堆友相机

    堆友相机的主要功能

    • 创建数字人分身:用户可以创建属于自己的数字人分身,打造个性化AI相机。
    • 生成多种风格写真:提供多种主题和风格,如商务正装、赛博朋克、港风等,满足不同场景需求。
    • 免费体验会员模式:新用户注册登录后可免费体验会员模式,生图版权无压力。
    • 海量灵感一键生成:自动试图推词,零门槛复刻优质作品,为用户提供丰富灵感。

    如何使用堆友相机

    • 注册登录:访问堆友相机官网:d.design/toolbox/camera ,点击右上角头像注册,首次注册会获得50堆豆。
    • 创建数字人分身:在堆友相机中,选择创建数字人分身,按照提示上传照片或选择预设模型,完成分身创建。
    • 选择主题和风格:堆友相机提供40+主题和多种风格供选择,如商务正装、赛博朋克、港风等,选择适合的风格和主题。
    • 生成写真照片:选择好主题和风格后,点击生成写真照片,堆友相机会根据选择生成高质量的写真照片。
    • 调整和保存:生成照片后,可以对照片进行进一步调整,如清晰度、色彩饱和度等,调整满意后保存或下载。

    堆友相机的应用场景

    • 电商营销:可用于生成电商产品展示图、模特图等,帮助商家提升产品展示效果,吸引更多顾客。
    • 图片处理:提供自由扩图、高清放大等功能,方便用户对图片进行处理和优化。
    • 创意设计:支持创意融合、AI艺术字等功能,为设计师提供灵感和创作素材,助力创意设计。
    • 文案创作:结合AI助手功能,为文案创作提供灵感和辅助,提高文案创作效率。
    • 个人创作:用户可以创建数字人分身,生成个性化的写真照片,满足个人创作和分享的需求。
  • Claudable – 基于Next.js的开源Web应用构建器

    Claudable是什么

    Claudable是基于Next.js的开源Web应用构建器,结合了Claude CodeCursor CLI的先进AI代理能力,以及Lovable简单直观的应用构建体验。用户只需用自然语言描述想要构建的内容,Claudable能生成生产就绪的Next.js代码,支持即时预览和热重载,无需复杂的设置即可开始构建。支持一键部署到Vercel,自动设置版本控制和持续部署,连接生产就绪的PostgreSQL数据库。

    Claudable

    Claudable的主要功能

    • 自然语言转代码:用户通过自然语言描述需求,Claudable即可生成对应的Next.js代码。
    • 即时预览与热重载:在AI构建应用过程中,用户能立即看到更改效果,支持代码的热重载。
    • 零设置快速启动:无需复杂的沙盒、API密钥或数据库配置,用户可迅速开始应用构建。
    • 美观的用户界面:利用Tailwind CSS和shadcn/ui为应用生成美观的UI界面。
    • 一键部署到Vercel:无需额外配置,可将应用推送到Vercel并获得实时URL。
    • GitHub集成:自动为应用设置版本控制和持续部署功能。
    • 连接Supabase数据库:能连接生产就绪的PostgreSQL数据库,并提供身份验证功能。
    • 自动错误检测与修复:自动检测应用中的错误并进行修复,保障应用的稳定运行。

    Claudable的项目地址

    • Github仓库:https://github.com/opactorai/Claudable

    如何使用Claudable

    • 前期准备
      • 安装 Node.js 18+、Python 3.10+(可选)、Git。
      • 安装并登录 Claude Code 或 Cursor CLI。
    • 快速启动
      • 克隆代码仓库:git clone https://github.com/opactorai/Claudable.git
      • 进入项目目录:cd Claudable
      • 安装依赖:npm install
      • 启动开发服务器:npm run dev
    • 构建与部署
      • 在 Claude Code 中描述你的应用,例如:“a Pomodoro timer with Slack notifications”。
      • 观察终端生成代码,浏览器自动刷新显示应用。
      • 使用 npm run deploy 将应用部署到 Vercel,并获得一个实时 URL。

    Claudable的应用场景

    • 个人开发者快速构建项目:帮助个人开发者快速搭建个人网站、工具应用等,无需复杂配置和大量代码编写,节省时间和精力。
    • 小型团队开发产品原型:小型团队可以快速迭代功能,快速开发产品原型,进行功能测试和用户反馈收集,加速产品开发周期。
    • 教育机构教学辅助:作为教学工具,让初学者快速上手Web开发,通过自然语言描述生成代码的方式,帮助学生理解开发流程和逻辑。
    • 企业快速开发内部工具:企业内部可以快速开发一些小型的管理工具、数据可视化工具等,提高工作效率,满足特定业务需求。
    • 创意人员快速实现想法:设计师、创意人员等非专业开发人员可以快速将创意转化为实际可运行的Web应用,进行展示和验证。
  • Qwen3-Max-Preview – 阿里通义推出的最新旗舰模型

    Qwen3-Max-Preview是什么

    Qwen3-Max-Preview 是阿里巴巴旗下通义千问团队发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进,支持超过 100 种语言,中英文理解能力出色。在数学推理、编程和科学推理等任务中表现出色,能更可靠地遵循复杂指令,减少幻觉,生成更高质量的响应。用户可以通过 Qwen Chat 网页免费体验,也可以通过阿里云百炼平台的 API 进行调用。

    Qwen3-Max-Preview

    Qwen3-Max-Preview的主要功能

    • 强大的语言理解与生成能力:支持超过100种语言,中英文理解能力出色,能生成高质量的文本内容,满足用户在写作、对话等多种场景下的需求。
    • 卓越的推理与指令执行能力:在数学、编程、逻辑和科学推理等任务中表现出色,能更准确地理解和执行复杂指令,减少错误和幻觉。
    • 长文本处理能力:支持256,000 tokens的上下文窗口,能处理长篇幅的文档和复杂的文本内容,适用于长文档分析和生成。
    • 多场景应用支持:适用于问答、写作、对话、编程辅助等多种场景,为用户提供多样化的解决方案。
    • 优化的翻译与常识推理能力:在翻译和常识推理方面进行了优化,更准确地进行跨语言交流和常识判断。
    • 企业级部署与API调用:支持通过阿里云百炼平台的API进行企业级部署,满足不同用户的需求,提供灵活的使用方式。

    Qwen3-Max-Preview的技术原理

    • 大规模参数训练:采用超过1万亿参数的模型架构,通过海量数据进行训练,提升模型对各种语言和知识的理解与生成能力。
    • 非推理模型架构:基于非推理模型设计,专注于语言理解和生成任务,避免了推理模型可能出现的复杂性和不确定性。
    • 多语言支持:通过多语言训练数据和优化算法,支持超过100种语言,增强模型在不同语言环境下的适应性和准确性。
    • 上下文窗口扩展:支持256,000 tokens的上下文窗口,能处理更长的文本内容,提升对长文档的理解和生成能力。
    • 优化的指令跟随:通过特定的训练方法和数据增强技术,提升模型对复杂指令的理解和执行能力,减少错误和幻觉。
    • 翻译与常识推理优化:在翻译和常识推理方面进行了针对性优化,提升模型在跨语言交流和常识判断中的表现。
    • 检索增强生成(RAG)优化:针对检索增强生成任务进行了优化,提升模型在结合外部信息进行生成时的效果和准确性。

    如何使用Qwen3-Max-Preview

    • Qwen Chat 网页界面:访问 Qwen Chat 官网进行免费试用,适合个人用户快速体验模型功能。
    • 阿里云百炼平台 API:通过阿里云百炼使用 API 接口,适合企业用户进行大规模部署和集成。
    • OpenRouter 集成:在 OpenRouter 平台上使用模型名称 qwen/qwen3-max,支持标准 OpenAI API 格式,方便开发者快速接入。
    • 本地部署:对于有隐私和安全需求的用户,可以考虑本地部署,但需要满足一定的硬件和软件条件。

    Qwen3-Max-Preview的应用场景

    • 智能客服:提供自动化的客户支持,快速响应用户问题,提高服务效率和质量。
    • 内容创作:辅助写作、生成文章、故事、文案等内容,激发创意,提升创作效率。
    • 编程辅助:帮助开发者生成代码片段、调试代码、解决编程问题,提高开发效率。
    • 教育辅导:为学生提供学习辅导,解答学术问题,辅助教学活动,提升学习效果。
    • 语言翻译:实现多种语言之间的翻译,促进跨语言交流,支持全球化业务。
    • 数据分析:处理和分析长文档,提取关键信息,辅助决策制定,提升工作效率。
  • Novix – AI科研平台,全流程科研Agent

    Novix是什么

    Novix 是专注于科学研究的 AI 平台,通过人工智能技术加速科学研究过程。能从新想法的生成到实验验证的整个过程为研究人员提供支持。具体功能包括生成突破性的研究假设、自动扫描和总结科学文献、创建详细的实验方案、进行复杂的数据分析、生成出版就绪的图表以及构建和优化机器学习模型。Novix 帮助研究人员快速推进项目,提高研究效率。

    Novix

    Novix的主要功能

    • 新想法生成:通过分析大量科学文献,识别不同领域间的未探索联系,生成突破性的研究假设。
    • 文献综述:自动扫描、综合和总结海量科学文献,帮助研究人员了解当前知识空白和新兴研究趋势。
    • 方法设计:创建详细的实验协议,涵盖方法论、统计方法和验证框架,满足特定的研究目标。
    • 数据分析:执行复杂的统计分析、模式识别和数据挖掘,提取有意义的见解。
    • 绘图生成:创建出版就绪的可视化图表、交互式图表和科学图形,自动进行样式和格式化。
    • 模型实现:构建、训练和优化机器学习模型,自动调整超参数并评估性能,适用于科学应用。
    • 四个专业 Agent
      • DeepSurvey:自动化文献综述,帮你读透几十篇文章,生成对比表格和研究脉络。
      • IdeaSpark:结合你的兴趣和最新研究,提出创新研究方向和潜在假设。
      • AutoExperiment:从零搭建实验,自动生成代码、运行、返回结果,并提供改进建议。
      • JupyterNotebook:直接在可交互 notebook 里写代码、跑数据分析,结果可视化一键生成。

    Novix的官网地址

    • 官网地址:https://novix.science/

    Novix的应用场景

    • 学术研究:帮助研究人员快速生成研究想法、设计实验方案、分析数据和撰写论文。
    • 工业研发:加速产品研发过程,提高实验效率,降低研发成本。
    • 教学与实训:支持教学和教研场景的快速转换,提供灵活的资源调度和弹性伸缩,方便师生使用。
    • 科研绘图:提供科研绘图功能,帮助研究人员更直观地展示研究成果。
    • 多模态资源整合:整合多模态资源与 AI 能力,有效消除跨系统操作的障碍。
  • 极客侧边栏 – AI浏览器扩展工具,集成AI助手和书签管理

    极客侧边栏是什么

    极客侧边栏是集成了 AI 助手和书签管理功能的浏览器扩展工具。支持多种浏览器,包括 Chrome、Edge 和 Firefox,能显著提升用户的上网效率。通过集成先进的 AI 模型,极客侧边栏可以快速解析文档、联网检索信息、生成图片、分析截图以及总结网页内容。提供跨平台的书签云同步功能,支持智能分类、一键整理和自动添加标签,帮助用户更好地管理书签。用户可以在浏览器侧边栏直接使用这些功能,无需切换标签页,操作便捷。极客侧边栏的界面简洁,性能稳定,数据传输加密。

    Geek Sidebar

    极客侧边栏的主要功能

    • AI 助手集成:深度集成多种顶尖 AI 大模型,支持快速解析文档内容、联网检索、AI 图片生成、智能截图分析和网页内容总结等智能功能。
    • 书签云管理:提供跨平台书签云同步,支持 Chrome、Edge 和 Firefox,采用端到端加密技术保障书签数据安全。具备智能分类建议、一键智能整理、自动添加标签等功能。
    • 效率工具:支持侧边栏网页应用、云笔记等功能,用户可在侧边栏直接加载兼容网站,实现分屏阅读,提升工作效率。
    • 简洁界面与流畅操作:界面简洁,操作流畅,数据加密传输,确保用户隐私和使用安全。
    • 跨平台兼容:支持多种浏览器和设备,方便用户在不同平台上使用,实现数据同步和功能共享。

    极客侧边栏的官网地址

    • 官网地址:https://www.geeksidebar.com/

    如何使用极客侧边栏

    • 安装扩展:在 Chrome、Edge 或 Firefox 浏览器商店中搜索 Geek Sidebar,点击安装按钮完成安装。
    • 登录账号:安装完成后,打开浏览器侧边栏,点击 Geek Sidebar 图标,使用邮箱注册或已有账号登录。
    • 使用 AI 助手:登录后,点击侧边栏中的 AI 助手图标,输入问题或上传文件,即可获得智能回答或内容解析。
    • 管理书签:在侧边栏的书签管理区域,可同步本地书签至云端,进行智能分类、整理和添加标签等操作。
    • 使用效率工具:点击侧边栏的网页应用或云笔记图标,直接加载兼容网站或记录笔记,实现分屏阅读和信息整理。
    • 反馈与设置:如有问题,可通过官网或侧边栏内的反馈入口联系客服。也可在设置中调整功能选项和个性化配置。

    极客侧边栏的应用场景

    • 学习与研究:快速获取资料,整理学习资源,提升学习效率。
    • 工作与办公:整理工作资料,快速检索信息,提高工作效率。
    • 写作与创作:提供灵感,辅助内容创作,整理创作素材。
    • 信息管理:智能整理书签,分类管理网页资源,方便快速查找。
    • 多任务处理:分屏阅读,同时处理多个任务,提升工作和学习效率。
  • OneCAT – 美团联合上交大推出的统一多模态模型

    OneCAT是什么

    OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对齐能力。

    OneCAT

    OneCAT的主要功能

    • 多模态理解:能高效处理图像和文本的多模态理解任务,无需外部视觉编码器或分词器,直接在纯解码器架构中实现对图文内容的深度理解。
    • 文本到图像生成:根据文本描述生成高质量图像,通过多尺度自回归机制逐步从低分辨率到高分辨率预测视觉标记,生成过程高效且生成效果出色。
    • 图像编辑:支持基于指令的图像编辑,将视觉生成过程条件化在参考图像和编辑指令上,无需额外架构修改即可实现强大的条件生成能力,可对图像进行精准的局部和全局调整。

    OneCAT的技术原理

    • 纯解码器架构:OneCAT采用纯解码器自回归Transformer模型,无需外部视觉组件,如视觉变换器(ViT)或视觉标记器,显著简化了模型结构,降低了计算开销,尤其在处理高分辨率输入时效率优势明显。
    • 模态特定的专家混合(MoE)结构:模型包含三个专门的前馈网络(FFN)专家,分别处理文本令牌、连续视觉令牌和离散视觉令牌,用于实现语言理解、多模态理解和图像合成。所有查询、键、值(QKV)和注意力层在不同模态和任务之间共享,提高了参数效率,增强了跨模态对齐能力。
    • 多尺度视觉自回归机制:在大型语言模型(LLM)中引入,以粗到细、层次化的方式生成图像,逐步从最低分辨率到最高分辨率预测视觉令牌,大幅减少解码步骤,同时保持最先进的性能。
    • 多模态多功能注意力机制:基于PyTorch FlexAttention,使模型能灵活适应多种模态和任务。文本标记采用因果注意力,连续视觉标记通过全注意力处理,多尺度离散视觉标记通过块状因果注意力处理。

    OneCAT的项目地址

    • 项目官网:https://onecat-ai.github.io/
    • Github仓库:https://github.com/onecat-ai/onecat
    • HuggingFace模型库:https://huggingface.co/onecat-ai/OneCAT-3B
    • arXiv技术论文:https://arxiv.org/pdf/2509.03498

    OneCAT的应用场景

    • 智能客服与内容审核:OneCAT的多模态理解能力能高效处理图像和文本内容,可用于智能客服系统中理解用户上传的图文信息并提供准确回复,也可用于内容审核领域,自动识别和筛选违规的图文内容。
    • 创意设计与数字内容创作:其文本到图像生成功能可根据文本描述生成高质量图像,为设计师和创作者提供创意灵感,快速生成符合需求的图像内容,可用于广告设计、影视特效制作、游戏开发等领域的前期概念设计。
    • 广告设计与营销:在广告设计中,OneCAT可以根据广告文案快速生成相应的图像素材,提高设计效率。可以用于生成个性化的广告内容,根据不同的目标受众生成符合其喜好的广告图像。
    • 影视后期制作:OneCAT的图像编辑功能可以用于影视后期制作中的图像修复、风格转换、特效添加等任务,帮助影视制作人员快速实现创意效果,提升制作效率。
    • 教育与学习:在教育领域,OneCAT可以生成与教学内容相关的图像,帮助学生更好地理解和记忆知识。例如,根据科学概念生成相应的示意图,或者根据历史事件描述生成相关的场景图像。
  • EmbeddingGemma – 谷歌开源的多语言文本嵌入模型

    EmbeddingGemma是什么

    EmbeddingGemma是谷歌开源的多语言文本嵌入模型,专为端侧AI设计,支持在笔记本、手机等设备上部署。模型拥有3.08亿参数,基于Gemma 3架构打造,支持100多种语言,量化后内存占用不到200MB,能在EdgeTPU上15ms内生成嵌入向量。模型在海量文本嵌入基准(MTEB)上表现优异,性能接近尺寸翻倍的Qwen-Embedding-0.6B,能生成高质量嵌入向量,支持离线运行,保护用户隐私,支持与Gemma 3n配合用在移动RAG管道、语义搜索等,是推动端侧智能普及的重要基石。

    EmbeddingGemma

    EmbeddingGemma的主要功能

    • 生成高质量文本嵌入向量:将文本转换为数值向量,在高维空间表征文本语义,精准捕捉语言细微差别与复杂特性,为后续应用提供坚实基础。
    • 支持多语言:涵盖100多种语言,满足跨语言应用需求,如多语言语义搜索、跨语言信息检索等,打破语言壁垒。
    • 灵活的输出维度:支持将输出维度从768自定义到128,开发者能根据实际需求在速度、存储和质量之间灵活权衡。
    • 端侧部署:经过量化后占用内存不到200MB,支持在EdgeTPU上快速生成嵌入向量,实现低延迟、离线运行,保护用户隐私。
    • 与多种工具集成:与sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等流行工具兼容,方便开发者快速集成到现有项目中。
    • 支持检索增强生成(RAG):支持与Gemma 3n配合构建移动优先的RAG管道,实现个性化、行业特定和离线支持的聊天机器人,提升语义搜索和问答系统的性能。

    EmbeddingGemma的技术原理

    • 基于Transformer架构:基于Gemma 3架构,一种改进的Transformer架构,能有效处理长文本序列,提供2K令牌上下文窗口,增强模型对长文本的理解能力。
    • Matryoshka表征学习(MRL):基于MRL技术,模型能生成多种维度的嵌入向量。开发者根据需求选择不同维度的向量,在性能和资源消耗之间达到最佳平衡。
    • 量化感知训练(QAT):为降低模型的内存占用和提高运行速度,EmbeddingGemma用量化感知训练技术。通过QAT,模型在保持较高性能的同时,显著降低内存使用量,在资源受限的设备上能高效运行。
    • 多语言训练:模型在训练过程中用来自100多种语言的大量文本数据,支持理解和生成多种语言的嵌入向量。
    • 端到端的文本处理:模型直接在设备硬件上生成文档嵌入,无需联网,确保用户数据的隐私和安全。模型用与Gemma 3n相同的分词器进行文本处理,进一步优化RAG应用的内存占用。

    EmbeddingGemma的项目地址

    • 项目官网:https://developers.googleblog.com/zh-hans/embeddinggemma-mobile-first-embedding-model/
    • HuggingFace模型库:https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

    EmbeddingGemma的应用场景

    • 检索增强生成(RAG):与Gemma 3n配合,构建移动优先的RAG管道,实现个性化、离线支持的聊天机器人,提升语义搜索和问答系统的性能。
    • 多语言应用:用在跨语言信息检索和多语言聊天机器人,打破语言壁垒,满足多语言环境需求。
    • 端侧AI:低内存占用和快速推理能力能在离线状态下运行,适用移动设备上的智能应用,保护用户隐私。
    • 文本分类与聚类:帮助将文本数据分类或聚类,用在数据挖掘和分析。
    • 语义相似度计算:用在文本相似度计算和推荐系统,判断文本语义相似度,提供精准推荐。
  • Vibe Coding实战项目:用Qwen3-Coder做了个AI跳舞视频生成器

    前段时间发现通义发起了一个 Qwen3-Coder 挑战赛,最高奖金有10000元,研究了一下,我发现这个赛道太宽了,不限项目,用 AI Coding 做数据分析、个人Blog、抓取信息等等都ok。

    小白也能参加,因为这场挑战赛很看重项目创意。

    官方还专门设置了“整活奖”,这不正是我擅长的吗?

    于是我小小的发挥了一下,做了一个有意思的小网站,在网站内上传一张个人照片,点击立即生成,就可以得到人物跳舞的视频。

    体验地址:https://kseek.ai/

    整个开发过程可以分为3步:

    构思设计,先想清楚要做一个什么项目,用什么模型

    生成调试,把需求交给Qwen3-Coder,生成前后端,再跑通流程

    优化页面布局,让网站看起来更完整

    这篇教程详细记录了这个网站开发的全过程和要点,全程不需要自己写代码,即使是完全看不懂代码的小白,跟着操作,也能搞定全栈开发

    如果你也想在自己的项目中接入AI大模型的各项能力,但又不知道从哪一步开始,这篇内容也许就能帮到你~

     

    01. 项目构思

     

    我们需要先明确需求,比如我最初的思路是通过接入大模型的API做一个图生视频的网站。

    我们打开阿里云百炼的模型广场,筛选视频生成模型,点击查看详情,了解一下这些模型的应用案例。

    比如图生视频,就分为首帧图片加输入提示词生成,和首帧图片使用视频特效生成(无需提示词),还有基于首尾帧的视频效果。

    我想做的AI跳舞视频生成工具,通过图生视频特效生成是更方便,也是效果更稳定的方案~

    于是我们的开发方向就变得具体且清晰了:使用 wanx2.1-i2v-plus 模型的图生视频特效功能,生成跳舞视频

     

    02. 网站开发

     

    我们可以看看阿里云百炼平台给出的API参考,了解模型 API 调用的一些条件和使用逻辑。

    还有具体使用什么模型的效果,比如我要用生成跳舞特效的视频,在阿里云给出的示例表格里 template 参数值是 dance2。

    当然,我们看不懂也没关系,直接把这些内容打包发给 Qwen3-Coder,让它现学现用。通过平台的这些信息帮我们完成开发。

    我们下载VS Code,安装通义灵码插件,关于通义灵码的使用可以看这篇教程AI零成本搭建个人网站,小白3步搞定!

    点击左上角的文件,打开一个空白的文件夹,后续的项目文件都会存储在这里~

    在通义灵码中选择 Qwen3-Coder 模型,智能体模式。在这个模式下,我们只需要说需求,Qwen3-Coder 就可以调用合适的工具帮我们完成开发项目。

    我们先输入开发需求和阿里云百炼官方给出的一些要求和示例代码,让 Qwen3-coder 先做一个图生视频的网站。

    Qwen3-coder 开发的过程中,我们只需要手动点点接收、执行就可以,每次执行完任务,它都会在最后总结汇报,我们一起来看看:

    Qwen3-coder 创建了一个完整的包含前后端的全栈项目,并且实现了我们想要的图生视频功能。

    我们按照 Qwen3-coder 回复的使用说明来操作一下。

    我们直接点击代码上方的文件名称,点击 Qwen3-coder 说的 backend/.env 文件。

    在阿里云百炼新建API Key,输入到这里。

    接着我们按照提示启动后端。

    在调试过程中,我们经常会用到这两行代码:

    cd backend

    npm run dev

    我发现其实这两行代码分别代表:把路径更新到后端文件所在的文件夹,启动终端。

    要注意的是,如果默认打开的位置和终端文件夹不在一个系统盘,backend就需要改成完整的文件地址,比如,D:\backend

    执行命令后,终端出现了后端的端口地址,代表后端服务已经成功启动了。

    在编辑器最上方点击新建终端。

    再复制启动前端的代码,用同样的方法启动前端。

    cd frontend

    npm run dev

    估计你也猜到了,这两行代码就是把路径更新到前端文件夹,启动终端。

    按住crtl,同时单击端口地址,我们就可以通过浏览器访问前端啦。

    前端整个界面非常简单,只有两个按钮,一个上传图片,一个生成视频。

    我试着操作一下,上传图片的逻辑是通的,但是生成视频出现了报错。

    咱们可以把报错信息直接截图发给 Qwen3-coder ,让它根据报错信息修改。

    它会根据问题做出调整,并且告诉我们它做了哪些更改以及后续建议。

    需要特别注意的是,我们需要按照阿里云百炼的请求示例说明,让 Qwen3-coder 将oss://…替换为真实的临时 URL。

    这下网站就可以正常运行啦。

     

     03. 前端优化

     

    我感觉这个网站有些过于简洁了,不够好看,于是我让 GPT-5 生成了一套前端UI代码;

    生成一个图生视频网站的前端UI界面,主色调为奶白+雾紫,果冻质感,Linear 风格;

    然后可以根据它做出的网站,再慢慢优化调整页面布局,比如:

    提示词:网站名称修改为:AI 跳舞视频生成器

    编辑介绍语:上传照片,AI 帮你生成一段跳舞视频

    上传图片下方小字提醒:

    支持单人照片;建议使用半身至全身的正面照片

    图片和视频的尺寸均为3:4,调整合适的布局

    预览效果合适之后,就可以点击右上角,下载代码。

    将这段代码文件放进项目文件夹,作为上下文添加。

    提示词:用我给你的组件代码应用到前端布局,不改变逻辑。

    Qwen3-coder 修改之后,我们重新进入前端页面,网站不仅可以运行,而且看上去也比较美观啦~

     

     04. 一些分享

     

    像我这样的文科生,也能靠AI完成网站的全栈开发,想想还是挺激动的~

    不过开发完项目还没结束,想要拿 Qwen3-Coder 挑战赛的万元大奖,还需要报名参赛、完成项目的提报和展示。

    传统开发要手写数据结构、算法,一行行敲代码,还得熟悉各种编程语言,门槛高、成本也高,是一门需要长期学习才能获得的专业技能。

    现在有了 Vibe Coding ,我们只需要把想法表达清楚,AI 就能搭好项目,还能根据我们的反馈一点点打磨。

    更重要的是,在实践过程中,我们会不断接触到新的知识,也会在一次次尝试中积累经验。AI 带来的,不只是效率和便利,还有认知的提升。

    在 Qwen3-Coder 上,这种体验尤为明显。比如我想做一个项目,只要说几个关键词,Qwen3-Coder 秒懂我要干啥,还能用我也能看懂的方式把项目讲得清清楚楚。

    或许开发正在进入一种新范式,代码不再是起点,想法才是。

    原文链接:看不懂代码的我,用Qwen3-Coder做了个AI跳舞视频生成器

  • Fellou CE – Fellou AI推出的空间Agentic浏览器

    Fellou CE是什么

    Fellou CE是创新的AI浏览器,为全球首款空间Agentic浏览器,通过独特的Z轴空间界面,为每个任务创建独立空间,减少任务干扰,提升多任务处理效率。浏览器核心功能是代理引擎,能理解用户复杂意图、自主执行多步任务,如自动整理资料、生成报告等。Fellou CE具备深度搜索与可视化报告功能,免费为用户提供跨多源的自动化研究和个性化报告。Fellou CE基于本地优先模式,确保用户数据安全,隐私无忧。Fellou CE是一个浏览器,更是用户的智能助手,帮助用户从繁琐的操作中解放出来,专注于创造和决策。

    Fellou CE

    Fellou CE的主要功能

    • 空间界面(Spatial Interface) :引入Z轴,为每个任务创建独立空间,减少任务间的干扰,提升多任务处理效率。
    • 动态多任务(Dynamic Multitasking) :后台自动处理任务,前台操作不受影响,实现真正的并行处理。
    • 影子工作区(Shadow Workspace) :后台追踪和管理操作,方便用户找回遗忘的信息,提供实时干预功能。
    • Fellou Home :三维书桌式界面,直观组织书签、历史记录、文件和任务清单,能减轻用户认知负担。
    • 代理引擎(Agentic Engine) :支持理解用户复杂意图并自主执行多步任务,如自动整理资料、生成报告等。
    • 深度搜索与可视化报告(Deep Search & Visual Report) :免费为用户提供跨多源的自动化研究和个性化报告,信息来源可追溯。
    • 并行多代理操作(Parallel Multi – Agent Operations) :多个AI代理能同时处理不同任务,提高工作效率。
    • 无缝集成(Seamless Integration) :打破应用、数据和记忆之间的壁垒,实现本地文件与网页的无缝交互。
    • 控制与便利(Control and Convenience) :可视化整个自动化流程,让用户实时编辑、批准或修改步骤。
    • 信任与透明(Trust & Transparency) :基于本地优先、隐私优先的模式,确保用户数据安全,透明展示任务执行所需积分(Sparks)。

    如何使用Fellou CE

    • 下载与安装:访问Fellou CE官网 https://fellou.ai/。根据操作系统(如Mac或Windows)下载相应的版本并安装。
    • 注册与登录:完成账号注册和登录。
    • 输入指令:在Fellou CE的输入框中输入指令或目标,例如“帮我整理上周的研究资料”或“生成一份市场分析报告”。
    • 查看执行过程:Fellou CE将指令分解为多个步骤,在后台自动执行。用户通过界面能实时查看每个步骤的执行情况,进行干预或修改。
    • 深度搜索与报告:用Deep Search功能,输入关键词或问题,Fellou CE自动从多个来源搜索信息,生成可视化的报告。
    • 管理任务:Fellou CE自动将复杂任务分解为多个子任务,在不同的空间中并行处理。用户设置任务的执行时间,Fellou CE在指定时间自动执行任务。
    • 数据与文件管理:通过Fellou CE直接管理本地文件,如搜索、移动和组织文件。
    • 跨应用集成:用Fellou CE在不同应用之间无缝传输数据,例如从邮箱下载附件,直接导入到文档编辑器中。

    Fellou CE的应用场景

    • 工作效率提升:Fellou CE能自动执行多步任务,如“帮我整理上周的研究资料”,自动调取历史记录和本地文档,生成资料集提高工作效率。
    • 旅行规划助手:输入“三天两夜东京行程”,Fellou CE自动分解成订机票、安排酒店、生成攻略、管理预算等子任务,轻松完成旅行计划。
    • 学习资料整理:学生用Fellou CE收集学习资料,如“查找关于量子力学的入门资料”,助力学习。
    • 创意激发与实现:输入“设计一间面朝大海的木屋”,Fellou CE能生成效果图、转成3D模型,让创意快速落地。
    • 健康生活管理:用户能设置健康目标,如“制定一周的健身计划”,Fellou CE根据身体状况和目标,生成个性化健身计划和饮食建议活。
  • 小朋友知识卡片 – AI知识卡片生成工具,变成生动有趣卡片

    小朋友知识卡片是什么

    小朋友知识卡片是AI 知识卡片生成工具,能将任何知识点变成生动有趣的知识卡片,适合孩子学习。输入知识点后,工具自动生成包含详细介绍、对比、案例和总结的知识卡片。卡片语言通俗易懂,能将复杂概念简单化,帮助孩子快速理解。工具完全免费,适合孩子科普和成人快速学习新概念。

    小朋友知识卡片

    小朋友知识卡片的主要功能

    • 知识点简化与趣味化:将复杂的知识点用简单、有趣的方式呈现,帮助孩子更容易理解和接受。
    • 生成知识卡片:输入任何知识点,工具自动生成包含详细介绍、对比、案例和总结的知识卡片。
    • 语言通俗易懂:用孩子易于理解的语言,避免晦涩难懂的专业术语。
    • 免费使用:完全免费,无需付费即可使用所有功能。
    • 支持多种主题:涵盖广泛的学科和主题,如自然科学、历史、数学等,满足不同学习需求。

    如何使用小朋友知识卡片

    • 访问官网:访问小朋友知识卡片官网 https://v0-card-generation-app.vercel.app/
    • 获取API Key:访问 Gemini API Key 获取页面并注册账号,获取API Key。
    • 配置工具:在小朋友知识卡片生成器页面,输入API Key进行配置。
    • 输入知识点:在配置完成后,输入想要了解的知识点,比如“太阳系行星”“恐龙灭绝”等。
    • 生成知识卡片:点击生成按钮,工具自动生成一张包含详细介绍、对比、案例和总结的知识卡片。
    • 查看和使用卡片:生成的知识卡片以简洁有趣的方式展示知识点,适合孩子学习和理解。

    小朋友知识卡片的应用场景

    • 家庭学习:家长和孩子一起使用,生成知识卡片,能增进亲子互动,激发孩子学习兴趣。
    • 学校教育:教师将生成的知识卡片作为教学辅助材料,帮助学生更好地理解复杂的知识点,提升课堂教学效果。
    • 在线教育:在线教育平台融入课程内容,丰富教学资源,帮助学生更好地理解和记忆知识点。
    • 图书馆和学习中心:图书馆和学习作为儿童阅读材料,提供给小读者,丰富学习资源,拓宽孩子知识面。
    • 科普活动:在科普展览和社区科普活动中,介绍科学知识,吸引参观者的兴趣,普及科学知识。