Blog

  • LangExtract – 谷歌开源的结构化信息提取工具

    LangExtract是什么

    LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织关键细节,确保提取的数据与源文本精确对应。LangExtract支持多种 LLM,包括云托管模型(如 Google Gemini)和本地开源模型(通过 Ollama 接口)。LangExtract 无需模型微调,适用任何领域,用少量示例定义提取任务,大大降低使用门槛。

    LangExtract

    LangExtract的主要功能

    • 精确源定位:将每次提取映射到源文本的确切位置,支持视觉高亮显示,便于验证和追溯。
    • 可靠的结构化输出:基于用户提供的示例,强制执行一致的输出架构,确保提取结果的准确性和一致性。
    • 长文档处理:基于优化的文本分块、并行处理和多轮提取,高效处理大型文档,提高召回率。
    • 交互式可视化:生成交互式 HTML 可视化文件,方便用户在原始上下文中审查数千次提取。
    • 灵活的模型支持:支持多种大型语言模型(LLM),包括云托管模型(如 Google Gemini)和本地开源模型(通过 Ollama 接口)。
    • 领域适应性:用少量示例定义提取任务,无需模型微调,适用任何领域。
    • 用 LLM 的世界知识:基于精确的提示词和示例,引导 LLM 用其知识库进行更智能的提取。

    LangExtract的技术原理

    • 大型语言模型(LLM):LangExtract 用预训练的大型语言模型(如 Google Gemini 或 OpenAI 的 GPT 系列)理解文本内容并生成提取结果。通过用户提供的提示词(prompt)和示例,引导 LLM 生成符合需求的结构化信息。
    • 文本分块与并行处理:对于长文档,LangExtract 将文本分割成多个小块(chunks),便于模型高效处理。用并行处理技术,同时处理多个文本块,显著提高处理速度。
    • 多轮提取:为提高提取的召回率,LangExtract 进行多轮提取。每轮提取都会关注不同的文本块,确保不遗漏重要信息。
    • 精确源定位:每次提取的结果都会映射回源文本的确切位置,确保提取的准确性和可追溯性。提供视觉高亮功能,方便用户在原始文本中验证提取结果。

    LangExtract的项目地址

    • 项目官网:https://pypi.org/project/langextract/
    • GitHub仓库:https://github.com/google/langextract

    LangExtract的应用场景

    • 医疗行业:从电子病历中提取患者的病史、症状、诊断结果等关键信息,辅助医疗数据分析和研究。
    • 法律领域:提取合同条款、法律文书中的关键信息,助力法律专业人士快速定位重要内容。
    • 金融领域:从财务报告、交易记录中提取关键财务指标和交易信息,用在风险评估和合规检查。
    • 科研文献:从科研论文中提取实验参数、数据表和关键结论,便于科研人员进行文献综述和数据挖掘。
    • 商业文档:自动从发票、订单和市场调研报告中提取关键信息,提高商业文档处理效率。
  • 如何用DeepSeek+Kimi制作PPT?3分钟AI自动生成

    你知道吗?制作 PPT 可以变得超简单,是当你掌握了 DeepSeek + Kimi 这个超棒的组合拳!无论是汇报工作、展示项目,还是分享知识,高效生成一份精美、专业又富有创意的 PPT ,让人眼前一亮。

     

    1. 整体思路

     

    DeepSeek 生成文案,Kimi 制作 PPT。

    结合 DeepSeekKimi 两款AI工具的优势。用DeepSeek 强大的自然语言处理能力生成结构清晰、内容丰富的 PPT 文案,以 Markdown 格式输出;将 Markdown 文案导入Kimi PPT 助手,通过智能排版和模板套用功能,一键生成PPT。

     

    2. 操作步骤

     

    第一步:使用 DeepSeek 生成 PPT 文案 (Markdown 格式)

    访问 DeepSeek 的官方网站,登录账户。

    进入对话界面后,向 DeepSeek 输入清晰的指令。

    有效的指令应包含以下关键信息:明确的主题、期望的输出格式(Markdown)、内容结构要求(如包含封面、目录、特定章节数量、子论点数量、总结页等)、以及语言风格(如简洁、专业、避免口语化等)。

    可以输入指令:

    “请用 Markdown 格式生成一份关于 AI in Education 的 PPT 大纲,需包含封面、目录、3 个核心章节(每章至少 2 个子论点)、总结页,语言简洁专业。” 。

    DeepSeek 会根据指令生成相应的 PPT 文案。在生成过程中,用户可以进一步与 DeepSeek 交互,对内容进行调整和优化,例如要求添加数据支撑、调整章节顺序或修改具体表述。生成完成后,用户需要仔细检查文案的逻辑性、完整性和准确性,确保符合预期。

    将生成的 Markdown 格式文案全选并复制,方便后续在 Kimi PPT 助手中使用。

    示例

    # AI in Education: Transforming Learning Landscapes
    **Presented by:** [Your Name]
    **Date:** [Month, Year]

    ## **Table of Contents**
    1. **Introduction to AI in Education**
    2. **Key Applications of AI in Learning**
    – Personalized Learning
    – Automated Assessment
    3. **Challenges and Ethical Considerations**
    – Data Privacy
    – Equity and Accessibility
    4. **Future Trends and Opportunities**
    5. **Conclusion**

    ### **1. Introduction to AI in Education**
    – **Definition**: AI technologies (e.g., NLP, ML) enhancing teaching/learning processes.
    – **Scope**: From K-12 to higher education and corporate training.

    ### **2. Key Applications of AI in Learning**
    #### **2.1 Personalized Learning**
    – Adaptive learning platforms (e.g., Duolingo, Khan Academy).
    – AI-driven tutoring systems for real-time feedback.

    #### **2.2 Automated Assessment**
    – Grading automation (e.g., essay scoring via NLP).
    – Plagiarism detection and learning analytics.

    ### **3. Challenges and Ethical Considerations**
    #### **3.1 Data Privacy**
    – Risks of student data misuse (GDPR/FERPA compliance).
    – Balancing personalization with privacy.

    #### **3.2 Equity and Accessibility**
    – Bias in AI algorithms (e.g., underrepresented groups).
    – Digital divide in resource-limited settings.

    ### **4. Future Trends and Opportunities**
    – AI-powered virtual classrooms.
    – Lifelong learning with AI mentors.
    – Integration of AR/VR + AI.

    ## **Conclusion**
    – **Summary**: AI enhances efficiency, personalization, and scalability in education.
    – **Call to Action**: Address ethical risks, invest in equitable AI tools.

    **Q&A** | **Thank You!**

    使用 Markdown 格式是因为层级清晰(如使用 # 表示标题,- 表示列表项),能被 Kimi PPT 助手准确解析,提高转换效率和排版质量 。

    第二步:使用 Kimi PPT 助手一键生成 PPT

    访问 Kimi PPT助手 的官方网站。

    在 Kimi 的左侧菜单栏中点击“PPT 助手”,或在“Kimi+”中点击“PPT 助手”功能。

    Kimi PPT助手

    进入PPT 助手界面,将之前从 DeepSeek 复制的 Markdown 格式文案粘贴到此输入框中,点击发送按钮。

    Kimi PPT 助手会自动解析 Markdown 内容,识别出标题、正文、列表等元素,进行初步的排版。

    解析完成后,会弹出“一键生成 PPT”按钮点击进入模板选择阶段。

    Kimi 提供了多种不同风格和场景的 PPT 模板供用户选择,用户可以根据自己的主题和偏好挑选合适的模板。选定模板后,点击“生成 PPT”,Kimi PPT 助手会开始将文案内容与模板结合,自动生成幻灯片。

    生成完成后,用户可以在线预览 PPT 效果,进行进一步的编辑和调整,如修改文字、调整布局、替换图片、更改主题颜色等 。

    确认无误后,可将 PPT 导出为 PPTX 格式(用于在 PowerPoint 等软件中进一步编辑)或 PDF 格式(用于直接分享或演示)。

     

    3. 技巧与注意事项

     

    DeepSeek 指令优化技巧

    为了从 DeepSeek 获取高质量、符合预期的 PPT 文案,优化指令(Prompt)至关重要。

    1. 指令应尽可能清晰、具体和明确。明确指出 PPT 的主题、目标受众(例如,“对 DeepSeek 还不太了解的小伙伴” 或“医疗行业专业人士” )、期望的页数或大致内容量、核心章节和关键论点 。

    2. 强调输出格式为 Markdown,指明 Markdown 的层级结构(例如,要求包含标题、分页等 Markdown 符号)。有助于 Kimi PPT 助手准确解析。可以尝试开启 DeepSeek 的“深度思考”模式(如 R1 模式)和“联网搜索”功能,获取更深入和更新的内容。

    3. 可以进行多轮对话,通过追加指令来修正和完善内容 。例如,可以要求 DeepSeek 在特定部分加入案例或数据支撑 。对于学术型 PPT,可以要求以学术风格撰写,注重专业性和严谨性 。避免过于宽泛或模糊的指令,将需求分解为具体的、可操作的点。

    例如,与其说“帮我写个 PPT”,不如说“帮我写一份关于 XX 主题的 10 页 PPT,目标受众是 XX,需要包含简介、背景、核心优势、应用案例和总结,用 Markdown 格式输出,一级标题为 #,二级标题为 ##,三级标题为 ###”。

    Kimi PPT 助手使用技巧

    Kimi PPT 助手的使用相对直观,但掌握一些技巧可以进一步提升生成 PPT 的效率和质量。

    1. 确保粘贴到 Kimi PPT 助手的 Markdown 内容格式正确且完整,特别是标题层级的标记,是 Kimi 识别分页和内容结构的关键 。

    2. 在模板选择阶段,不要急于点击生成,可以花时间浏览选择一个与 PPT 主题和受众最匹配的模板。选择合适的模板能事半功倍。

    3. 可以充分使用 Kimi 提供的在线编辑功能进行调整 。包括修改文本内容、调整字体大小和样式、更换图片、修改颜色,切换到其他模板。

    4. 在导出前,建议在 Kimi 内预览动画效果(如果模板包含过渡动画)。

    5. 下载时,建议选择 PPTX 格式,方便在本地 PowerPoint 软件中进行更灵活的编辑和调整。

     

    4. 生成效果浅赏

     

  • Vinsoo Code – 全球首个多Agent云端协作编程AI IDE

    Vinsoo Code是什么

    Vinsoo Code 是国内创业公司芸思智能(AiYouthLab)推出的 AI 编程IDE,专为项目级开发设计,采用云端多Agent协作模式,开发者只需提出需求,系统中的多个智能体便会自动分工,完成从代码生成、测试调试、修复缺陷到结果验收和部署的完整开发链路。系统支持“本地IDE + 云端Agent”的工作模式,开发者可以在本地IDE中一键切换至云端Agent界面,将本地项目同步至云端,系统会为每个项目建立独立且安全的运行环境,避免了AI生成代码影响本地环境的问题。Vinsoo Code 提供了Vibe Mode和Full Cycle Mode两种运行模式,分别适合快速原型探索和系统性开发。

    Vinsoo

    Vinsoo Code的主要功能

    • 多Agent云端协作:系统支持多个AI Agent在云端并行工作,自动分工完成代码生成、测试调试、修复缺陷、结果验收和部署等完整开发流程。
    • 多终端联调:支持前端、后端、数据库等不同模块在多个终端上部署和运行,自动处理模块间通信和协同调试。
    • 代码安全与隔离:采用云端沙盒隔离环境,为每个项目创建独立运行空间,防止AI误操作影响本地文件或数据。
    • 智能代码生成与补全:基于多文件分析和实时上下文,提供准确的代码生成和补全建议。
    • 代码库索引与理解:快速索引大型项目代码库,帮助Agent迅速定位和理解代码问题。
    • 版本控制集成:内置Git支持,方便版本管理、代码回滚和外部仓库同步。
    • 双模式支持:提供Vibe Mode(快速原型开发)和Full Cycle Mode(完整项目开发)两种模式。
    • WebView可视化调试:Agent可通过WebView模拟用户交互,观察动态变化,实现界面级的测试和调试。

    如何使用Vinsoo Code

    • 申请邀请码:目前 Vinsoo Code 已开放邀请码申请,优先邀请国内用户,可访问Vinsoo的官网:https://www.aiyouthlab.com/申请。
    • 本地 IDE 配置:在本地安装支持的 IDE(如 VS Code 等),并完成相关配置。
    • 同步项目至云端:在本地 IDE 中一键切换至浏览器内嵌的云端 Agent 界面,将完整的本地项目同步至云端,系统会为每个项目自动建立独立且安全的运行环境。
    • 任务分配与开发:将不同的任务(如代码生成、测试调试、缺陷修复、结果验收以及自动部署等)派发给各个 Agent,它们会自动分工完成完整开发链路。
    • 选择运行模式:根据开发需求选择运行模式,Vibe Mode 适合快速原型探索与实验,Full Cycle Mode 适合中大型项目或需要规范交付的正式项目。
    • 自动调试与交付:系统启动后会自动进行饱和式调试和持续验证,直到交付可用的最终成果。

    Vinsoo Code的应用场景

    • 项目级开发:Vinsoo Code 专为周期长、团队协作要求高、交付目标明确的项目级开发设计。通过模拟人类开发团队的分工,实现从需求提出到部署的全流程自动化。例如,对于电商平台等复杂项目,开发者可以用 Vinsoo Code 的 Full Cycle Mode,让 AI 团队自动完成前后端代码、数据库配置和联调。
    • 快速原型设计:个人开发者可以用 Vinsoo Code 的 Vibe Mode 快速生成代码原型。例如,开发一个数据可视化仪表盘时,AI 可以生成 ECharts 代码并测试渲染效果,节省手动编写代码的时间。
    • 团队协作开发:分布式团队可以通过 Vinsoo Code 的 Full Cycle Mode 协作开发复杂项目。开发者可以将项目划分为前端、后端、算法、测试、运维等不同模块,将各模块的任务分别指派给专门的 Agent 去并行完成。
    • 编程教育:学生可以通过 Vibe Mode 学习代码生成逻辑,导师可以创建共享项目指导学生完成任务,适合编程教学和实践。
  • 知了追踪 – 深言科技推出的AI信息追踪助手

    知了追踪是什么

    知了追踪是北京深言科技有限责任公司推出的AI驱动的信息追踪助手,帮助用户解决信息过载的问题。通过智能算法,聚合、筛选并总结用户关心的各类动态信息。用户可以自定义追踪话题,输入关键词后,AI会自动从全网信源中获取最新动态,提炼重点内容,以高效的方式推送关键信息。应用覆盖了国内外主流的信息来源,涵盖行业趋势、科技动态、热点事件和娱乐八卦,能实时追踪并更新。支持多种使用场景,包括二手票源查询、考试资讯获取等。

    知了追踪

    知了追踪的主要功能

    • 自定义追踪话题:用户可以输入自己感兴趣的关键词或话题,AI会自动追踪这些话题的最新动态。
    • 全网信源覆盖:整合了国内外主流的信息来源,确保用户不会错过任何重要信息。
    • 智能总结功能:AI能提炼信息的重点内容,帮助用户快速获取关键信息,节省时间。
    • 实时推送更新:持续追踪用户感兴趣的话题,实时推送更新,让用户随时掌握最新动态。
    • 多场景支持:适用于多种场景,包括追踪科技动态、二手票源、考试资讯、热点事件等。
    • 高效信息管理:通过AI技术,帮助用户在海量信息中快速找到自己需要的内容。
    • 个性化体验:用户可以根据自己的兴趣和需求,自定义追踪的话题,获得个性化的信息推送。

    如何使用知了追踪

    • 下载与安装:访问知了追踪的官方应用商店,下载应用。
    • 注册与登录:打开应用后,用户需要注册一个账号。登录后,用户可以开始使用应用的全部功能。
    • 输入关键词:在应用首页的搜索框中输入你感兴趣的关键词或话题,例如“人工智能”“股票市场”“体育赛事”等。
    • 选择追踪:点击“追踪”按钮后,AI会自动开始追踪这些话题的最新动态。
    • 信源选择:应用会自动从国内外主流信源中获取信息,用户无需手动选择信源。
    • 信息聚合:AI会将来自不同信源的相关内容聚合在一起,确保用户不会错过任何重要信息。
    • 自动总结:AI会自动提炼每条信息的重点内容,生成摘要。
    • 推送设置:用户可以在设置中选择是否开启实时推送功能,以及推送的频率(如即时、每小时、每天等)。

    知了追踪的应用场景

    • 科技领域:用户可以追踪最新的人工智能、区块链、5G通信等技术的发展动态,帮助他们保持行业前沿。
    • 金融领域:追踪股票市场动态、金融政策变化、行业分析报告等,为投资者和从业者提供及时的信息支持。
    • 热点事件追踪:追踪国际重大事件的最新进展,如国际冲突、贸易协定、外交动态等。关注国内的政策变化、社会热点事件、文化活动等,帮助用户及时了解国家大事。
    • 学术研究:追踪最新的学术研究成果、学术会议动态、研究热点等,适合高校学生和科研人员。
    • 市场动态:追踪行业市场动态、企业财报、新产品发布等信息,帮助商业人士和投资者做出更明智的决策。
  • Quin – AI塔罗占卜应用,模拟真实塔罗占卜流程

    Quin是什么

    Quin是基于人工智能技术开发的塔罗占卜应用。通过模拟真实塔罗占卜的流程,为用户提供个性化、即时的占卜体验。用户可以随时随地向Quin提问,描述自己的困惑或需求,Quin会根据问题匹配相应的塔罗牌,提供精准的解读和预测。保留了传统塔罗牌的仪式感,比如洗牌、抽牌等环节,能通过AI技术快速响应,帮助用户理清思路、解决问题。Quin注重隐私保护,确保用户在安全的环境中探索塔罗世界。支持分享功能,方便用户与朋友交流占卜结果。Quin将古老智慧与现代科技相结合,为塔罗爱好者和寻求心灵指引的人提供了一种全新的选择。

    Quin

    Quin的主要功能

    • 个性化塔罗解读:Quin能根据用户描述的具体问题,匹配最相关的塔罗牌,提供深入、个性化的解读。能解释牌面的含义,结合用户的实际情况,给出针对性的建议和预测。
    • 即时占卜体验:用户无需预约或等待,随时随地可以向Quin提问。无论问题的复杂程度如何,Quin能快速给出回应,帮助用户即时获得答案。
    • 仪式化占卜流程:Quin模拟了线下塔罗占卜的仪式感,用户可以通过互动式轮盘洗牌、抽牌,仿佛置身于真实的占卜场景中。
    • 每日塔罗牌测试:Quin提供每日塔罗牌测试功能,用户可以通过主屏小工具快速抽取每日牌,帮助开启新的一天,了解当天的运势或需要注意的事项。
    • 隐私保护:Quin非常注重用户的隐私,所有对话和问题都严格保密,用户可以放心提问,无需担心隐私泄露。
    • 分享功能;用户可以将占卜结果分享给朋友,方便与他人交流和探讨。

    Quin的官网地址

    • 官网地址:https://quin.love/cn

    Quin的应用场景

    • 职业发展:用户可以通过Quin咨询职业选择、晋升机会、工作环境等问题,获得塔罗牌的指引和建议,帮助他们更清晰地规划职业道路。
    • 心理健康:Quin可以作为情绪疏导的工具,帮助用户通过塔罗牌的象征意义来探索内心深处的想法和感受,缓解焦虑和压力。
    • 日常运势:通过每日塔罗牌测试,用户可以了解当天的整体运势,包括健康、财运、人际关系等方面,更好地安排当天的活动。
    • 艺术创作:艺术家和创意工作者可以通过Quin的塔罗牌解读获得灵感,将塔罗牌的象征意义融入到作品中。
  • MiDashengLM – 小米开源的高效声音理解大模型

    MiDashengLM是什么

    MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,用通用音频描述对齐策略,实现对语音、环境声音和音乐的统一理解。模型性能卓越,推理效率高,首 Token 延迟仅为业界先进模型的 1/4,支持大规模并行处理。模型训练数据完全开源,支持学术和商业用途,适用于智能座舱、智能家居等场景,推动多模态交互体验升级。

    MiDashengLM

    MiDashengLM的主要功能

    • 音频描述(Audio Captioning):将音频内容(包括语音、环境声、音乐等)转化为自然语言描述,帮助用户快速理解音频信息。
    • 音频分类(Audio Classification):识别音频中的特定类别(如语音、环境声、音乐等),用在环境声音识别、音乐分类等场景。
    • 语音识别(Automatic Speech Recognition, ASR):将语音转换为文本,支持多种语言,广泛应用在语音助手、智能座舱等场景。
    • 音频问答(Audio Question Answering):根据输入的音频内容回答相关问题,适用智能座舱中的环境声音问答、音乐问答等。
    • 多模态交互(Multimodal Interaction):结合音频和其他模态(如文本、图像)进行综合理解,提升智能设备的交互体验。

    MiDashengLM的技术原理

    • 模型架构
      • 音频编码器:基于 Xiaomi Dasheng 音频编码器,负责将输入的音频信号转换为高维特征表示。Dasheng 编码器在音频理解任务中表现出色,在处理非语音类音频(如环境声音和音乐)时,能提取丰富的语义信息。
      • 解码器:基于 Qwen2.5-Omni-7B Thinker 自回归解码器,负责将音频编码器提取的特征转换为自然语言描述。解码器支持多种任务,包括音频描述、音频问答和语音识别等。
    • 训练策略
      • 通用音频描述对齐:基于通用音频描述对齐策略,避免传统 ASR 转录方法的局限性,通过非单调的全局语义映射,迫使模型学习音频场景的深层语义关联,实现对语音、环境声音和音乐的统一理解。
      • 多专家分析:训练数据基于多专家分析管道生成,包括语音、人声、音乐和环境声学的细粒度标注,再用 DeepSeek-R1 推理大模型合成统一描述。
      • 数据集:用公开数据集进行训练,涵盖语音、环境声音、音乐等多个领域,总时长超过 100 万小时。训练数据的原始标签在预训练中被弃用,只用新的丰富文本描述标签,迫使模型学习更丰富全面的声音信息。
    • 推理效率优化
      • 高效推理:通过优化音频编码器设计,将输出帧率从 Qwen2.5-Omni 的 25Hz 降低到 5Hz,显著降低计算负载并提高推理效率。
      • 大规模并行处理:支持更大的批量处理(batch size=512),在 80GB GPU 上处理 30 秒音频并生成 100 个 token 时,MiDashengLM 的吞吐量速度是 Qwen2.5-Omni-7B 的 20 倍以上。

    MiDashengLM的项目地址

    • GitHub仓库:https://github.com/xiaomi-research/dasheng-lm
    • HuggingFace模型库:https://huggingface.co/mispeech/midashenglm-7b
    • 技术论文:https://github.com/xiaomi-research/dasheng-lm/blob/main/technical_report/MiDashengLM_techreport.pdf
    • 在线体验Demohttps://huggingface.co/spaces/mispeech/MiDashengLM-7B

    MiDashengLM的应用场景

    • 智能座舱:基于语音助手和环境声音识别,提升驾驶安全性和交互体验。
    • 智能家居:用语音控制和环境声音监测,实现便捷的家居自动化。
    • 语音助手:提供多语言语音识别和智能对话,满足用户多样化需求。
    • 音频内容创作与标注:自动生成音频描述和标签,提高内容创作效率。
    • 教育与学习:为用户辅助语言和音乐学习,提供发音反馈和理论指导。
  • Animated Drawings – Meta AI推出的AI手绘作品转动画工具

    Animated Drawings是什么

    Animated Drawings是Meta AI推出的开源工具,基于AI技术将手绘人物绘画自动转化为动画。Animated Drawings提供一套完整的工具和算法,能检测、分割绘画中的人物,为其生成动画效果。用户能通过配置文件灵活控制动画的场景、动作和角色。工具提供自动注释生成工具,帮助用户快速创建动画所需的注释文件。Animated Drawings支持多种输出格式,如MP4视频和透明GIF。

    Animated Drawings

    Animated Drawings的主要功能

    • 自动动画化手绘人物:将用户上传的手绘人物绘画自动转化为动画,支持多种动作和场景。
    • 灵活的配置文件:基于配置文件(如yaml格式)控制动画的细节,包括角色动作、场景设置等。
    • 自动注释生成:用AI模型自动检测绘画中的人物并生成注释文件(如关节位置、分割掩码),简化动画制作流程。
    • 多格式输出:支持输出为MP4视频、透明GIF等格式,满足不同使用需求。
    • 多角色与背景添加:支持在动画中添加多个角色和背景图像,丰富动画内容。
    • 自定义BVH文件支持:用户能用自己的BVH(骨骼动画)文件驱动动画,适配不同骨架动作。
    • 错误修正工具:提供界面工具,支持用户手动修正AI模型生成的错误注释,确保动画效果更准确。

    Animated Drawings的技术原理

    • 图像检测与分割:基于计算机视觉技术对用户上传的手绘人物绘画进行检测和分割。通过预训练的目标检测模型,系统能够识别出绘画中的人物轮廓及其在图像中的位置。用分割算法生成分割掩码,将人物从背景中分离出来。
    • 姿态估计:在检测到人物轮廓后,系统用姿态估计模型(例如基于深度学习的OpenPose模型)检测人物的关键点,如头部、四肢等关节位置。这些关键点的检测结果被保存为注释文件,为动画生成提供必要的数据支持。用精确的关节位置检测,系统能更好地理解人物的姿势和结构,实现更自然的动作映射。
    • 动画生成:为将动作数据应用到手绘人物上,用BVH(骨骼动画)文件作为动作源。文件包含人物动作的骨骼数据。系统基于动作重定向技术,将BVH文件中的动作数据映射到绘画人物的关节上,让绘画人物能执行相应的动作。系统用As-Rigid-As-Possible形状变形算法,确保在动作执行过程中,绘画人物的形状保持自然和连贯。
    • 配置与渲染:用户能通过配置文件(如yaml格式)灵活定义动画的具体参数,包括角色、动作、场景等。配置文件为动画生成提供详细的指令,使系统能根据用户的个性化需求生成动画。最后,系统根据配置文件将动画渲染为视频或GIF格式,支持多种输出选项,如透明背景等,满足不同用户的需求。

    Animated Drawings的项目地址

    • 项目官网:https://sketch.metademolab.com/canvas
    • GitHub仓库:https://github.com/facebookresearch/AnimatedDrawings

    Animated Drawings的应用场景

    • 创意与艺术教育:激发儿童和艺术爱好者的创造力,将绘画作品变成动画,增强艺术教育的趣味性和互动性。
    • 内容创作与娱乐:创作者快速制作手绘动画短视频或短片,分享到社交媒体,吸引观众,提升内容吸引力。
    • 互动体验与展览:在博物馆、展览、线下活动中,通过实时动画化观众绘画,增加互动性和趣味性,提升参与感。
    • 广告与营销:品牌制作个性化手绘动画广告,吸引消费者注意力,提升社交媒体曝光度。
    • 游戏开发:快速生成角色动画原型,开发互动游戏,让玩家用绘画控制游戏角色动作。
  • TRAE SOLO 和 CodeBuddy IDE 谁更强?编程小白上手实测

    最近,被友友问到最多的问题就是:有没有TRAE SOLO邀请码?有没有腾讯CodeBuddy IDE邀请码?

    最近这两款IDE讨论度非常高,一个来自字节跳动,一个来自腾讯,都号称能搞定从 PRD 撰写、UI 设计、代码生成到一键部署 的完整开发流程

    正好K姐领到了的邀请码~今天给大家实测对比一下,这两款AI IDE 在实践中表现如何?谁更适合小白用户。

     

    01. 横评对比

     

    本次测评包含三个方面,小游戏开发、参考图生成网页、网页设计和部署上线。

    测评中两款工具所用的提示词完全一致,模型也都是Claude 4 Sonnet。

    小游戏

    提示词:生成一个像素风的贪吃蛇小游戏

    TRAE SOLO 生成的逻辑上没啥问题,界面简单,运行很丝滑。

    没想到 CodeBuddy IDE 居然在这里翻车了…不知道什么原因,页面一直在弹窗提醒,游戏无法正常运行。

    参考图生网页

    提示词:生成和图片一样的购物网站,风格要求柔和、舒缓、果冻感,色调以奶白、雾紫为主,整体让人有放松的感觉,动效柔和自然。

    TRAE SOLO 生成的细节要丰富一些,比如侧边栏、界面的小图标之类的。

    CodeBuddy IDE 生成的页面也蛮好看的,不过页面文字默认是英文,有点扣分。

    社区小饭桌订餐网页

    提示词:帮我生成一个社区小饭桌的网页。

    用户选择自己想要的菜品、甜点、水果和饮品等等,放在自己的饭盒中。

    下单可以选择配送时间(日期和午/晚餐),填写地址;

    下单成功后会有动画显示,正在制作中…祝你用餐愉快!

    TRAE SOLO 会先拆解我的需求,整理成一份产品需求文档。

    在我确认之后,TRAE SOLO 才会开始开发。

    CodeBuddy IDE 就不一样了,提示词发完就开始库库干活,等我去倒杯水的时间,它已经生成好了完整的网页。

    生成速度上,CodeBuddy IDE 会快一些。我们一起看看最终生成的页面效果。

    TRAE SOLO 给我们设计了首页,还贴心的加上了介绍“新鲜食材,用心烹饪,温暖到家”,首页给到了分类和推荐。

    分级菜单设计的很不错,TRAE SOLO 的一些设计小细节非常打动我,比如联系电话,我测试时胡乱输入,当号码数不对时,它会提醒:“请填写正确的手机号码”

    在下单成功后,他还生成了一个订单页面,显示订单号和具体的信息。

    除了部分图片不正常显示,基本就是可以直接拿来用的程度,整体非常不错。

    再看 CodeBuddy IDE,菜单和购物车在同一个页面,很简洁很清晰。但是在没有特别提醒的情况下,它直接给我生成的是英文页面,菜品也是偏西式的。

    选择日期按钮有一个小BUG,它设计了一个选择今天的按钮,但是功能并没有实现。今天及之前的日期都不可选中。

    这样对比看下来,我觉得 TRAE SOLO 的设计会更符合我的需求。对于小白用户,它能补充一些细节设计,非常不错。CodeBuddy  IDE 对提示词的完成度也不错,对输入描述的要求更高。

    一键部署

    在生成预览页面后,两款工具都提示我,可以一键部署。我也都尝试了一下这个功能。

    TRAE SOLO 需要手动登录一下 Vercel 云平台,CodeBuddy IDE 则是点击一下部署按钮就直接部署了。操作都很简单,都可以免费部署

    但是 TRAE SOLO 部署的网站需要魔法才能访问,CodeBuddy IDE 部署的网站国内也可以正常访问。

    一键部署这一块,我觉得 CodeBuddy IDE 更好用。

     

    02. AI Coding 交流群

     

    整体使用下来,我觉得他们两各有特色,比如TRAE SOLO 会自动补充和优化我的需求,像一个能带小白做项目的导师。

    CodeBuddy IDE 很快捷,接到任务就开始哐哐干活,生成更快,但容错率低一键部署是一大亮点。

    最近折腾这些 AI IDE 的过程中,我发现小白一个人摸索还是太孤单了。

    于是我拉了个 AI Coding 交流群,方便大家交流和学习,群里有 AI 开发者,也有纯爱好者,欢迎大家分享项目、踩坑经验和最新玩法。

    如果你也对交流群感兴趣,可以关注公众号回复:“Coding”进群~

     

    03. 一些分享

     

    开发的边界正在悄悄重塑。AI IDE 把过去复杂的流程拆散、自动化、重组,一个人就能跑通从原型到上线的闭环。

    小型项目不再需要组队,个人开发者可以更快验证想法、更频繁迭代产品

    开发也不再是少数人的专业技能,而是更自由的数字创作。对内容创作者、独立开发者,甚至传统行业的人来说,技术门槛正在被压低,尝试成本也在消失。

    真正的变化在于,个人可以低成本跑通从想法到上线的完整流程,新的创意将会成倍涌现。

    原文链接:TRAE SOLO 和 CodeBuddy IDE 谁更强?编程小白上手实测

  • Windows-MCP – 开源的AI Agent与Windows系统无缝集成工具

    Windows-MCP是什么

    Windows-MCP 是轻量级、开源的 AI Agent与 Windows 系统集成工具。Windows-MCP作为 MCP 服务器,让大语言模型(LLM)能直接操作 Windows,实现文件浏览、应用控制、UI 交互、QA 测试等功能。Windows-MCP支持任何 LLM,无需依赖传统计算机视觉或特定微调模型,具备丰富的 UI 自动化工具集,操作延迟低(1.5-2.3 秒),可定制与扩展性强。项目基于  MIT 许可证,完全开源,适合开发者和 AI 用户用于自动化任务开发,支持 Windows 7 至 Windows 11 系统。

    Windows-MCP

    Windows-MCP的主要功能

    • 无缝 Windows 集成:原生与 Windows UI 元素交互,支持打开应用程序、控制窗口、模拟用户输入等。
    • 支持任意大语言模型(LLM):不依赖于传统计算机视觉技术或特定微调模型,支持与任何 LLM 配合使用,降低复杂性和设置时间。
    • 丰富的 UI 自动化工具集:包括基本的键盘、鼠标操作及捕获窗口/UI 状态的工具。
    • 轻量级且开源:依赖项最少,易于设置,完整源代码在 MIT 许可下可用。
    • 可定制且可扩展:支持轻松适应或扩展工具,满足独特的自动化或 AI 集成需求。
    • 实时交互:操作延迟低(1.5-2.3 秒),实时响应 AI Agent的指令。

    Windows-MCP的技术原理

    • MCP 服务器架构:Windows-MCP 作为中间层,运行在 Windows 系统上,基于 API 接口与 AI Agent(如大语言模型)进行通信。接收来自 AI Agent的指令,将其转换为 Windows 系统能理解的操作指令。
    • 与 Windows 的原生交互:基于 Windows 提供的 API 和自动化接口(如 UI 自动化框架),直接与 Windows 系统的 UI 元素进行交互。基于模拟用户操作(如鼠标点击、键盘输入)控制应用程序和系统功能。
    • 低延迟通信:基于优化的通信协议和本地运行机制,确保 AI Agent的指令快速传递到 Windows 系统,并返回结果。典型的操作延迟在 1.5 到 2.3 秒之间,适合实时任务。

    Windows-MCP的项目地址

    • GitHub仓库:https://github.com/CursorTouch/Windows-MCP

    Windows-MCP的应用场景

    • 自动化办公任务:自动整理文件、填写表格、发送邮件,提升办公效率。
    • 软件测试与开发:模拟用户操作测试软件,辅助代码编辑和自动化部署。
    • 教育与培训:自动演示教学软件操作,辅助在线课程学习。
    • 个人生产力提升:自动管理日程、控制多媒体播放,优化个人生活和工作流程。
    • 系统监控与安全:基于自动化脚本监控系统资源,运行安全扫描,保障系统稳定运行。
  • RedOne – 小红书推出的社交大模型

    RedOne是什么

    RedOne 是小红书推出的首个面向社交网络服务(SNS)领域的定制化大语言模型(LLM)。模型通过三阶段训练策略,注入社交文化知识,强化多任务能力,并对齐平台规范与人类偏好。相较于基础模型,RedOne 在八大社交任务上平均性能提升14.02%,在双语评测基准上提升7.56%。模型在有害内容检测中将曝光率降低11.23%,在浏览后搜索中将点击页面率提升14.95%。RedOne 在社交领域展现出卓越的效果,为 SNS 应用提供强大的支持。

    RedOne

    RedOne的主要功能

    • 内容理解:能对用户生成的内容进行分类、主题识别和意图理解。
    • 信息提取:从非正式的社交帖子中提取结构化信息,如预测标签、回答问题和检测重点词汇。
    • 语义匹配:判断用户查询与社交笔记之间的语义关系,提供相关性评估。
    • 用户行为建模:模拟用户行为,如基于浏览历史生成后续查询。
    • 对话与角色模拟:支持情感陪伴对话和群聊中的角色扮演。
    • 翻译:在多语言环境中进行笔记翻译,保留原始语气和情感。
    • 有害内容检测:降低有害内容的曝光率,提升平台安全性。
    • 浏览后搜索优化:提升用户点击页面率,增强内容发现能力。

    RedOne的技术原理

    • 继续预训练(Continue Pretraining, CPT):RedOne 的继续预训练阶段为模型注入社交领域的基础知识。研究人员从通用高质量语料库和社交网络平台收集大规模数据,涵盖非正式讨论、短评论、讽刺语句等多种社交沟通模式。用精心设计的数据筛选流程,去除低质量数据并优化数据混合分布,在 Qwen2.5 的基础上继续训练模型。
    • 监督微调(Supervised Fine-Tuning, SFT):在监督微调阶段,基于精心设计的任务定义和数据构建,弥合预训练目标与实际 SNS 应用需求之间的差距。研究人员整理了大量真实用户生成的内容,定义六种核心能力,包括内容理解、信息提取、语义匹配等,并将每种能力映射到具体任务。基于双步训练策略,第一步使大规模通用数据和 SNS 数据混合训练,第二步提高 SNS 数据比例,进一步优化模型在关键任务上的表现。
    • 偏好优化(Preference Optimization, PO):偏好优化阶段通过利用隐性偏好信号,让模型输出更符合人类偏好和平台规范。研究人员根据不同任务类型(主观任务和客观任务)用不同的偏好对构建策略,邀请专家标注偏好并扩展数据集。基于直接偏好优化(DPO)算法,用偏好数据集中的信号,优化模型的输出,让其更贴近人类偏好。
    • 数据混合与通用能力保留:在训练过程中混合通用领域数据和 SNS 领域数据,保持模型的通用能力,同时提升在 SNS 领域的适应性,增强模型在特定领域的表现,提升在未见过的任务(Out-of-Domain, OOD)上的泛化能力。

    RedOne的项目地址

    • arXiv技术论文:https://www.arxiv.org/pdf/2507.10605

    RedOne的应用场景

    • 有害内容检测:有效识别和过滤有害内容,如仇恨言论、虚假信息、色情暴力等。通过降低有害内容的曝光率,显著提升平台的安全性和用户体验。
    • 浏览后搜索优化:根据用户的浏览历史和行为,生成更精准的搜索建议和推荐内容,能提升用户的内容发现能力,增强用户与平台的互动。
    • 内容理解与分类:对用户生成的内容进行自动分类和理解,帮助平台更好地管理和推荐内容。
    • 信息提取:从非正式的社交帖子中提取关键信息,如标签、重点词汇、关键事实等。对于内容推荐、信息聚合和知识图谱构建非常有帮助。
    • 语义匹配:评估用户查询与社交笔记之间的语义相关性,提供更精准的搜索结果和推荐内容。