Blog

  • AI快讯:4月第1期(4月1日到4月10日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为4月第1期(4月1日到4月10日)的AI行业新闻集合。

    4月1日到4月10日的AI快讯

    4月10日

    4月8日

    • 北京智源人工智能研究院联合浙大、北大发布了最新的视觉分割模型,SegGPT: Segmenting Everything In Context。(新闻全文:机器之心
    • “百度AI”微信公众号发表声明称,目前文心一言没有任何官方App,并且已经向北京市海淀区人民法院对苹果公司及相关盗版文心一言开发者团队发起诉讼。

    4月7日

    • 4月7日下午,阿里云官宣其类ChatGPT大模型 – 通义千问,目前邀请用户测试中。(测评全文:爱范儿

    4月6日

    • 与欧洲国家对ChatGPT持反对态度相反,印度政府当地时间4月5日表示,不打算监管人工智能的发展,认为该行业对该国来说是一个“重要和战略性”的领域。(新闻全文:财联社
    • 谷歌CEO桑达尔·皮查伊( Sundar Pichai)在接受采访表示,计划在谷歌搜索引擎中加入AI聊天功能,但并未透露具体计划和时间。(新闻全文:界面新闻
    • Meta发布最新AI模型SAM(Segment Anything Model),可以准确识别图像中的对象,该模型为Apache 2.0的许可协议。(新闻全文:IT之家

    4月4日

    • 继意大利后,德国正考虑禁止ChatGPT,德国联邦数据保护专员发言人称,出于数据保护方面的考虑,暂时禁止在德国使用ChatGPT原则上是可能的。(新闻全文:36氪

    4月3日

    • ChatGPT大面积封号,尤其是亚洲区IP的账号成重灾区。(新闻全文:36氪
    • 三星被曝由于员工不当使用ChatGPT,导致半导体机密数据泄漏直传到美国,这距离其引入ChatGPT仅20天,便导致了3次数据泄漏。(新闻全文:虎嗅网

    4月1日

    • 由于新用户的大量涌入,加上Deepfake图片的泛滥,Midjourney日前已暂停免费试用。(新闻全文:虎嗅网
  • Michael Jordan:机器学习领域的领军人物、美国国家工程院院士 – AI名人堂

    体育界篮球运动有个无人不知的迈克尔·乔丹,而机器学习领域同样有一位迈克尔·乔丹。

    Michael Irwin Jordan

    Michael Jordan的简介

    Michael Irwin Jordan(生于1956年2月25日)是一位美国科学家,加州大学伯克利分校教授,机器学习、统计学和人工智能领域的研究专家。由于在机器学习的基础和应用方面的贡献,Jordan在2010年被选为美国国家工程院院士。

    Michael Jordan是机器学习的领军人物之一,2016年《科学》杂志报道他是世界上最有影响力的计算机科学家。

    2022年,Michael Jordan获得了首届WLA计算机科学或数学奖,”以表彰他对机器学习的基础及其应用的基本贡献”。

    教育经历

    Michael Jordan于1978年在路易斯安那州立大学以优异成绩获得心理学学士学位,1980年在亚利桑那州立大学获得数学硕士学位,1985年在加州大学圣地亚哥分校获得认知科学博士学位。在加州大学圣地亚哥分校,Jordan是大卫-鲁梅尔哈特的学生,在1980年代是平行分布处理(PDP)小组的成员。

    工作和研究

    Michael Jordan是加州大学伯克利分校的特聘教授,他主要在该校教授EECS和统计学。1988年至1998年,他曾在麻省理工学院脑与认知科学系担任教授。他的研究兴趣横跨计算、统计、认知、生物和社会科学。

    在20世纪80年代,Jordan开始开发循环神经网络作为认知模型。近年来,他的工作较少从认知角度驱动,而更多地从传统统计学的背景出发。

    Jordan在机器学习界普及了贝叶斯网络,并以指出机器学习和统计学之间的联系而闻名。他在近似推理的变异方法的形式化和机器学习中期望最大化算法的普及方面也有着突出贡献。

    获奖和荣誉

    • 2004年,国际数理统计学会勋章讲座讲师
    • 2009年,ACM/AAAI艾伦·纽厄尔奖(美国计算机协会ACM、美国人工智能促进会AAAI )
    • 2010年,美国国家科学院院士
    • 2010年,美国国家工程院院士
    • 2011年,美国人文与科学院院士
    • 2015年,鲁梅尔哈特奖(国际认知科学学会CSS)
    • 2016年,国际人工智能联合会议卓越研究奖(IJCAI)
    • 2020年,约翰·冯·诺依曼奖(电气与电子工程师协会IEEE)
    • 2021年,米切尔奖(国际贝叶斯分析学会,ISBA)
    • 2021年,乌尔夫·格林纳德随机理论与建模奖(美国数学会, AMS)
    • 2022年,国际数理统计学会首届格雷丝·沃赫拜讲座讲师
    • 2022年,世界顶尖科学家协会奖智能科学或数学奖
  • 什么是多模态深度学习?定义、原因、应用和挑战 – AI百科知识

    多模态深度学习

    什么是多模态深度学习?

    多模态深度学习(英文名:Multimodal Deep Learning)是人工智能(AI)的一个子领域,其重点是开发能够同时处理和学习多种类型数据的模型。这些数据类型,或称模态,可以包括文本、图像、音频、视频和传感器数据等。通过结合这些不同的模式,多模态深度学习旨在创建更强大和多功能的人工智能系统,能够更好地理解、解释复杂的现实世界数据并采取行动。

    为什么是多模态深度学习?

    我们生活的世界本质上是多模态的,因为我们不断处理和整合来自不同来源的信息,如我们的视觉、听觉和触觉。这种同时处理和理解多种类型信息的能力是一个重要的优势,使我们能够更好地浏览和与我们的环境互动。

    然而,传统的深度学习模型通常专注于处理和学习单一的模式。虽然这些模型在各种任务中取得了显著的成功,如图像识别、自然语言处理和语音识别,但它们在处理现实世界中经常涉及多种模式的复杂数据的能力上是有限的。

    多模态深度学习通过开发能够理解和整合多种类型数据的模型来解决这一限制。这种整合可以提高性能,因为模型可以利用来自不同模式的互补信息来做出更准确的预测或决策。

    多模态融合的方法

    在多模态深度学习中,有各种方法和架构用来解决这些挑战。一些最常见的方法包括:

    • 早期融合(Early fusion): 这种方法也被称为特征上(feature-level)进行融合,涉及到在将不同模态提取的特征送入深度学习模型之前串联或结合这些特征。这种融合允许模型学习数据的联合表示,但可能会失去一些特定的模式信息。
    • 后期融合(Late fusion): 这种方法也被称为决策上(decision-level)进行融合,包括为每种模式训练单独的模型,然后使用融合层或机制将它们的输出结合起来。这种方法允许更多的特定模态表示,但可能无法捕捉模态之间的复杂关系。
    • 中间融合(Intermediate fusion): 这种方法结合了Early fusion和Late fusion的元素,在深度学习模型的不同阶段整合来自不同模态的信息。这种方法可以捕捉到模态之间更复杂的关系,同时保留了模态的特定信息。
    • 多任务学习: 在这种方法中,一个单一的模型被训练来执行不同模态的多个任务。通过在不同的任务中分享信息,模型可以学习到更强大的表征并提高其整体性能。

    多模态深度学习的应用

    多模态深度学习目前已被应用于广泛的任务和领域,包括:

    • 多媒体内容分析: 结合文本、视觉和听觉信息可以提高任务的性能,如视频总结、基于内容的图像检索和情感分析。
    • 人机交互: 多模态深度学习可用于开发更自然、更直观的界面,如也能解释面部表情的语音识别系统或既能理解口头语言又能理解手势的虚拟助手。
    • 医疗保健: 通过整合各种来源的数据,如医疗图像、电子健康记录和可穿戴传感器,多模态深度学习可以提高诊断的准确性,并实现更个性化的治疗计划。
    • 机器人和自主系统: 多模态深度学习可以帮助机器人和自主系统通过处理和整合来自各种传感器的信息,如相机、激光雷达和GPS,更好地理解和导航周围的环境。

    多模态深度学习的挑战

    开发多模态深度学习模型有几个挑战,包括:

    • 对齐: 对齐来自不同模式的数据可能很困难,因为它们可能有不同的格式、结构和时间分辨率。当试图融合来自不同来源的数据时,这种错位会带来挑战。
    • 表征: 为不同的模式找到合适的表示方法,并能有效地整合是一个关键的挑战。每种模式都可能有独特的特征,开发一个统一的表征,抓住每种模式的基本信息,对有效学习至关重要。
    • 融合: 结合来自不同模式的信息需要有效的融合技术,在保留其独特特征的同时捕捉模式间的关系,开发这些技术是多模态深度学习的一个持续研究领域。
  • 什么是强化学习Reinforcement Learning?定义、概念、应用和挑战 – AI百科知识

    强化学习(RL)是机器学习的一个分支,重点是训练算法通过与环境的互动来做出决定。它的灵感来自于人类和动物从他们的经验中学习以实现目标的方式。在这篇文章中,我们将对强化学习、其关键概念和应用进行全面概述。

    强化学习Reinforcement Learning

    一、什么是强化学习?

    强化学习(英文:Reinforcement Learning),缩写RL,是一种机器学习的方法,强调学习如何通过与环境的互动来做出决定。在强化学习中,一个主体学习在特定的环境中采取行动,以使其获得的累积奖励最大化。学习过程涉及试验和错误,主体从积极和消极反馈中学习。

    这种学习范式起源于心理学,特别是对操作性条件反射的研究,通过这一过程,有机体学会将行动与后果联系起来。近年来,强化学习因其解决需要连续决策的复杂问题的能力而获得了巨大的吸引力。

    二、强化学习中的主要概念和术语

    为了更好地理解强化学习,你应该熟悉以下关键概念和术语:

    • Agent(常译为:智能体、个体、主体、玩家): 强化学习过程中的学习者或决策者。智能体与环境互动,并采取行动以实现特定目标。
    • 环境(Environment): 智能体运作的环境。它为智能体提供观察,而智能体的行动可以影响环境的状态。
    • 状态(State): 智能体在环境中的当前状况的表示。它可以是完全或部分可观察的。
    • 动作(Action): 智能体做出的影响其与环境互动的决定。
    • 奖励(Reward): 智能体在采取一项行动后收到的即时反馈信号。奖励反映了在特定状态下采取的行动的可取性。
    • 策略(Policy): 智能体选择行动的策略,可以是确定性的或随机性的。
    • 价值函数(Value function): 一个估计智能体可以获得的预期累积奖励的函数,从一个给定的状态开始并遵循一个特定的策略。
    • Q函数(Q-function): 一个估计智能体可以获得的预期累积奖励的函数,从一个给定的状态开始,采取一个特定的行动,然后遵循一个特定的策略。
    • 探索还是利用(Exploration vs. Exploitation): 在尝试新行动以发现其后果(探索)和选择已知可产生高回报的行动(利用)之间进行权衡。

    三、强化学习的主要类型

    强化学习有三种主要类型:

    • 无模型的RL:在这种方法中,智能体无法获得环境的动态模型。相反,它直接从与环境的相互作用中学习,通常是通过估计价值函数或Q-函数。
    • 基于模型的RL:在这种方法中,智能体构建了一个环境动态的模型,并使用它来计划和决策。基于模型的RL可以带来更有效的学习和更好的性能,但需要精确的模型和更多的计算资源。
    • 逆向RL:在这种方法中,目标是通过观察专家示范者的行为来学习他们的基本奖励函数。这在手动设计一个适当的奖励函数具有挑战性的情况下可以有所帮助。

    四、强化学习的典型算法

    多年来,研究人员提出了各种强化学习算法,其中最引人注目的算法包括:

    • 价值迭代(Value Iteration): 一种动态编程技术,迭代更新价值函数,直到它收敛到最佳价值函数。
    • Q-learning: 一种无模型、非策略性的算法,通过迭代更新其基于观察到的过渡和奖励的估计值来学习最佳的Q-函数。
    • SARSA: 一种无模型的策略性算法,通过基于当前策略所采取的行动更新其估计值来学习Q函数。
    • 深度Q网络(DQN): Q-learning的扩展,使用深度神经网络来近似Q-function,使RL能够扩展到高维状态空间。
    • 策略梯度算法(Policy Gradient Methods): 一系列的算法,通过基于预期累积奖励的梯度调整其参数来直接优化策略。
    • 演员评判方法(Actor-Critic Methods): 一类算法,通过保持对策略(演员)和价值函数(评判者)的单独估计,结合基于价值和基于策略的方法。
    • 近端策略优化(PPO): 一种策略梯度方法,通过使用信任区域优化方法平衡探索和开发。

    五、强化学习的应用场景

    1. 机器人学和动作控制

    强化学习已经成功地应用于机器人领域,使机器人能够学习复杂的任务,如抓取物体、行走和飞行。研究人员已经用RL教机器人适应新环境或从损坏中自主恢复。其他应用包括机器人手臂的优化控制和多机器人合作系统,其中多个机器人一起工作来完成任务。

    2. 人机游戏

    强化学习一直是开发能够以超人水平玩游戏的玩家的重要力量。AlphaGo和DeepMind的后续版本已经证明了RL在掌握围棋游戏方面的力量,这在以前被认为是人工智能不可能做到的。RL也被用来训练能玩雅达利游戏、国际象棋、扑克和其他复杂游戏的玩家。

    3. 自动驾驶

    强化学习的最有前途的应用之一是在开发自动驾驶汽车方面。强化学习主体可以学习导航复杂的交通场景,做出智能决定以避免碰撞,并优化燃料消耗。研究人员还在探索多主体强化学习,以模拟多辆车之间的互动,并改善交通流量。

    4. 金融量化交易

    强化学习已被用于优化交易策略,管理投资组合,以及预测股票价格。考虑到交易成本和市场波动,RL智能体可以学习通过对购买和出售股票做出明智的决定来实现利润最大化。此外,RL可用于算法交易,智能体学习有效地执行订单,以尽量减少市场影响和降低交易成本。

    5. 医疗保健

    在医疗保健方面,RL可以应用于个性化医疗,其目标是根据个别病人的独特特征,为他们找到最佳的治疗方案。RL还可以用来优化手术的安排,管理资源的分配,并提高医疗程序的效率。

    六、强化学习面临的挑战

    1. 样本效率

    强化学习的最大挑战之一是需要大量的数据来训练智能体。这可能很耗时,而且计算成本很高,限制了RL在现实世界场景中的适用性。研究人员正在努力开发更有样本效率的算法,使智能体能够从与环境的较少互动中学习。

    2. 探索和利用

    平衡探索(尝试新的行动以发现其效果)和利用(使用最知名的行动)是强化学习的一个基本挑战。不充分的探索可能导致次优策略,而过度的探索则会浪费宝贵的资源。开发能够有效平衡探索和利用的算法是一个活跃的研究领域。

    3. 迁移学习和概括

    训练RL智能体将其学到的知识推广到新的任务和环境中是一个关键的挑战。迁移学习,一种旨在将在一个任务中获得的知识转移到另一个相关任务中的方法,是解决这一挑战的一个越来越流行的方法。研究人员正在探索如何使RL智能体更具有适应性,能够将其知识转移到广泛的任务和环境中。

    4. 安全性和稳健性

    确保RL智能体的安全性和稳健性是至关重要的,特别是在自动驾驶汽车和医疗保健等应用中,错误会带来严重后果。研究人员正在努力开发将安全约束纳入学习过程的方法,使智能体对对抗性攻击更加稳健,能够处理不确定或不完整的信息。

  • 什么是无监督学习(Unsupervised Learning)?定义、技术、应用和挑战 – AI百科知识

    随着人工智能(AI)领域的发展,机器学习已经成为一种核心技术,使计算机能够自行学习并做出决定。广义上讲,机器学习可以分为三个主要类别:监督学习、无监督学习和强化学习。虽然监督学习因其广泛的应用而备受关注,但无监督学习在释放人工智能的真正力量方面拥有巨大潜力。

    在本篇文章中,我们将深入了解无监督学习的世界,探索其基本概念、关键算法、应用和挑战。在本文结束时,你将全面了解什么是无监督学习,以及为什么它对人工智能的未来不可或缺。

    无监督学习Unsupervised Learning

    什么是无监督学习

    无监督学习是机器学习的一种类型,模型从数据中学习,没有任何明确的指导或标记的例子。换句话说,算法被暴露在大量的非结构化数据中,其任务是在这些数据中自行寻找有意义的模式或结构。

    无监督学习的主要目标是在数据中发现隐藏的结构、关系或模式,可用于各种目的,如降维、聚类或生成新样本。在处理人工标注不切实际或不可能的大型数据集时,这些技术特别有价值。

    无监督学习关键算法和技术

    无监督学习算法可以分为两个主要类别:聚类和降维。让我们来看看每个类别和其中的一些基本算法。

    聚类

    聚类算法的目的是将数据集划分为不同的组,每组包含类似的数据点。其目标是最大限度地提高每组内的相似性,同时最小化不同组之间的相似性。一些流行的聚类算法包括:

    • K-means聚类: K-means是一种简单而广泛使用的聚类算法,它将数据分成K个聚类。该算法迭代地将每个数据点分配到最近的聚类中心,并根据每个聚类中的点的平均值更新聚类中心。
    • DBSCAN: DBSCAN(基于密度的有噪声的空间聚类应用)是一种基于密度的聚类算法,根据数据点的接近程度和密度进行分组。它可以识别任意形状的聚类,并对噪声具有鲁棒性。
    • 层次聚类: 层次聚类算法建立一个树状结构(树枝图)来表示数据点的嵌套分组。它们可以分为聚类(自下而上)和分化(自上而下)方法。

    降维

    降维技术旨在减少数据集中的特征数量,同时保留其基本结构或关系。这些方法可用于数据可视化、降噪,或提高其他机器学习模型的性能。一些流行的降维技术包括:

    • 主成分分析(PCA): PCA是一种线性降维技术,它将数据投射到一个较低维度的子空间,同时保留了数据的最大方差。它可用于数据压缩、可视化和降噪。
    • t-SNE:t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,对二维或三维高维数据的可视化特别有效。它通过最小化代表原始空间和低维空间中成对相似性的概率分布之间的分歧来工作。
    • 自动编码器: 自动编码器是一种用于降维和特征学习的神经网络。它们由一个将输入数据映射到低维表示的编码器和一个从低维表示重建输入数据的解码器组成。

    无监督学习的应用

    无监督学习在各个领域都有广泛的应用,包括:

    • 异常情况检测: 无监督学习可用于识别数据中的异常模式或异常值,这对欺诈检测、网络安全或质量控制至关重要。
    • 推荐系统: 无监督学习中的聚类算法可用于对类似的项目或用户进行分组,从而实现基于相似性的个性化推荐。
    • 自然语言处理 降维技术,如单词嵌入,可用于在一个连续的矢量空间中表示单词,使各种NLP任务的性能更好。
    • 图像和视频处理: 无监督学习可用于各种图像和视频处理任务,如图像分割、特征提取或压缩。
    • 数据探索和可视化: 降维技术可以帮助实现高维数据的可视化,揭示隐藏的结构和关系,为进一步的分析或模型开发提供信息。

    无监督学习的挑战和未来

    尽管无监督学习有着很大的应用场景,无监督学习仍然面临一些挑战,并为未来的研究提供了机会。这里,我们概述了其中的一些挑战和潜在的未来方向:

    1. 可扩展性和效率

    无监督学习算法通常需要大量的数据来学习有用的表征。然而,这些算法的计算成本往往会随着数据集的大小而增加。这就提出了提高无监督学习算法的可扩展性和效率的挑战,以处理快速增长的数据量。

    未来的方向:

    • 为无监督学习开发更有效的优化技术
    • 研究数据缩减技术,如数据草图和数据总结
    • 探索并行和分布式计算方法来扩展无监督学习算法。

    2. 稳健性和稳定性

    无监督学习算法对输入数据的微小扰动很敏感,导致结果不稳定。当基础数据分布是非平稳的时候,这可能是一个特别的问题。

    未来的方向:

    • 开发能够处理数据中的噪声和异常值的稳健的无监督学习算法
    • 研究检测和适应数据分布变化的方法
    • 探索集合技术以提高无监督学习结果的稳定性。

    3. 可解释性和可解释性

    无监督学习模型可能难以解释和理解,因为它们通常涉及复杂的数学转换。这限制了这些模型的实际应用性,因为如果没有可理解的解释,用户可能不愿意相信他们的建议或采取行动。

    未来的方向:

    • 设计无监督学习算法,产生更多可解释和可说明的表示
    • 开发可视化和解释学习到的表征和决策过程的方法
    • 研究人在回路中的方法,以提高无监督学习模型的可解释性和可信度

    4. 评估和验证

    由于缺乏地面真实标签,评估无监督学习算法的性能可能是一个挑战。这使得比较不同的算法和评估它们在现实世界中的应用效果变得困难。

    未来的方向:

    • 为无监督学习开发更可靠和稳健的评估指标,并考虑到数据的内在属性
    • 研究在没有地面真实标签的情况下估计学习表征的质量的方法
    • 探索使用半监督和弱监督的学习技术进行验证和性能评估

    5. 与其他学习范式的整合

    无监督学习可以得益于与其他学习范式的结合,如监督学习、半监督学习和强化学习。

    未来的方向:

    • 研究将无监督学习与其他学习范式相结合的方法,以提高整体学习性能
    • 探索使用无监督学习作为监督或强化学习任务的预处理步骤
    • 开发能够利用不同学习范式的优势的混合学习框架。
  • 李飞飞:ImageNet创建者、美国国家工程院院士、斯坦福大学教授 – AI名人堂

    李飞飞

    个人简介

    李飞飞(英文名:Fei-Fei Li),生于1976年,是一位华裔美国计算机科学家,因建立ImageNet而闻名,该数据集使计算机视觉在2010年代取得了快速发展。

    她是斯坦福大学计算机科学的红杉资本教授,也是Twitter的前董事会董事。李飞飞是斯坦福HAI研究院的联合主任,也是斯坦福视觉和学习实验室的联合主任。2013年至2018年,她担任斯坦福人工智能实验室(SAIL)的主任。

    2017年,她共同创立了AI4ALL,一个致力于提高人工智能领域多样性和包容性的非营利组织。她的研究专长包括人工智能(AI)、机器学习、深度学习、计算机视觉和认知神经科学。

    由于在为机器学习和视觉理解建立大型知识库方面的贡献,李飞飞在2020年当选为美国国家工程院(NAE)成员。她也是美国国家医学院(NAM)和美国艺术与科学学院(AAAS)的成员。

    早期和教育经历

    李飞飞于1976年出生在北京,在成都长大。12岁时,她的父亲搬到了美国。15岁时,她和她的母亲在新泽西州的帕西帕尼-特洛伊山与父亲团聚。她于1995年毕业于帕西帕尼高中,2017年她入选了帕西帕尼高中的名人堂。

    1999年,她以优异的成绩毕业于普林斯顿大学,获得物理学学士学位以及应用与计算数学和工程物理学证书,在电子工程教授布拉德利-迪金森的指导下,她完成了题为「Auditory Binaural Correlogram Difference: A New Computational Model for Huggins Dichotic Pitch」的毕业论文。随后,李飞飞在加州理工学院攻读研究生课程,并于2005年获得了电子工程博士学位。

    工作经历

    从2005年到2009年8月,李飞飞分别在伊利诺伊大学厄巴纳-香槟分校的电子和计算机工程系和普林斯顿大学的计算机科学系担任助理教授。她于2009年加入斯坦福大学,担任助理教授,2012年晋升为终身副教授,2017年晋升为全职教授。在斯坦福大学,李飞飞于2013年至2018年担任斯坦福人工智能实验室(SAIL)主任。她与斯坦福大学前教务长约翰-埃切门迪博士一起,成为斯坦福大学的大学级倡议–以人为本的人工智能研究院(HAI)的创始联合主任 。

    在2017年1月至2018年秋季从斯坦福大学休假期间,李飞飞加入了谷歌云,担任其人工智能/机器学习的首席科学家和副总裁。在谷歌,她的团队专注于人工智能技术的民主化,降低企业和开发者的准入门槛,包括AutoML等产品的发展。2018年秋天,李飞飞离开谷歌,回到斯坦福大学继续她的教授职位。

    作为非营利组织AI4ALL的联合创始人和主席,李飞飞也因其非营利工作而闻名,该组织的使命是通过以人为本的人工智能原则促进多样性和包容性,教育下一代人工智能技术专家、思想家和领导人。

    在2017年建立AI4ALL之前,李飞飞和她以前的学生Olga Russakovsky(目前是普林斯顿大学的助理教授)在斯坦福大学共同创立并共同指导了名为SAILORS(Stanford AI Lab OutReach Summers)的先导项目。SAILORS是斯坦福的年度夏令营,致力于九年级高中女生的AI教育和研究,成立于2015年,直到2017年改名为AI4ALL @Stanford。2018年,除了斯坦福大学,AI4ALL又成功推出了五个暑期项目,包括普林斯顿大学、卡内基梅隆大学、波士顿大学、加州大学伯克利分校和加拿大的西蒙弗雷泽大学。

  • 什么是NLP自然语言处理?定义、重要性、发展和应用 – AI百科

    什么是NLP自然语言处理

    NLP自然语言处理的定义

    NLP(全称Natural Language Processing),即自然语言处理,是计算机科学的一个领域,重点是创建能够理解人类语音和语言的计算机和软件。

    人类和计算机的语言是非常不同的,编程语言作为两者之间的中介存在。我们说话和写作的方式是非常细微的,而且往往是模棱两可的,而计算机则完全是基于逻辑的,遵循它们被编程执行的指令。这种差异意味着,传统上计算机很难理解人类语言,而自然语言处理旨在改善计算机理解人类文本和语音的方式。

    NLP使用人工智能和机器学习,以及计算语言学,来处理文本和语音数据,从中得出意义,弄清意图和情感,并形成回应。正如我们将看到的那样,自然语言处理的应用非常广泛和众多。

    NLP自然语言处理的重要性

    自然语言处理的概念比你认知的还要早,早在20世纪50年代,专家们就一直在寻找为计算机编程以进行语言处理的方法。近些年,随着计算能力的提高和机器学习的发展,该领域才有了巨大的进步。

    当我们思考NLP的重要性时,值得考虑的是人类语言是如何结构的。除了构成书面句子的词汇、句法和语法之外,还有口语的语音、音调、口音和措辞。

    我们以许多不同的方式传达意义,同一个词或短语可以有完全不同的意义,这取决于说话者或作者的背景和意图。从本质上讲,语言有时甚至对人类来说都很难解释,所以让机器理解我们是一个相当大的成就。

    然而,随着自然语言处理的改进,我们可以更好地与我们周围的技术对接。它有助于为本质上非结构化的东西带来结构,这可以使软件更加智能,甚至使我们能够更好地与其他人沟通。

    最终,NLP可以帮助产生更好的人机互动,以及提供关于意图和情感的详细见解,让企业、普通消费者和技术人员从中受益。

    NLP自然语言处理的工作原理

    现在我们对什么是自然语言处理有了一些了解,让我们深入了解其工作原理的基本情况。值得注意的是,NLP是人工智能的一个相当高级的应用,所以我们将着眼于对该软件的一个非常顶层的解释。

    关于自然语言处理的第一件事是,有几个功能或任务构成了这个领域。根据所需的解决方案,其中一些或所有的功能可能同时互动。在一个基本水平上,NLP软件进行三个主要过程:

    • 首先,它将语言(语音或文本)分解成小块
    • 其次,它试图理解这些信息片段之间的关系
    • 最后,它试图从这些关系中创造意义

    当然,在这些过程中,还有更多的步骤参与其中。需要大量的语言学知识,以及编程、算法和统计。

    自然语言处理涉及的技术

    如下列表,我们提供了一些关于自然语言处理在某些任务上如何工作的进一步细节:

    • 语音识别。将语音数据转化为文本数据的过程,语音识别软件将语音分解为各个声音,使用算法将意义拼凑起来。
    • 词义歧义化。在许多语言中,相同的词可以根据上下文有不同的含义。词义辨析(WSD)是分析语言以区分不同含义的过程。
    • 核心推理解决。这个过程有助于确定文本或语音中的词是否以及何时指代同一实体,一个很好的例子是解决哪些代词(他、她、他们)是指哪个人或物体。
    • 情感分析。语言往往有很多微妙之处,NLP可以用来从语言中提取情绪和态度,无论是积极的还是消极的。

    NLP、AI和机器学习的关系

    自然语言处理是人工智能(AI)的一个分支,它也使用机器学习(Machine Learning)和数据分析的元素,虽然这些是不同的领域,但它们却又是重叠的。

    每个领域都是由大量的数据驱动的,数据越多,结果越好。为高度非结构化的数据带来结构是另一个特点。同样,每个领域都可以用来提供洞察力,突出模式,并确定当前和未来的趋势。

    自然语言处理具有许多这些属性,因为它是建立在相同的原则之上。人工智能是一个专注于机器模拟人类智能的领域,而自然语言处理则特别专注于理解人类语言。两者都建立在机器学习的基础上——使用算法来教机器如何自动完成任务并从经验中学习。

    NLP自然语言处理的应用和例子

    • 语言翻译。NLP的挑战之一是产生从一种语言到另一种语言的准确翻译,这是一个相当成熟的机器学习领域,也是近年来取得重大进展的一个领域。当然,这里有许多因素需要考虑。直接逐字翻译往往没有意义,许多语言翻译者必须确定输入语言以及确定输出语言。较早的语言翻译形式依赖于所谓的基于规则的机器翻译,其中需要大量的语法规则和两种语言的词典。最近的AI翻译方法依赖于统计机器翻译,它使用来自现有翻译的数据来通知未来的翻译。
    • 语音助手。无论是国内的小爱同学、天猫精灵或者小度,还是国外的Siri、Alexa、谷歌助手,我们中的许多人都在使用这些由NLP驱动的语音助手。这些智能助手使用NLP将用户的语音或文本输入与命令相匹配,根据请求提供响应。通常情况下,它们通过记录和检查你的声音的频率和声波,并将其分解成少量的代码来做到这一点。然后用一种算法分析这种代码,以确定其含义。
    • 搜索引擎的结果。搜索引擎成为我们生活的一部分已经有较长的时间了。然而,传统上,它们对于确定人们搜索的内容和方式的背景并不是特别有用。其中,语义搜索是自然语言处理的一个领域,可以更好地理解人们搜索(无论是通过语音还是文本)背后的意图,并根据它返回更有意义的结果。除了提供更好、更直观的搜索结果外,语义搜索还对数字营销,特别是搜索引擎优化领域有影响。
    • 预测性文本。你可能已经在几个地方看到了自然语言处理的这种应用。无论是在你的智能手机键盘、搜索引擎搜索栏,还是在你写电子邮件时,预测性文本都相当突出。这种类型的NLP研究个人和群体如何使用语言,并对接下来会出现什么词或短语做出预测。机器学习模型会研究哪个词接下来会出现的概率,并在此基础上提出建议。
  • Andrew Ng 吴恩达:Google Brain的联合创始人、百度前首席科学家及Coursera联合创始人 – AI名人堂

    Andrew Ng

    吴恩达个人简介

    吴恩达(Andrew Yan-Tak Ng),(1976年 – )英国出生的美国计算机科学家和技术企业家,专注于机器学习和人工智能(AI)。吴恩达是谷歌大脑的联合创始人和负责人,并曾是百度的首席科学家,将百度的人工智能小组建设成一个数千人的团队。

    吴恩达是斯坦福大学的兼职教授(曾任副教授和斯坦福人工智能实验室或SAIL主任)。作为Courseradeeplearning.ai的联合创始人,吴恩达也对在线教育领域做出了巨大贡献。他带头做出了许多努力,通过他的在线课程教授了超过250万名学生学习机器学习和深度学习。他是世界上最著名和最具影响力的计算机科学家之一,在2012年被《时代》杂志评为100位最具影响力的人物之一,并在2014年被《Fast Company》评为最具创造力的人物。2018年,他发起了人工智能基金,目前是该基金的负责人,最初是一个1.75亿美元的投资基金,用于支持人工智能初创企业。他创办了Landing AI,提供由人工智能驱动的SaaS产品。

    成长经历

    吴恩达于1976年出生在英国,他的父母 Ronald P. Ng 和 Tisa Ho 都是移民自中国香港。在成长过程中,他在香港和新加坡度过了一段时间,后来于1992年毕业于新加坡莱佛士学院。

    1997年,他在宾夕法尼亚州匹兹堡的卡内基梅隆大学获得本科学位,主修计算机科学、统计学和经济学三个专业,以全班第一名的成绩毕业。1996年至1998年间,他还在 AT&T 贝尔实验室进行了强化学习、模型选择和特征选择的研究。

    1998年,Andrew 在马萨诸塞州剑桥市的麻省理工学院(MIT)获得了他的硕士学位。在麻省理工学院,他为网络上的研究论文建立了第一个公开的、自动索引的网络搜索引擎,是CiteSeerX/ResearchIndex的前身,但专门用于机器学习。

    2002年,他获得了加州大学伯克利分校的哲学博士学位,导师是Michael I. Jordan。他的论文题目是 “强化学习中的塑造和策略搜索”,至今仍被广泛引用。他于2002年开始在斯坦福大学担任助理教授,并于2009年担任副教授。

    学术和工作经历

    吴恩达是斯坦福大学计算机科学和电子工程系的教授,他曾担任斯坦福大学人工智能实验室(SAIL)的主任,在那里,他为学生授课并开展与数据挖掘、大数据和机器学习有关的研究。他在斯坦福大学开设的机器学习课程CS229是校园内最受欢迎的课程,有些年份有超过1000名学生报名参加。截至2020年,Coursera上最受欢迎的课程中有三门是吴恩达主讲的: 《机器学习》(第1名)、《给所有人的AI课》(第5名)、《神经网络和深度学习》(第6名)。

    2008年,他在斯坦福大学的小组是美国最早开始倡导在深度学习中使用GPU的小组之一。其理由是,高效的计算基础设施可以将统计模型的训练速度提高几个数量级,改善与大数据相关的一些扩展问题。在当时,这是一个有争议、有风险的决定,但从那时起,在吴恩达的带领下,GPU已经成为该领域的基石。自2017年以来,吴恩达一直倡导转向高性能计算(HPC),以扩大深度学习的规模,加速该领域的进展。

    2012年,他与斯坦福大学计算机科学家 Daphne Koller 共同创立了Coursera,并担任首席执行官,这是一个向所有人提供免费在线课程的网站。成立之初,便有超过10万名学生注册了他的热门CS229A课程。今天,有数百万人注册了Coursera课程,使该网站成为全球领先的大规模开放式在线课程(MOOCs)之一。

    2011年至2012年,他在谷歌工作,与Jeff Dean、Greg Corrado和Rajat Monga一起创立并指导 Google Brain(谷歌大脑)的深度学习项目。

    2014年,他加入百度,担任首席科学家,开展与大数据和人工智能有关的研究。在那里,他成立了几个研究团队,如面部识别和用于医疗保健的人工智能聊天机器人Melody。2017年3月,他宣布从百度离职。

    不久之后,他推出了Deeplearning.ai,一个在线的深度学习系列课程。然后,吴恩达推出了Landing AI,提供人工智能驱动的SaaS产品。

    2018年1月,吴恩达公布了AI基金,筹集了1.75亿美元来投资新的创业公司。2021年11月,Landing AI获得了由McRock Capital领投的5700万美元A轮融资,以帮助制造商应用计算机视觉。

    获奖和荣誉

    • 贝尔大西洋网络服务奖学金(1995年)
    • 微软技术奖学金(1995和1996年)
    • 安德鲁·卡内基学会奖学金(1996年)
    • 伯克利奖学金(1998-2000年)
    • 微软研究奖学金(2001年至2002年)
    • Alfred P. Sloan研究奖学金斯隆基金会教员奖学金(2007年)
    • 《麻省理工学院技术评论》,35位35岁以下的创新者(TR35)(2008年)
    • 国际人工智能计算机与思想奖(35岁以下研究人员获得的人工智能最高奖项)(2009年)
    • Vance D. & Arlene C. Coffman学院学者奖(2009年)
    • 《时代》杂志100位最具影响力人物(2013年)
    • 《财富》杂志40位40岁以下商界精英(2013年)
    • 《Fast Company》最具创造力的商业人士(2014年)
    • 世界经济论坛全球青年领袖(2015年)
  • 什么是 AGI?(Artificial General Intelligence)通用人工智能的定义和能力

    AGI 通用人工智能

    什么是 AGI(人工通用智能)?

    AGI 是 Artificial General Intelligence 的缩写,中文翻译为“通用人工智能”,该术语指的是机器能够完成人类能够完成的任何智力任务的能力。

    与狭义的人工智能(ANI)不同,狭义的人工智能是为特定领域或问题而设计的,而AGI旨在实现一般的认知能力,能够适应任何情况或目标。AGI是人工智能研究的最终目标之一,也是科幻小说和未来研究的一个共同主题。

    AGI 也被称为强人工智能(Strong AI)或全人工智能(Full AI)。然而,这些术语可能有不同的含义或意义,取决于上下文或来源。例如,一些研究人员可能用强人工智能来表示具有意识或知觉的机器,而其他人则可能与 AGI 交替使用。

    吴恩达关于什么是AGI和ANI的解释视频

    AGI 的能力

    AGI 的定义和标准并没有一个普遍的共识,因为不同领域和学科对人类智能的构成可能有不同的观点。然而,一些通常与 AGI 相关的常见能力包括:

    • 在不确定的情况下进行推理、规划和问题解决
    • 代表和使用常识性知识
    • 从数据和经验中学习
    • 用自然语言进行交流
    • 整合多种技能以实现共同目标
    • 创造力、想象力和自主性

    到今天为止,还没有真正的 AGI 系统存在,也不清楚何时或如何实现。一些专家认为,AGI是可能的和不可避免的,而另一些专家则对其可行性和可取性持怀疑或悲观态度。AGI的发展带来了许多技术、伦理和社会挑战,需要研究人员、政策制定者和整个社会共同解决。

  • AI快讯:3月第3期(3月21日到3月31日的AI行业新闻)

    AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为3月第3期(3月21日到3月31日)的AI行业新闻集合。

    3月21日到3月31日的AI快讯

    3月31日

    • 意大利个人数据保护局近日发布公告,禁止使用聊天机器人ChatGPT,并限制开发这一平台的OpenAI公司处理意大利用户信息。(新闻全文:财联社
    • 谷歌离职的AI研究员Jacob Devlin(BERT模型论文的一作)爆料Google Bard使用ChatGPT的数据训练。(新闻全文:36氪

    3月30日

    • 微软已开始测试在其人工智能加持的新版必应的聊天界面中接入广告(新闻全文:TheVerge
    • 为应对OpenAI的压力,Google母公司Alphabet的两大AI团队Deep Mind和Google Brain停止内耗,开始合作携手研发AI(新闻全文:36氪
    • 英国政府发布人工智能产业白皮书,提出了监管机构应该对AI考虑的5个明确原则(新闻全文:36氪

    3月29日

    • 马斯克、图灵奖得主Yoshua Bengio、苹果联合创始人Steve Wozniak等千名专家呼吁暂停强于GPT-4的AI研发至少6个月(新闻全文:36氪
    • 3月29日,360在其主办的2023年数字安全与发展高峰论坛上,正式发布了其大语言模型360 AI。作为彩蛋,周鸿祎现场演示了360版的ChatGPT(新闻全文:36氪

    3月28日

    • 据报道,美团联合创始人王慧文的光年之外与国产 AI 框架一流科技(Oneflow)达成并购意向,为打造中国版ChatGPT继续招兵买马(新闻来源:36氪
    • 马云回国现身首谈ChatGPT,强调「我们要用人工智能去解决问题,而不是被人工智能所控制,虽然人的体力、脑力比不过机器,但机器只有“芯“,而人有“心”」(新闻来源:36氪

    3月27日

    • 据新华社报道,为贯彻落实国家《新一代人工智能发展规划》,科技部会同自然科学基金委近期启动「人工智能驱动的科学研究」(AI for Science)专项部署工作。(新闻来源:新华网
    • 会议软件 Zoom 引入 Zoom IQ 人工智能助手,帮助与会人员 AI 生成会议纪要、消息草稿、生成白板、会议回顾等。(新闻来源:zoom.us

    3月24日

    • OpenAI重磅更新,ChatGPT可以联网了,并为ChatGPT引入了插件机制。目前首批插件由Expedia、FiscalNote、Instacart、KAYAK、Zapier等提供,用户和开发者可加入等待列表,将陆续开放(新闻来源:openai.com
      ChatGPT首批插件

    3月23日

    • GitHub宣布了Copilot X,将其AI编程助手Copilot正式接入GPT-4,首次添加了聊天功能Copilot Chat(新闻来源:github.blog
      GitHub Copilot X
    • Mozilla(火狐浏览器背后的公司)宣布将投资3千万美金于Mozilla.ai,用于构建一个值得信赖、独立和开源的 AI 生态系统。(新闻来源:mozilla.org
    • 金山办公明确表示未来WPS Office会接入OpenAI的GPT-4

    3月22日

    • Google开放其聊天机器人Bard的测试,目前该工具并未与其搜索引擎集成,而是单独的一个页面,美国和英国用户可加入等待列表访问(新闻来源:huxiu.com
      Google Bard对话界面
    • 英伟达CEO在GTC大会上发布为AI和ChatGPT专用的GPU,算力飞跃式提升,并将大语言模型的处理成本降低一个数量级,“AI的iPhone时代已经来临”(新闻来源:huxiu.com
    • 微软AI搜索引擎必应接入OpenAI的图像生成模型DALL·E,允许用户在聊天界面输入文字生成图像(新闻来源:ithome.com

    3月21日

    • Adobe宣布Firefly,允许用户通过AI生成图片和3D字,目前该工具处于Beta测试中,可以在其网站访问,后续计划将生成式AI其引入Adobe Creative Cloud套件(新闻来源:adobe.com
      Adobe Firefly Beta
    • Runway发布新的视频生成模型GEN-2,允许用户从文本、图片或文本+图片生成视频(新闻来源:research.runwayml.com