科技资讯

人工智能与机器学习日常术语科普

发布日期:2023-07-20    点击次数:132

随着人工学习和机器学习(ML)领域的不断发展,相关术语的词典也在不断进化。这些术语通常会让初学者或非科技行业的人感到困惑。在本文中,我们将使用日常类比的方式,以更贴近人性化的方式理解这些术语。

数据集

首先,让我们从机器学习中的一个基本概念开始:数据集。在机器学习的世界中,数据集是基石。它就像一本充满食谱的书,实习厨师通过它来学习烹饪。每个食谱都对应着一个数据点,其中包含制作特定菜肴的成分和步骤。同样地,机器学习算法使用数据集来理解模式,并将这些模式应用于新的数据。

特征

术语“特征”指的是所研究的数据对象的可测量属性或特性。它们就像食谱类比中的成分一样。例如,在关于汽车的数据集中,特征可能包括重量、颜色、马力或品牌等内容。这些是机器学习算法在做出预测或决策时要考虑的方面。

标签

标签是我们训练模型预测的结果。它们就像烹饪示例中的成品菜一样。标签可以是汽车是跑车还是家用车,具体取决于其功能。

训练

机器学习训练是模型从数据集中学习的过程。这就像学生为了考试而学习。学生阅读书籍,关注重要细节,并尝试根据所学内容预测答案。随着时间的推移,通过学习和练习,学生提高了准确预测答案的能力。

代币

在机器学习的一个子领域——自然语言处理(NLP)中,代币指的是机器可以理解的最小文本单元。想象一下阅读一本书,但不是整页阅读,而是逐个词语呈现给你。每个词语都是一个“代币”,通过正确顺序和上下文分析这些代币,你可以理解整个故事。

模型

模型是机器从训练中学到的东西的表示。它是吸收特征并给出预测的理论框架。将其视为“大脑”。

过拟合和欠拟合

过拟合和欠拟合这两个术语与模型对数据集的学习程度相关。过拟合好比在没有真正理解基本概念的情况下,仅仅记住了学习材料中问题的答案,当遇到稍有不同的考试问题时,这种记忆可能无济于事。而欠拟合则相当于学习不够充分,学生可能因为没有掌握必要的细节而表现不佳。

时代

在机器学习中,一个时代(epoch)指的是模型在训练过程中对整个数据集进行一次完整遍历。可以将其类比为学生从头到尾阅读所有的书籍,这样的过程就构成了一个时代。通常需要多个时代,就像学生可能需要多次修订笔记才能完全理解材料一样。

大型语言模型(LLM)

大型语言模型(LLM),如GPT-3和GPT-4,经过训练可以根据给定的提示理解和生成类似人类的文本。将LLM视为游历广博的语言学家,他们阅读了无数书籍,并擅长创作与上下文相关且内容丰富的文本。他们就像通晓多种语言的朋友,不仅能够用多种语言进行沟通,还能讲述引人入胜的故事或起草清晰的论文。

微调

机器学习中的微调是指对已经训练好的模型参数进行调整,以便在特定任务上获得更好的性能。使用我们的语言学家类比,微调类似于我们的多语种朋友在与不同的受众交流时调整他们的语言和文化参考,以实现更有效的沟通。

迁移学习

迁移学习是一种将预训练模型应用于新的但相关问题的方法。例如,经过训练以识别汽车的模型可以稍微调整以识别卡车。可以想象一位专门制作蛋糕的糕点师,他学到的技能(如混合面糊、在适当的温度下烘烤、糖衣等)可以通过一些调整应用于制作纸杯蛋糕,这就是迁移学习。

监督学习

监督学习是一种机器学习方法,其中模型在有标签的数据上进行训练。这就像是一个指导式教学场景,老师提供正确答案供学生学习。当稍后要求学生解决类似问题时,学生可以参考所学材料。

无监督学习

另一方面,无监督学习是在没有任何标签的情况下对模型进行训练的方法。这就像把一个复杂的拼图游戏交给学生,但不给他们看盒子上的图片。他们必须理解拼图并自己发现其中的关联。

强化学习

强化学习涉及代理通过在环境中采取行动来最大化奖励并做出决策。这就像训练一只狗,你会因为它表现良好而奖励它,或者因为它的行为不当而惩罚它。随着时间的推移,狗会学会通过表现良好来最大化待遇。

神经网络

神经网络是受到人脑结构启发的计算系统。它由相互连接的神经元构成,这些神经元处理信息并从提供的数据中学习。可以想象一个团队正在合作完成一个项目,每个成员都有特定的角色,他们相互交流以达到预期的结果。

自然语言处理(NLP)

自然语言处理是机器学习的一个分支,专注于计算机与人类语言之间的交互。可以想象试图教一个外国人理解和交流一种新语言的情景,其中包括该语言的所有规则、上下文和微妙之处。这正是我们在NLP领域中所做的工作。

代币化

代币化是将文本分解为词语或短语等单元的过程,我们称之为“代币”。可以将其类比为将一句话切分为单独的词语,就像将蔬菜切成小块以供烹饪一样。

文本分类

文本分类是将预定义的类别分配给文本的过程。类似于根据内容将你的电子邮件分类到不同的文件夹中,比如“工作”、“个人”、“垃圾邮件”。

情绪分析

情绪分析涉及确定一段文本表达的情感,如正面、负面、中性等。可以将其想象成一位移情者,通过语调或表情来理解人们的情绪,但在这种情况下,是通过书面文本。

停用词

停用词是指像“the”、“is”、“in”这样的常见词语,它们在文本处理过程中经常被过滤掉,因为它们本身没有太多意义。可以将其视为演讲中经常使用的填充词,它们可以在不改变对话本质的情况下被省略掉。

尽管这些术语听起来很复杂,但它们只是使机器能够理解和生成类似人类文本的工具和技术。机器学习是一个复杂的领域,但理解这些基本术语可以大大提高其易用性。通过将这些术语与日常类比进行对应,希望能让您更直观地了解机器学习世界。



上一篇:欧美爆发大规模网络攻击: 大量企业中招 黑客勒索赎金
下一篇:京东二十年的低价武器:六亿用户的体验经济学