在人工智能工程化里，前端能做什么？

注：本文所说的人工智能特指机器学习，不涉及人工智能的其它形态。

随着人脸识别、搜索推荐、自动驾驶等方方面面的人工智能应用逐渐向人们靠近，人工智能与人类社会生活的融合程度也在逐渐提升，伴随着技术的发展以及算力的增强，可预见将来人工智能能做的事情将会越来越多，我们的生活与人工智能会更加密不可分。

那么在这场人工智能浪潮中，前端工程师们能在 AI 工程化方面做些什么事情呢？下面我们将根据业界已有的一些服务、平台还有我们自己的经验，来聊聊前端在这方面的工程经验。在此之前，先简单介绍一下机器学习是什么，它大概有哪些流程。

什么是机器学习？

机器学习的核心如果用一句话来概括，那就是根据已有的数据，采用特定的算法进行训练，得到可用于预测的模型。

在这句话里有三个关键词：数据、算法、模型。围绕这三个关键词我们进行展开：

数据

数据是机器学习的根本，无论是训练还是预测，都是围绕数据在进行的，因此必须先收集或记录大量的数据，然后才能做更多的事情。

有了可用的数据后，我们就要了解数据有哪些特征，特征需要被提前标注出来，然后算法工程师再从中发现或者创造出来一些可用的特征，围绕这些特征进行机器学习模型的训练。

以一个具体的例子来说，假设我们需要预测一单外卖订单的送达时间，我们首先需要获得以往记录下来的大量数据，之后还需要数据中的这些特征信息：下单时间、送餐地点、下单菜品种类和数据、餐厅的平均准备时间等，可以认为训练就是在找这些特征与我们的目标（预计送达时间）之间的关系，一个训练良好的模型，输入一条新的数据，能很好地实现我们的预测目标，然后在用户的手机里显示一个相对准确的预计送达时间。

算法

根据预测目的的不同，我们需要采用不同的算法来处理数据。预测目的从大类上来说，可以分为“监督学习”和“无监督学习”。

“监督学习”是指目标是已经注标好了，我们产生的模型获取到输入数据后，会按照给定的目标得出我们想要的结果，常见的监督学习解决的问题包括“分类”和“回归”：

分类的目标就是把结果分成几类，并给出属于每种类别的概率。典型的分类问题比如“二分类”，它的预测目的就是“是或否”，比如这一笔转账是否有风险，有风险的概率是多少。
回归的目标是根据输入预测输出结果的值，比如根据一个人的月消费种类和数量，推测出这个人的年收入是多少。

“无监督学习”是指目标并没有提前标注好，模型最终的目的并不是要得到某个值。典型的无监督学习解决的问题有“聚类”问题：

聚类的目的是把相似的数据聚在一起。比如推荐场景，聚类就可以把有相同兴趣爱好的用户划分在一起，然后给他们推荐这个群体需要或喜欢的内容。还有比如上面链接中指向的可以自动写作文的 GPT-3，也是属于无监督学习。

算法就是为了完成上述不同的目的，需要选择的对数据的处理方法，通过选择合适的算法进行训练来实现产出模型的目的。

模型

模型是机器学习训练的最终产物，它物理上对应的是一个文件，逻辑上对应的是一种模式，拿监督学习来举例，假设把所有的输入汇总看作是 x ，输出看作 y ，监督学习可以认为是在尽量寻找出 y ≈ f(x) 这个式子，其中的函数 f 就是训练得到的模型。我们最终就是利用这个模型，给它特定的输入，得到我们需要预测的结果。

在实际的工程实践中，这个模型文件并不会被业务团队直接使用，一般是将其部署在服务器上，上层对应着一个 API 可以调用这个模型做预测，业务团队最终通过调用 API 来使用模型的预测能力。