2024年8月

机器学习开发任务实例
特征工程与机器学习——搭建一个机器学习模型,人工设计特征:实际工作中,特征比模型本身更重要。
分三步:预处理,去除噪音,例如文本中的停用词;特征提取,从原始数据中提取一些有效的特征。例如图像分类中,提取边缘、尺度不变特征变换特征等;特征转换,对特征进行一定的加工,例如升维和降维。
训练模型和测试模型:训练过程和测试过程完全独立。

开发实例:
明确任务背景和目标:
任务背景:房地产中介在交易中,给房屋进行一个合理报价,让房东和买家进行参考。
任务目标:根据已有的交易数据,训练模型,预测房屋的价格。
任务过程解析:制作数据集,数据准备、数据预处理、数据集划分;特征工程,数据理解、特征分析、特征构造;模型训练,模型优化;模型评测,输出测试集指标、判断模型可用性。

制作数据集:
数据准备:字段、数据内容等。
数据预处理:脏数据处理、缺失值处理(步骤:检查是否有确实、根据业务情况制定处理规则,取0最小值及中位数等、完成缺失值的填充)、格式转换(文本转换为数值,方法是字符串序列化,思路将字符串用同一的编号来代替)。
划分训练集和测试集:训练集用于训练,测试集对泛化效果进行评估。
特征工程:
数据理解:查看样本数据的均值、最大值、最小值、数量、标准差等;查看更详细的数据分位数信息;通过观察加深数据理解,为建模做准备。
特征分析1:通过图分析每个特征与结果的对应关系。
特征分析2:找出现有特征中,与价格的关联度(正数正相关,负数负相关,绝对值大小体现相关性),例如:房间数越多,价格越高;税率越高,价格越低;要去掉不相关的特征,收敛的更快。
特征分析3:对房间特征进行深入的分析。
特征分析4:尝试对特征之间建立关联,房屋数和老旧比例没有关联,就可以去掉1个关联特征,例如去掉老旧房屋比例(价值低)。
特征构造1:特征归一化,将所有特征区间调整为0~1之间。
特征构造2,:使用与价格关联度最大的“房间数”,和其他特征,构造二次特征,房间数税率,房间数环保指数。

模型训练:
训练过程1:按照8:2的比例将训练集数据划分为训练集和验证集。
训练过程2:线性回归;loss,损失函数、误差函数,即用1个标量来标示的训练集标签与真实标签之间的差距;MSE,均方差,参数估计值与参数值之差平方的期望值。
模型优化:
过程:模型调参,选择其他模型。
案例:选择LinearRegression后,MSE从22下降到12,因此选择新的模型。取前20个验证集数据,标注好数据与实际房价对比关系。
模型测评:使用训练好的模型,对预留的测试集数据,评测,得到MSE35。模型交付。

深度学习开发任务实例
深度学习 VS 机器学习
神经网络模型特点:端对端学习,从人类专家知识驱动AI方法论——>有监督大数据驱动的AI方法论,推动了一大类非线性映射函数问题的解决,从人工编码知识到从数据中学习知识,分而治之到全盘考虑,重算法到重数据。
实现方式的对比:
机器学习为图片分类的方法:要训练出一个分类器(非线性分类器)。
深度学习的特征提取方法:卷积,卷积是通信与新信号处理中的重要概念,在线性系统里,卷积用来描述输入信息,脉冲响应和输入信息的关系。
满足线性性和平移不变性,线性性:2个信号分别卷积再加起来,等价于先加起来,再卷积。平移不变性:先平移再卷积和先卷积再平移,是同样的结果。
机器学习:利用算法使计算机能够像人一样从数据中挖掘信息。
深度学习:相比其他方法参数更多、模型更复杂,使得数据对模型理解更深、更智能。
多隐层的深度神经网络介绍:以图像识别为例,构建一个含有2个隐藏层的前馈神经网络,学习的是神经元中的权重参数,神经网络会开发各类特征提取器,信息会被进一步压缩和抽象,卷积神经网络在语音识别和图像处理上有优势,全局共享降低网络的复杂性。

深度学习开发实例(以识别交通指示牌为例)
任务背景和目标
背景:玩具车增加识别交通指示牌的能力。
目标:利用玩具车的前置摄像头,检测交通标志的位置。
任务解析过程:明确数据采集需求、制作数据集、模型训练、模型评测。

任务需求梳理:
计算机视觉实际应用特点:
样本具象化,图像是具体表现形式,除了主体外,还有大量的信息,如背景,光照等。
算法光线敏感:侧光,面向光,背光,强光,暗光,都有影响,如果样本没有这些光线的图片,效果会欠佳。
硬件条件可能造成的图片效果偏差:带来色差、模糊、角度变化,样本如果没有这些资料,效果会欠佳。
客户理解偏差:不理解光线影响,不能清晰的表达述求,都在需求梳理时摸清,否则影响交付。

明确数据采集需求1:赛道样式,看是否有和标志类似的图案。
沟通结果:赛道样式统一、可能出现的赛道变形、转完也要能检测、有特殊标记比如结束标记行人横道等。
明确数据采集需求2:确认使用场地和光照情况;说明模型使用场景和光照;沟通过室内、侧面正面光源以及信号灯的影响等。
明确数据采集需求3:待确认需要检测的交通标志的俯仰角(pitch)、偏航角(yaw)、翻滚角(roll),明确交通标志倾斜角度范围,翻滚角:由于交通标志底部是硬座且不需要考虑交通标志倒地情况,所以翻滚角基本一致。考虑到摄像头可能的固定倾斜,此处角度设定为士10°府仰角:俯仰角可能会收到摄像头俯视情况影响,在距离远近有差异,由于摄像头视角较平,所以角度也认为 士10°偏航角:由于仿真交通标志容易被撞击发生位移,偏航角要求较高,希望在人眼可区分边界情况下均可完成检测,此处认为是 士70°,如下图最左侧与最右侧的标志。
明确数据采集需求4:待确认需要检测的交通标志包含哪些。说明详细列举所有要被检测的交通标志,未被列举的标志不会被识别以及交通标志的数量越多采集工作量越大。
沟通结果包括:1.交通标志有红、黄、绿三种颜色光;2.小人的手部会有举起、放下、平伸三种状态;3.小人存在正面、侧面、背面三种站姿。
明确数据采集需求5,待确认检测覆盖范围,需要明确范围细节,例如:1.是否包含杆体2.边缘出框情况等。
沟通结果:1.对于交通标志牌子,标注范围是交通标志牌所处范围即可。2.对于交通信号灯,标注范围是灯亮的区域。3.对于行人,标注范围是整个行人范围。4.对于边缘出框的场景,如果出框范围不超过50%,也应当予以检测。
待明确检出框分类,说明是否要对每个框体单独检出。
明确数据采集需求6,待确认需要检测的交通标志的最小框;说明需要检测的交通标志的最小框最小框越小,运算量越大,执行效率越低;同时,太小的检测框容易使标注误差变大。沟通玩具车速度较快,需要检测到距离车2米的标志,为后续的小车操控预留时间。
待确认对图片模糊程度的要求,说明实际操作中摄像头模糊效果容忍程度怎样;沟通玩具车摄像头帧率较高,且有处理算法,糊程度实际测试下来最大模糊程度。
待确认设备色差情况,说明是否存在设备色差,沟通摄像头较好,无需考虑摄像头色差,但是在部分场景下可能产生由环境光引起的色域变化和噪点。

制作数据集
数据采集,根据确认的需求,采集对应的图片,图片采集需要注意:使用真实的玩具车进行数据采集、覆盖不同场景、涵盖所有可能的光照情况、涵盖所有可能的交通标志,推动了一大类 非线性映射函数学习问题的解决。
采集数量:根据任务要求不同略有差异,玩具车场景任务较为简单,总计采集1万张图片。
采集方式:让小车在不同场景形式,使用摄像头录制视频,然后将每帧导出为jpg格式图片。

数据标准
工具:开源工具labelme。方法:将所有的交通标志类别命名为traffic、使用矩形对所有图片依次标注。注意:人工标注,矩形框要准确,否则数量再大,效果也不好。
保存格式,yolo目标检测工具,每秒处理45帧图像。保存两个文件,图片同名txt存放标注数据;classes.txt,存放标注类别。
检验,检验标注任务质量,抽查比例由具体任务决定,在标注工具中点击空格将其背景转换为绿色。
数据集拆分,将所有数据按照8:2的比例拆分为训练集(800张)与测试集(2000张)。训练集将提供跟算法组用于模型训练,测试集将提供给测试组用于验证数据的泛化效果。要用随机采样的方式划分,确保独立。

模型训练
检测算法原理1,多隐层的深度神经网络,采用yolo模型。
检测算法原理2,预处理,滑动窗口或分隔等;特征两类信息;和图片去对比,选择出一个最好的;不断拟合,差别越来越小。
训练过程:使用训练集进行训练,同步观察输出结果。

模型测评
效果与指标,使用测试数据。
困难样本考察,边缘情况,确实部分图片,手势,色差,困难样本数据。

人工智能开发目标
发现与明确问题:
目标:AI的目标是将隐藏在一大批数据背后的信息集中处理并提炼,从而总结出研究对象的内在规律。
技术角度:性能能达到预期吗?需要多少数据?能够获取到吗?需要多久?
业务角度:要解决什么问题,商业目的是什么?
数据分析:通过统计、机器学习、深度学习方法,对大量的数据进行计算、汇总和整理,最大化开发数据价值,发挥数据的作用。

开发周期内容:
收集数据:数据源和数据格式
模型探索:测试、部署、监控
模型优化

数据准备:
重要性:数据采集和数据清洗占到人工智能项目一半以上的工作,训练的数据量越大,模型越准确。建立数据标准、数据工程、专家解决方案没来减少数据准备(79%)的时间。
数据限制:时间成本、算力和数据量。
业务流程:
数据采集:观测数据、人工收集、问卷调查、线上数据库
数据清洗:有缺失的数据、有重复的数据、内容错误的数据、不需要的数据等。
数据标注:即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习标签的过程。
数据划分:训练集用于完成模型训练任务,包括训练误差、经验误差。
测试机用于模型的泛华效果进行检验。
一般是8:2或者7:3,训练集较大。
数据验收:
合法性:数据符合定义的业务规则或约束的程度,例如约束,包括类型约束、范围约束、唯一约束。
准确性:数据接近真实值的程度。
完整性:所有必须数据的已知程度。
一致性:在一个或跨多个数据集的一致程度。

数据管理:利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程其目的在于充分有效地发挥数据的作用,实现数据有效管理的关键是数据组织。
数据管理VS数据治理:
数据管理包含数据治理,数据治理是明确数据责任,流程,确保数据资产得到产期有效的管理。数据管理包含方方面面,例如建立一个数据仓库,定义谁能来访问和管理这个数据仓库。
相关问题:数据不足,数据过小没有足够的样本量;数据隐私泄露;分类质量低;数据质量低,样本不匹配样本混乱。

数据特征工程:从原始数据转换为特征向量的过程。
特点:特征工程是机器学习中很重要的起始步骤,直接影响效果,需要大量的时间,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
基本方法:
特征选择:从给定的特征集合中选出相关特征子集的过程,去除无关特征,降低特征学习难度,让模型简单,降低计算复杂度;抛弃这部分特征(冗余特征),可能会降低模型的性能,计算复杂度 和 模型性能 之间的取舍。要注意不能丢弃重要特征。
特征提取:一般是在特征选择之前,提取的对象是原始数据,目的是自动构建新特征(深度学习),将原始数据构建为一组具有明显物理意义(Gabor、纹理特征、几何特征)或统计意义的特征。特征提取——转换;特征选择——挑选。
特征构建:从原始数据中人工构建新的特征,观察原始数据,思考问题的潜在形式和数据结构,数据特殊性和机器学习实战有助于构建,需要创造力和想象力。

人工智能、机器学习和深度学习之间的关系:
机器学习是人工智能的一个分支,该领域的主要研究对象是人工智能,特别是如何在经验学习中改进具体算法的性能;深度学习是一种典型的机器学习方法,是一种基于对数据进行表征学习的算法。
人工智能 > 机器学习 > 深度学习。

机器学习
人工智能实现路径:机器学习是对能通过经验自动改进计算机算法的研究;机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。人类是基于经验,机器学习基于训练模型。
举例:草莓
机器学习就是找到草莓的不同特征维度(尺寸、颜色、成熟度)与草莓标签(酸、甜)之间的映射关系。
机器学习就是找到特征与标签之间的关系,利用算法从一类训练数据或信息中自动分析并获得该类数据或信息的规律,并利用获得的规律进行预测。
上述寻找关系和规律的过程,称为训练。结果是得到一个机器学习模型。

三种类型:监督学习、无监督学习、强化学习。
监督学习:是在有指导的前提下让机器进行学习,这种指导的关键是给训练数据标注好“标签”。监督学习的目标在观察完一些事先标注过的训练数据(输入和预期输出)后,这个模型对任何可能出现的输入去预测其输出。要达到此目的,学习者必须以“合理”(归纳规律)的方式从现有的数据中一般化到未观察到的情况。在人类和动物感知中,则通常被称为概念学习。
无监督学习:无指导的学习的过程,待训练的数据没有标签。聚类:机器学习算法寻找共同特征,并聚合到一起;把相似的对象通过静态分类的方法,分成更多的组别或者不同的子集,使成员具备相似的属性。
系统自由的探索,所学的内容要包括理解数据本身,而不是将这种理解用于特定的任务。通往通用智能的道路,必须有无监督学习。比如监督学习是考试,知道答案,学习后下次的目的就是考试。无监督学习是自己学习试卷,把语文、数学题分开,并不是要考100分为特定的目的。就是归纳数据,创建子集。和人类的“归纳”学习方法类似。
强化学习:强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,它主要解决的是决策问题,即让智能体(agent)在与环境的交互过程中自动进行决策以达到回报最大化或实现特定目标。
强化学习的基本框架包括四个元素:agent、环境状态、行动和奖励。智能体(agent)根据当前的环境状态(state)按照某种策略(policy)选择下一步动作(action),并从环境中得到奖励(reward)。强化学习可以分为基于值(value-based)的强化学习、基于策略(policy-based)的强化学习和演员-评论家(Actor-Critic)方法。
强化学习是一种试错方法,没有直接的标签,而是通过奖励来学习。

深度学习
神经网络模型:深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅草莓照片)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。
深度学习的最主要特征是使用神经网络作为计算模型。神经网络模型 得名于其对于动物神经元传递信息方式的模拟。
深度,一般指神经网络的层数。一般有2-3个隐藏层;深层神经网络,隐藏层可能有150层。
深度学习 VS 机器学习:相辅相成。
特征处理:
所有机器学习:需要可准确识别且有人工提取的特征。
深度学习:从数据中习得高级特征,并自行创建新的特征

学习方法:
所有机器学习:将学习过程划分为较小的步骤。然后,将每个步骤的结果合并成一个输出。
深度学习:通过端到端地解决问题来完成学习过程,只要有输入和输出即可,不需要分为更多步骤。

数据依赖:
所有机器学习:可以使用少规模的数据做出预测,可解释性好,性能好。
深度学习:需要使用大量的训练数据做出预测,可解释性不好。

硬件依赖:
所有机器学习:可在低端机器上工作,不需要大量的计算能力。
深度学习:依赖于本身就能执行大量的矩阵乘法运算的高端机器。 GPU可以有效地优化这些运算。

最后,深层神经网络,数据量大性能越好,传统机器学习,数据量大,性能和结果扁平。

人工智能发展的成功要素
算法的进步启发人工智能的发展
2006年以来,以深度学习为代表的机器学习算法发展:卷积网络、循环网络、生成对抗网络、强化学习。

Hinton AI教父:相信大脑不是将信息存储在一个单元里面,而是分布式全息存储,坚持神经网络理论研究40年。
算法取得长足进步:1986年,Hinton在ture发表“Learning Representations by BackPropagating Errors”,第一次阐述多隐层神经网络,解决了线性不可划分难题;(表征学习)。
1989年,Hinton的学生Yann Lecun,利用卷积神经网络的技术,开发支票识别软件。
面临问题:计算性能不足、数据确实严重、问题的复杂性。

神经网络的发展现状:2006年,深度神经网络和深度学习算法,成为前沿至今。
问题突出:可解释性、网络优化、数据稀缺性、算法复杂度。

数据推动人工智能的发展
全球数据大规模增长:
21世纪头10年,互联网发展,IT蓬勃创新,大数据在互联网行业最先得到重视。
2005年,hadoop出现,大数据重大突破。
2007年,数据密集型科学出现。

Imagenet大规模数据集:
2009年,李飞飞团队发布第一个超大型图像数据库,320万个图像,目标8万个英文名词,每个500-1000个图像。
2010年,大型图像识别竞赛第一次举办。

ILSVRC竞赛—图像识别:
Top Five Category。
2012年冠军,Hinton和2个学生,错误率达到15.3%。
2015年开始错误率低于人类。

高性能计算机保驾护航:
AI芯片诞生,GPU就AI芯片的一种。
2009年,斯坦福大学的吴恩达,Large-scale Deep Unsupervised learning using Graphic Processors,参数规模达到1亿。

人工智能迅速发展的技术领域
计算机视觉
定义:Computer Vision CV,计算机如何象人类一样的看的学科。用摄影机和计算机,代替人眼,识别、监测、测量,并进一步处理,成为更适合人眼观察或仪器检测的图像。
场景:
图像分类:根据不同的语义区分图像、图像做为输入进行区分、使用深度学习和神经网络、细粒度图像分类。
应用:动物保护、目标检测、医疗诊断、鸟类保护等。
图像重建:它通过对已有的图像信息进行处理和分析,能够恢复、重建或增强缺失或损坏的图像,为各种应用领域提供高质量的图像信息。用于遥感、CT等。
目标检测:
在图像中定位感兴趣的目标,准确判断每个目标的类别,并给出每个目标的边界框。
难点和重点:小目标的高精度检测、多类别目标检测。
应用:机器人导航、自动驾驶、智能视频监督、工业检测、人脸识别等。
图像搜索:图像检索技术可以分为两类:基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。核心在于图片特征的提取。涉及版权保护、拍照购物等。
图像分割:将数字图像分割为若干个图像子区域(像素的集合,也被称为超像素),改变图像的表达方式,以更容易理解和分析。是图像处理与理解和人工智能等多个领域中十分重要又十分困难的问题,是计算机视觉中的关键步骤。
分为三类:
语义分割:预测输入的图像的每个像素点属于哪一类标签。
实例分割:在语义分割的基础上,还要区分出同一类的不同个体。
全景分割:在实例分割的基础上,对背景的每个像素点,进行分割。
应用:医学核磁影像、遥感领域、交通领域的车辆轮廓提取。

语音技术
让智能设备能够听懂人的语音,也可以让机器说话的一种技术,涉及:数字信号处理、人工智能、语言学、数理统计、声学、情感学、心理学等;包括:语音识别技术ASR,语音合成技术TTS。
语音技术与人工智能:智能客服、智能家居等。
三个应用场景:
语音识别:目标是电脑可自动识别人类的语音为文字;语音拨号、语音导航、室内控制、文档检索、简单的听写数据录入。
语音合成:定义:采用机械的、电子的方法,实现人造语音的技术;TTS(Text-to-Speech),文语转换技术,将文本转为流利的语音。应用:人机交互、智能客服等,
声纹识别:生物认证技术的一种,根据说话人语音中生理和行为特征的语音参数自动鉴别说话人身份的一种技术。交叉运用了生理学、心理学、语音信号处理、模式识别、统计分析和人工智能综合知识。应用:移动互联网、通信、门禁等。

自然语言处理:Natual Language Processing,NLP,包括自然语言识别和自然语言生成,用途是从非结构化的文本数据中,发掘洞见,并访问这些信息,生成新的理解。
自然语言处理与人工智能:用机器来处理大规模的自然语言信息。人工智能、计算机、信息工程的交叉学科。由于语言是人类思维的证明,因此自然语言处理是人工智能的最高境界,被誉为“人工智能皇冠上的明珠”。
应用场景:
文本分类:Text Categorization,将文本按照一定的分类体系或者标准自动的分类打标签。新闻分类、邮件自动回复、广告过滤、内容审核等。
机器翻译:Machine Translation,属于计算机语言学的范畴,利用计算机程序将文字或者演说从一种语言翻译成另一种语言。使用一种基于语言规则的语法,文字依据语言学的规则来翻译,即1个最合适的目标语言的字词将会替代源语言。
成功的关键:能够优先解决对自然语言的正确认知和辨识。
应用:在线多语言翻译、语言同传、翻译机(微信翻译等)、跨语言检索。
知识图谱。
对话系统:Dialogue System,对话系统,也称会话代理,一种模拟人类与人交谈的计算机系统,旨在可以与人类形成连贯通顺的对话,通信方式主要有语音/文本/图片,当然也可以手势/触觉等其他方式。
类别:任何导向型对话系统和非任务导向型对话系统(聊天机器人)。
应用:聊天机器人、语言助手、智能客服。
信息检索。
文本生成。

人工智能使用最多的语言:Python,需要一些数学基础、机器学习的原理,以及应用场景(机器视觉)和文字识别。
人工智能的应用,指纹识别、刷脸解锁、金融、零售、教育、医疗、交通等。
指纹和刷脸解锁:样本采集、图片和纹路识别,转换数字信号,样本对比。
数据和技术的基础:数据的成熟度和技术的成熟度。
人工智能的应用基础:场景清晰度和AI应用历程。
看组织机构战略和文化。

使用率最高的行业:金融
金融行业场景:智能风控、智能支付、智能理赔、智能投研、智能投顾。

零售行业:设计、电商、供应链管理、收益管理、生产制造、线下。人工智能提升零售全流程运行效率,优化消费者体验。
智慧零售:提升全流程运行效率,提升用户体验
设计:配色参考、图片分析
电商:以图搜图、智能推荐
供应链管理:仓储设计、库存管理、区域划分、运输路径优化
收益管理:定价策略
生产制造:拍摄样品、智能质检
线下零售:选址、识别商品、智能监督、优化商品摆放、流量统计分析

智能教育(AI + 教育):深入到学习的各个环节。最外围:伴读、搜题。次外围:测评,例如流利说。核心:起步阶段。关键场景:获取学习资料、沟通、测评、教学辅助、教学认知和思考、分层排课、图像识别批改阅卷等。

智慧医疗:从影像分析、辅助诊疗、健康管理等角度做好医患助手。
语言输入病例、影像分析(病灶识别、降低误诊、减少重复劳动、帮助医生发现罕见病)、综合性诊疗(虚拟医生、利用自然语言处理、知识图谱、计算机视觉、推理、诊疗)、健康管理(健康监测、预测)、医疗机器人(手术、康复机器人、提高精度)、药物研发(降低发现候选药物时长、降低新药研发成本)等。

智慧制造:助力生成制造优化、减少重复劳动、实现智能制造。
设备健康管理:基于特征分析和机器学习,进行设备故障预测和全生命周期管理,进行预测性维修,让设备长期受控,降低维保费用。
智能质检:利用计算机视觉进行产品缺陷检测,降低人工成本,提升品质。
工艺参数性能优化:结合专家经验和智能分析,挖掘数据背后的规律,调整工艺参数。
3D(智能无序)分拣运输机器人:借助3D视觉,物品识别、姿态估认、尺寸测量、运动规划,例如抓取不规则物品,且有效放置。

智慧健康:降低健康管理成本,实现交互革命,增强人类功能。健康数据管理、低成本康复管理、变革多维交互体验(AR/VR)、智能化康复设备制造、个性化增强人类功能(AI干预自闭症等)。

智慧交通:拥堵分析、路线优化、智能调度、辅助驾驶;交通信号灯智能匹配、车道偏离预警、碰撞预警、夜间辅助等。
航空优化:航线网络优化、机组排班优化、收益管理等。
自动驾驶:限定场景的自动驾驶。
共享单车:智能分析热力图、调度策略、未来需求预测、提升平台运营效率等。

人工智能的发展
政策支持人工智能走向泛在:分为四个阶段。
探索阶段:2012~2014
第一阶段:2015~2016,出标准,积累技术,市场热度上涨。
第二阶段:2017~2018,上升为重要战略
第三阶段:2019,强调与实践深度融合
第四阶段:2022~至今,如今人工智能上升为新基建。

需求:应用场景持续涌现。转型需求:人工红利转型为创新红利。
场景丰富:找大规模、多样——数据资源大。
抗疫:疫情常态化,无接触是重点。

供给:智能产业生态不断丰富。
技术:从实验室走向大规模的商用,从芯片、深度学习算法到AI几大应用领域。
数据:数据正式成为重要的生成要素,大数据推动AI算法不断优化,智能离不开数据。
市场:供需互相促进的正向市场环境建立,数据记录——模型优化——应用升级。
资本:走出炒作泡沫,聚焦价值领域。
平台:大厂普遍开放平台生态。

AI走向泛智能:智慧+、AI新基建、智能底座。