我们将人工智能依据实力划分为三类:
弱人工智能:仅擅长某个单方面应用的人工智能,超出特定领域外则无有效解决能力;
强人工智能:人类级别的人工智能,在各方面都能和人类比肩,且无法简单进行人类与机器的区分;
超人工智能:在各个领域均可以超越人类,在创新创造、创意创作领域均可超越人类,可解决任何人类无法解决的问题。
我们认为,从目前人工智能的应用场景来看,当前人工智能仍是以特定应用领域为主的弱人工智能,如图像识别、语音识别等生物识别分析,如智能搜索、智能推荐、智能排序等智能算法等。而涉及到垂直行业,人工智能多以辅助的角色来辅佐人类进行工作,诸如目前的智能投顾、自动驾驶汽车等,而真正意义上的完全摆脱人类且能达到甚至超过人类的人工智能尚不能实现。我们预计,未来随着运算能力、数据量的大幅增长以及算法的提升,弱人工智能将逐步向强人工智能转化,机器智能将从感知、记忆和存储向认知、自主学习、决策与执行进阶。
资料来源:渤海证券
人工智能的基础平台需要三大要素:超算能力、顶尖的深度学习算法人才、海量的数据资源。每一样都有极高的门槛,这决定了基础层只能是少数巨头能够把控的领域。科技巨头长期投资基础设施和技术,同时以场景应用作为流量入口,积累应用,成为主导的应用平台,将成为人工智能生态构建者(如Google、Amazon、Facebook、阿里云等)。在某个行业应用场景数据资源相同的情况下,基础层的企业因为能够从最基本的神经网络模型算法作出相应的适配和改进,往往体现出其他企业难以超越的优势。
资料来源:阿里研究员、浙商证券研究所
AI正成为基础设施,AI-aaS降低企业智能化实施门槛
国内外科技巨头(谷歌、微软、百度、阿里等)及AI初创企业(Face++等)、上市公司(汉王科技等)纷纷推出AIaaS(Applied Artificial Intelligence-as-a-Service,人工智能即服务),把成熟的AI技术作为基础设施或工具型产品提供给其他企业,以“按需付费”的形式衍生出了一种新的盈利模式——AIaaS。
| 产品 | 功能 | 定价 |
亚马逊 | 机器学习 | 生成ML模型和预测的管理服务;包括建模APIs和实时批处理预测APIs | 数据分析与模型建立$0.42每计算小时;批量预测$010每1000个预测;实时预测$0.0001每个预测 |
图像识别Rekognition | 检测对象、场景和面孔;识别名人;还可以识别图像中的不当内容 | $1/1000张(100万张以内),调用次数越多价格越便宜 |
语音识别Lex | 自动语音识别(ASR)、自然语言理解(NLU)功能,供开发者使用Amazon Alexa的深度学习技术 | 语音请求:0.004元/条 文本请求:0.00075元/条 |
文字转语音Polly | 将文字转为语音,支持24中语言的转换 | 每月前500万个字符请求免费;超出部分$4/100万个字符 |
谷歌 | 视觉API | 图像分析工具 | 根据使用的功能和每月的使用情况,由$0到$5每1k单位不等 |
谷歌云机器学习 | 以便用户建立机器学习模型的管理服务 | 集中培训:根据每小时培训单位,由$0.49到$36.75每小时不等;预测请求:根据请求数量,由$0.05到$01.0每1000个请求,外加$0.40每节点小时 |
语音API | 将音频转化为文字 | 前60分钟免费;61分钟至100万分钟内$0.006每15秒 |
预测API | 机器语言/预测分析工具 | 6个月的有限制免费试用;付费使用访问费$10每月每项目,每天前10000个免费预测和流培训,额外的预测每1000个$0.5,额外的流更新每1000个更新$0.05,每MB培训数据$0.002 |
微软 | 计算机视觉API | 可视数据分析工具 | 根据每月使用情况,每1000笔处理由$0至$1.5不等 |
情感分析API | 检测图像情绪 | 根据使用情况,每1000笔处理由$0至$0.25不等;录像免费 |
人脸识别API | 利用属性和面部识别进行面部检测 | 根据每月使用情况,由$0至$2500不等每月 |
文字分析API | 使用非结构化文本分析得以实现 | 根据使用情况,由$0至$2500不等每月 |
必应语音API | 将音频转化为文字并转化回音频,使得APP能够以语音方式回复用户 | 根据类型和使用情况,每小时$5.5到$9或每千笔交易$0到$4 |
网络语言模型API | 基于REST的为自然语言处理提供工具的云服务 | 根据使用情况,每千笔交易$0到$0.05不等 |
阿里云 | 自动配色API | 识别图像主要色彩组成,提供五种可选配色 | 0.01元/30次 |
身份证识别API | 识别出身份证包含的身份信息 | 0.01元/500次 |
新闻要素抽取API | 新闻五要素的自动提取 | 0.01元/500次 |
百度云 | UNIT | 面向第三方开发者提供的对话系统开发平台 |
|
语音合成API | 即文本转换技术(TTS) |
|
网络图片文字识别API | 主要应用于图片内容审核以及视频内容分析和审核 | 每日500次以内免费;每月调用量在5万次以内时价格为0.01元次;其余按调用两单价回有所调整 |
自然语言处理API | 提供国际领先的自然语言处理技术 |
|
智能视频分析API | 实现对视频内容的理解,并基于此构建视频推荐、视频搜索和视频广告系统 |
|
图像审核 | 准确识别图片和视频中的涉黄、涉暴涉恐、政治敏感、微商广告等内容,也能从美观和清晰等维度对图像进行筛选 |
|
旷视科技 | Face++人脸识别 | 包括人脸识别、证件识别在内的多种图像识别能力 | 0.001元/次 |
资料来源:微软Azure、亚马逊AWS、谷歌云官网、阿里云、百度云、国金证券研究所
未来3-5 年人工智能以完成具体任务的服务智能为主要趋势,数据化程度高的行业将率先启动。在服务智能情景下,数据可得性高的行业,人工智能将率先用于解决行业痛点,爆发大量场景应用。安防、医疗、金融、教育、零售等行业数据电子化程度较高、数据较集中且数据质量较高,因此在这些行业将会率先涌现大量的人工智能场景应用。
安防是中国人工智能最先产业化的行业。近些年由于国家“平安城市”建设的推进,安防领域的政府投资力度较大,全国过半摄像头已完成高清摄像头部署,警务电子化与信息化已逐步完成,为人工智能技术部署提供了基础条件。且随着安防数据爆炸式的增长,智能化安防已经是安防领域新的诉求。从AI 技术上讲,安防领域主要运用到的技术是以图像识别为基础的人脸识别、车辆识别、人群与行为识别等技术以及以语义理解为基础的警务数据分析与理解技术。
深度学习对计算能力要求非常高,以至于有人称之为“暴力计算”。传统的CPU在目前人工智能计算中使用较为普遍,但由于内部结构原因,在性能和效率上并不是最优选择,GPU在浮点运算、并行计算等方面性能优于CPU,FPGA综合性价比不错,人工智能ASIC专用芯片效率最高,未来前景广阔。在PC时代,CPU被国际巨头垄断,目前中国人工智能产业生态全球领先,在人工智能芯片领域,发展潜力很大,像深鉴科技(FPGA)、寒武纪科技(ASIC)开发的芯片产品,都处于领先位置。
数据驱动的深度学习算法通过一个函数来实现诸多场景与物体的准确分类,但泛化能力差,碰到新考题缺乏分析能力,问题的解决有赖于常识的建立与基于先验假设的逻辑推断,这将使计算机视觉与语言接轨,由感知智能上升至认知智能。再进一步,分类仅为视觉系统应有的基础功能之一,终极目的应为打造出可与世界交互的机器人智能视觉系统,由机器人所要解决的更加综合复杂的现实问题来驱动其选择要感知的事物与感知的精准度,支撑其圆满完成任务。
虽然终极愿景道阻且长,但分类任务的日益精准已解锁并将不断解锁更多场景应用。如同过去5年计算机视觉技术在人脸识别上的不断突破,误报率从2015年的千分之一下降至2017年的十亿分之一(在通过率为90%的情况下),商业服务、城市安全、大众娱乐等诸多场景均体会到不同层次的智能升级,商品、道路环境、医疗影像、遥感影像等更多对象的识别、分类问题也将会逐步突破工业化红线,从仅做辅助补充的非关键性应用拓展到切实提升核心业务效率的关键性应用。各行各业的创新型智能应用将纷至沓来,而人脸识别的性能亦将继续攀升,追求百亿、千亿规模上的可行性。
对于更为广泛的传统行业或线下使用场景的潜在客户,计算机视觉的技术落地往往涉及对具体业务场景的硬件设备改造、软件集成以及本地计算设施的部署,算法、技术的实际功效更需要建立在对客户真实业务场景的深层理解之上有针对性的开发。不断增长的市场需求要求更加全面、及时的售前、售中和售后服务,而在对视觉技术能够达到的有效帮助缺乏足够认知或部分暂时缺乏科学完善的评测标准或技术相对同化的业务场景,市场销售的重要性尤为凸显。既要注重前沿算法研发,又要注意现阶段商业落地与市场拓展,这些都为以高新技术人才为主的计算机视觉公司提出了更为综合的挑战。
人工智能的发展的终极目标是类人脑思考。目前的人工智能已经具备学习和储存记忆的能力,人工智能最难突破的是人脑的创造能力。而创造力的产生需要以神经元和突触递质传递为基础的一种化学环境。目前的人工智能是以芯片和算法框架为基础。若在未来能再模拟出类似于大脑突触传递的化学环境,计算机与化学结合后的人工智能,将很可能带来另一番难以想象的未来世界。