人工智能语音系统

晚上和同事聊了会天，感觉精神挺好的，写下这篇文章记录自己的一些思想

目前语音交互被市场炒的火热，大小公司做此类产品的层出不穷，首先我觉得要感谢siri给大家做了这么好的平台建设，其实纵观计算机领域，语音交互这一块是起起伏伏，总是隔几年就会被炒火一次，可是火不了一段时间又消沉了。siri的到来，貌似给大家的感觉是语音时代已经到来了，而且很快会才成为人们的用户行为习惯了。

可是不知道大家有没有真正想过siri？它的优势、技术核心是什么？

以下是我自己的一些理解：
从前台和后台来分析siri，前台分为UI界面以及语音设别。Siri采用Nuance的语音设别和语义合成技术，类似中国的科大讯飞。这个东西需要一批牛人积累多年才能生产出来，什么信号处理、模式识别、概率统计、信息论、数据挖掘、人体听觉机理、人工智能等等计算机、数学、统计学、生物领域nb的技术都得用上，这个没有什么好说的了。后台即为语义识别技术，这一块其实是技术的核心点，我不知道这些技术全是SRI自己研究出来的，还是借鉴了其他搜索类公司的技术。但是不论如何，这一块都是一个核心地方。其实，这一块的技术就是几大搜索类公司的核心技术。一是以google和百度为代表的网页搜索技术，二是以wolfarm alpha为代表的知识计算技术，三是wikipedia为代表的人工知识库技术。网页搜索通过网络机器人获取每个科访问网站的内容，这些数据被分解成一个索引，这样便可以根据内容来查找页面，用户输入一个查询，查找索引找到相关内容的页面，返回的为相关内容的列表；知识计算技术，是将所有可以获得信息建立成一个有组织的数据库，然后再利用算法进行处理，最终构造成类似与google这样的搜索工具。其实说白了就和百度前几年一直鼓吹的框计算一样，只要把东西放到框内，什么东西都可以给你解决。例如你在百度输入天气，它会显示你所在城市的天气情况，而不是以往常的网页形式展现。知识计算技术给出的答案更加精确，更加的唯一性；人工知识库技术，以维基百科为例，它采用词条和主题为单位，利用人工的力量收集知识。因此这样的知识结构化程度高，更加准确并且人性化，可同时它的知识体系会受到限制。Siri结合三项搜索类技术，根据不同的需要，利用相应的技术给出答案。其实网上经常大家说的人工智能、上下文识别、自动学习技术，这些都包含在这三项搜索技术里面了，仔细想想这些搜索是否会记忆人的行为模式、是否会上下文识别语义、是否会人机智能交互。忘了，Siri还有一个技术就是知识推荐技术，类似于大众点评、携程这样的网站，查询好吃的、机票之类的，会给出一个推荐结果。由于国外的很多类似软件api是开放的，所以siri在知识推荐这一块等于利用这些开放的api云服务了。

Siri的优势我个人觉得有两方面，一是语音交互，实现语音控制功能，这是人体本能机理的发展趋势，人类的控制欲很强，肢体控制——>声音控制——>脑电波控制…。二是搜索方式，想想如果用google，你搜索的步骤，在google输入问题——>给出一推结果——>一个个筛选自己需要的结果——>得出答案。而siri只有两步，输入问题——>得到结果。

说了这么一大段技术分析的话，只是为了更好的去思考国内这些智能语音交互产品的未来。
据我所知，目前做这一块的有讯飞语点、智能360、快说、口袋语音、我问问、虫洞助手、小i机器人、009、开心熊宝、小唐龙、云助理，还有小米手机自带的语音助手，以及一系列模仿siri的山寨类软件。其中这些产品分为五类，1、讯飞语点、智能360、快说、口袋语音、我问问、虫洞助手 2、小i机器人 3、009、开心熊宝、小唐龙 4、云助理 5、手机集成的语音助手以及山寨siri。

我针对每一类谈一谈自己的看法。
第一类首先它的未来是死的，除非有本质性的改革。从技术上来看，目前这些产品采用的语音识别和语义合成技术为讯飞、谷歌、盛大等提供，如果哪天讯飞要按照装机量收费了，而产品却没有盈利，这些产品必然会成为讯飞语点的手下败将，可矛盾的是讯飞根本没有精力去不断优化讯飞语点（从讯飞语点的产品更新过程就可以看出来），毕竟讯飞的主要目的不是在这一块，讯飞语点只是让别人知道讯飞有这么个东西而已。语音技术暂且不谈，就上面说到的siri利用的三种搜索技术，着实会让这些产品望尘莫及。没有一批计算机领域的顶尖专家，在这一块是很难有突破的。因此，这些产品的语义识别根本没法能够得到质的突变，只会随着语料的不断增加而越来越乱。从产品上来看，用户的粘度不够，用户过了新鲜期很有可能会卸载掉。作为一款移动应用，如果没有利用移动、云、社交三个要素，死的可能性极大。

第二类是小i机器人，我很看好这个产品，当然我指的不是手机客户端的那个小i机器人了。小i机器人在语义识别这一块在国内是领先，我不知道小i是不是有很多专家，但是人家多年的经验积累绝对是有很强大的技术背景。小i在产品展现方式上很简单，没有特别的设计和思路，但是小i的市场思路确是特别的清晰。小i机器人应用在微博、移动、政府、银行、运营商等等领域，作为智能机器人的形象来推广。可想而知，小i在语义识别技术上面的技术积累有多雄厚。虽然比不上siri，但是它选择的契机特别好，专注于各行业领域，找准需要智能机器人的机会，从而巧妙的相结合。不仅仅能满足用户需求，还有盈利。可是也有个问题，如果后期等到国内行业应用类的api开放了，再加上百度、谷歌等公司的介入，那么小i还有盈利的空间吗？

第三类，是娱乐类的智能语音产品。009、开心熊宝、小唐龙，三者类似，以娱乐化的形式展现产品，同时加入语音交互。给用户的印象是，智能宠物。这样的产品如果走线上的话，结果很可能也会死，因为用户的粘度不高。游戏和应用结合起来，导致娱乐性不强，应用性不明显，搞成游戏不游戏、应用不应用的两不像。（但是我想提一下开心熊宝，由于它的用户专注于小朋友，目标用户明确，更加专业化，所以有别于其他两款软件是很有可能会朝好的方向发展的）。可是如果它们走线下的话，有可能会有生存的机会。发展智能宠物，走实体路线。但是这一块的技术门槛也比较高，还得看公司的实力和规划了。

第四类，云助理也是一款有意思的产品。我理解的是它想做成，服务在云端，推送给个人的私人助理软件（不知道他们内部是怎样考虑的）。将语义识别放到云端，给用户展现的只是一个简单的助理形象本体，通过助理的帮忙完成一系列功能。其实它的私人助理思路和009的狗、开心熊宝的小熊，小唐龙的中国龙是差不多的，这一点并不新颖。我比较看重的是它提到的云服务概念。目前，他们肯定做不到构建语义识别云，但是有这个理念是好的。如果真正能构成语义识别云，再将各行业api集成在一起，那么无论什么终端载体都可以接受这些信息，那样必然是未来的一个趋势。只是，我担心的是这样的工程好像不是一家小公司或者说几家公司可以做出来的。

第五类，不说了，大家都懂的。

其实每家公司都不好做，但是每家公司都觉得很有机会，这就是魅力所在。

我觉得首先得找准一个方向，专注一个点，做一些自己能做的事情，别老想着那么大的宏伟蓝图，那些留给NB的公司去干吧。小i、开心熊宝就是很好的榜样。发挥自己的优势，找到差异化，然后一头扎进去，做到专业，只有先生存下去才有发展的机会。
哎，写的真累。自己的知识有限，分析的很浅薄。望读者见谅。

　　人工智能的定义可以分为两部分，即“人工”和“智能”。“人工”比较好理解，争议性也不大。有时我们会要考虑什么是人力所能及制造的，或着人自身的智能程度有没有高到可以创造人工智能的地步，等等。但总的来说，“人工系统”就是通常意义下的人工系统。关于什么是“智能”，就问题多多了。这涉及到其它诸如意识（consciousness）、自我（self）、思维（mind）（包括无意识的思维（unconscious_mind）等等问题。人唯一了解的智能是人本身的智能，这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限，对构成人的智能的必要元素也了解有限，所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。人工智能目前在计算机领域内，得到了愈加广泛的重视。并在机器人，经济政治决策，控制系统，仿真系统中得到应用－－机器视觉:指纹识别，人脸识别，视网膜识别，虹膜识别，掌纹识别，专家系统等。人工智能(artificial intelligence)是研究解释和模拟人类智能、智能行为及其规律的一门学科。其主要任务是建立智能信息处理理论，进而设计可以展现某些近似于人类智能行为的计算系统。ai作为计算机科学的一个重要分支和计算机应用的一个广阔的新领域，它同原子能技术，空间技术一起被称为20世纪三大尖端科技。人工智能学科研究的主要内容包括：知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面。知识表示是人工智能的基本问题之一，推理和搜索都与表示方法密切相关。常用的知识表示方法有：逻辑表示法、产生式表示法、语义网络表示法和框架表示法等。常识，自然为人们所关注，已提出多种方法，如非单调推理、定性推理就是从不同角度来表达常识和处理常识的。问题求解中的自动推理是知识的使用过程，由于有多种知识表示方法，相应地有多种推理方法。推理过程一般可分为演绎推理和非演绎推理。谓词逻辑是演绎推理的基础。结构化表示下的继承性能推理是非演绎性的。由于知识处理的需要，近几年来提出了多种非演泽的推理方法，如连接机制推理、类比推理、基于示例的推理、反绎推理和受限推理等。搜索是人工智能的一种问题求解方法，搜索策略决定着问题求解的一个推理步骤中知识被使用的优先关系。可分为无信息导引的盲目搜索和利用经验知识导引的启发式搜索。启发式知识常由启发式函数来表示，启发式知识利用得越充分，求解问题的搜索空间就越小。典型的启发式搜索方法有a*、ao*算法等。近几年搜索方法研究开始注意那些具有百万节点的超大规模的搜索问题。机器学习是人工智能的另一重要课题。机器学习是指在一定的知识表示意义下获取新知识的过程，按照学习机制的不同，主要有归纳学习、分析学习、连接机制学习和遗传学习等。知识处理系统主要由知识库和推理机组成。知识库存储系统所需要的知识，当知识量较大而又有多种表示方法时，知识的合理组织与管理是重要的。推理机在问题求解时，规定使用知识的基本方法和策略，推理过程中为记录结果或通信需设数据库或采用黑板机制。如果在知识库中存储的是某一领域(如医疗诊断)的专家知识，则这样的知识系统称为专家系统。为适应复杂问题的求解需要，单一的专家系统向多主体的分布式人工智能系统发展，这时知识共享、主体间的协作、矛盾的出现和处理将是研究的关键问题。人工智能是人类设计创造出来的，它们的存在无疑为人类现在和将来的生活工作效率等等都是很大的帮助，其实一种事物是否有害，是看用它的是什么样的人，出于什么目的，要是用的得当，以为人类造福为福祉，那就是有利的。但可能对人的就业要求会更高，也可能使得一部分人的工作因为被人工只能替代而造成事业。