机器学习及其策略研究
作者:黄岩
来源:《中国新通信》2013年第02期
一、机器学习的概念
机器学习是人工智能的一个分支,是现代计算机技术研究一个重点也是热点问题。顾名思义,机器学习就是计算机模仿人类获取知识的模式,通过建立相应的模型,对外界输入通过记忆、归纳、推理等等方式,获得有效的信息和经验总结,进而不断的自我完善,提高系统的功能。目前,机器学习的定义尚不统一,但对于计算机科学,特别是从事人工智能科学探索的研究者们,一般公认H. Simon对于机器学习的定义,即“如果一个系统能够通过执行某个过程改进它的性能,这就是学习”。当然这是一个比较泛化的概念,系统一词,涉及了计算系统、控制系统、神经系统、函数模型系统、人的系统等等多个范畴,不同的系统又属于不同的领域。即使是同一个系统,也因为目标不同,学习的方法和途径,数据分析的策略也都有所不同。但是无论是哪种系统的哪类知识的学习,其目标归根结底都是从大量无序的信息中获得有序的可以被有效利用的知识。 二、机器学习的发展历程
机器学习的发展大致可以分为四个阶段。
第一阶段:20世纪50年代中叶至60年代中叶。这个时期是机器学习研究的“热烈时代”。研究对象是没有知识的学习,目标是各自组织和适应系统。此阶段有两个代表,一是1957年Rosenblatt提出了感知机算法,这是第一个具有重要学术意义的机器学习的算法。二是50年代末,Samuel编写了跳棋程序,利用启发式搜索技术,可以从经验和棋谱中进行学习,不断调整棋盘评价函数,提高棋艺。第二阶段:20世纪60年代中叶至70年代中叶,机器学习的冷静时期。本阶段是模拟人类的学习过程,采用逻辑结构或图结构作为内部描述。代表有:1969年Minsky与Papert出版的对机器学习研究有深远影响的著作《感知机》一书。第三阶段:20世纪70年代中叶至80年代中叶,称为复兴时期。在这个时期,人们从学习单一概念延伸至学习的多个概念,探索不同的学习策略和各种学习方法。在此阶段中,研究者已经将机器学习系统与现实应用相结合,完成相应的学习过程,取得了很大的成功。1980年,在美国召开的第一届机器学习国际研讨会,标志着机器学习在全世界范围内的全面兴起。第四阶段:1986年至今。由于作为机器学习科学基础之一的神经科学研究的重新兴起,机器学习也进一步受到了人们的重视。另一方面,对实验研究和应用研究得到前所未有的重视。 三、机器学习系统的模型及其特征 3.1 机器学习系统的模型
龙源期刊网 http://www.qikan.com.cn
(1)外部环境是以某种形式表达的信息或知识的集合,是知识和信息的来源,执行的对象和任务。外部环境像系统提高信息的质量是影响学习系统设计的首要因素。(2)学习是将外部环境提供的信息,加工成为有效信息的过程,它也是学习系统的核心,包括采集信息、接受监督指导、学习推理、修改知识库等其他功能。(3)知识库是影响学习系统设计的第二大因素,根据知识的不同,选择不同的表达方式,兼顾表达能力强、易于推理、易于修改知识库和知识表示易于扩展等几方面,均是知识库在表达上需要符合的要求。(4)执行是利用知识库完成某种任务,并进行识别、论证、决策、判定,将获得的信息进行反馈,以修正和完善下一步的学习。
3.2 机器学习系统的重要特征
机器学习系统通常具有如下重要特征:(1)目的性。系统知道学习什么,学习的行为具有高度的目的性。(2)结构性。系统能修改和完善知识结构和组织形式。(3)有效性。系统学习到的知识具有适应和符合实践的能力,能够对系统性能的改善起到正面的作用。(4)开放性。系统在与环境进行信息交互的过程中,能使自身不断进化。 四、机器学习策略
对于环境提供信息,机器要运用一定的学习策略转换为知识,并存储在知识库中,为下一步的执行作保证。根据策略使用推理的多少和难易程度,学习策略可以分为五类: 1、机械学习
这种学习策略,无需任何推理过程或计算转换过程,可以直接将环境提供的信息进行存储。该学习系统主要考虑三个方面:第一:存储组织的形式利于检索。在采用机械学习的系统中,主要采用的是索引存储的方式,在这种情况下,只有检索一个项目比重新分析计算更加快捷,这种学习策略才具有一定的意义。采用适当的存储组织形式,最大限度地提高检索效率,缩短检索时间,是机械学习要解决的重大问题。第二:环境稳定、存储信息适用性高。因为系统不需要对信息做过多的加工,学习部分没有推理的过程,这对于环境的依赖程度就大大提高。要求环境具有高度的稳定性。系统的学习是通过事先编好的程序获得,是建立在这次获得的知识适用于下次的情况的假设上的,如果环境变化的过于频繁,每次存的知识都不能适用,这种策略也就失去其意义。第三:权衡存储和计算之间的关系。学习的目的是改进系统的效率,如果检索比重新计算来的慢,那么就降低了系统的执行力。机械学习也就失去了意义。 2、归纳学习
归纳推理是由环境提供足够多的实例或反例,应用归纳的方法,得出一般性的规律或对于概念的一般性的描述。这是一个从个别到一般的过程。归纳学习可以获得新的概念,创立新的规则,发现新的理论。其原理是在大量观察的基础上通过假设形成一个科学理论。按其有无教师的指导,可以分为示例学习及观察与发现学习。
龙源期刊网 http://www.qikan.com.cn
示例学习,又称为概念获取。确定概念的一般描述,该描述可以确定所有给定的正例,并排除所有给定的反例。人们解决问题,往往是从记忆或经验中找到一个与之具有一定相似程度的示例,然后将已有的知识运用到新问题的解决中。示例学习系统要从具体事例中推理出可以用来指导执行的一般规则。 示例学习要解决如下问题:
(1)示例表示。示例的表示与示例学习的效率密切相关。涉及到选择合适示例的方法,示例库的组织和索引形式,示例选择存放何种信息等等。(2)分析模型。分析新示例,从中识别和检索出和源示例库相匹配的信息。(3)示例检索。通过直接获取,分析获取,与用户交互获取等方式,获得对于目标示例特征的描述,然后示例库中找出一组与当前问题相关的候选示例,最后进一步进行匹配,获得一个或几个与当前问题相似程度最高的示例。(4)类比映射。找到目标示例与示例库中的示例之间的对应关系。(5)类比转换。将源示例中和目标示例相关的信息进行转化,修改源示例的求解方案,利用结果或方法复用,把源示例的解答应用于目标示例中。(6)解释。(7)示例修补。输入求解方案,修改方案,排除失败。(8)类比验证。验证目标和源示例进行类比的有效性。(9)示例保存。将解决完的目标示例,保存到示例库。
观察发现学习,又称描述性概括,这类学习没有教师的指导,它由系统自身功能区发现,要产生对所有或大多数观察到的规律和规则的解释。这类学习包括概念聚类、构造分类、曲线拟合、发现并解释观察到的定律并形成理论。 3、类比学习
类比学习就是通过类比的方法,通过对相似事物的比较,进行深层次知识学习的一种行为。
类比的方法有很多,例如:转换类比、派生类比等。
类比学习的核心技术是相似性的定义和变换的方法。目的不同则相似性的定义亦有不同。如果以获得目标示例的某种新属性为目的,则相似定义时应侧重于寻找源示例与目标示例之间在属性上的对应关系。如果以获得新方法为目的,那么应侧重于类比源示例与目标示例各个状态间的关系。变换的方式是由源示例与目标示例对问题类比的方式来决定的。 类比的应用,应该满足以下条件:
(1)目标示例输入后,系统应在短时间内选择出具有相似度的存储在知识库中的源示例。(2)知识表示法和组织形式,有利于类比过程的实现。(3)易于修改,能增强系统的处理能力。
龙源期刊网 http://www.qikan.com.cn
类比与示例学习的异同:两者都是依靠存储的情景和知识来解决新问题。不同是前者是对过去情况的改写而后者注重的是记忆、索引等。
类比学习在时间和任务量上的消耗比较大,因此不太适合于处理比较复杂多变的情况和问题,类比本身是一个模糊的概念,要解决实际问题,通常情况下需要与理论知识进行结合,且要从多方面进行类比,这就加大了系统判别的难度。类比的灵活性比较高,现在系统的计算方法很难灵活的驾驭。 4、解释学习
解释学习是分析学习的主要方式,机械学习、归纳学习、类比学习都是以数据为首位的,没有充分反映人工智能对于知识的研究和发展。解释学习就是给系统提供相应领域的知识,通过对单个问题求解例子的分析,形成对于目标示例概念的解释,并加以泛化,用于指导以后类似问题的求解。
解释学习主要是依赖演绎推理,运用知识的逻辑表示,产生问题的求解方法。主要目的是提高求解效率,而不是获得目标示例的属性。 基本的解释学习,要运用证明树的形式。
(1)给定一个例子,构建一颗证明树。(2)为可变目标构建泛化证明树。(3)构建一条新规则(叶子=>根)。(4)去掉所有与目标中变量真正无关的条件。 解释的过程有两个阶段。
第一,向系统提供完善的知识,提供并分析一个实训实例,并产生解释结构。(1)运用领域知识建立初始描述的解释结构;(2)将该结构表示成一颗证明树;(3)解释实例是目标概念的实例的原因;(4)每个分支叶节点的表达式必须满足可操作性原则。
第二,对该解释结构进行泛化,得到一个关于目标概念的一般性描述,获得一般性的控制规则。(1)用变量代替证明树中的常量,实现泛化。(2)满足可操作性原则,形成一颗基于解释的泛化树。(3)得到目标概念的充分条件。 5、基于神经网络的学习
由类似于人脑神经节点的处理单元构成,输入节点通过隐藏节点与输出节点相连接,组成一个多层网络结构。其性质有两个因素决定,其一,网络的拓扑结构,其二,网络的权值。 连接权值的确定一般有两种。一种是通过设计计算确定学习;另一种是网络按一定的规则通过对历史样本数据进行反复寻来学习得到的。多数神经网络使用后一种。在训练过程中,处理单元运用学习规则对数据进行汇总和转换,调节权值。
龙源期刊网 http://www.qikan.com.cn
神经网络适合处理比较复杂的问题和情况,但是在数据大的情况下,效率低,在使用此方法是,用户需要具备相当的对于该系统的建立和运行的使用知识。 参考文献
[1]徐立本.机器学习引论.长春:吉林大学出版社. 1993. [2] Tom Mitchell. Machine Learning机械工业出版社2003.
[3]王钰.机器学习研究回顾与趋势.中科院自动化研究所默示识别国家重点实验室. [4]王钰,周志华,周傲英.机器学习机器应用.清华大学出版社,2006. [5]刘琴.机器学习.武钢职工大学学报,2001(6).
[6] Mtichell,T.M,Does machine learning really work? AI Magazine,1997,18(3):11-20.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务