(12)发明专利申请
(10)申请公布号 CN 109034469 A(43)申请公布日 2018.12.18
(21)申请号 201810804596.9(22)申请日 2018.07.20
(71)申请人 成都中科大旗软件有限公司
地址 610000 四川省成都市高新区天华二
路219号5栋1单元6层1、2、3、4号(72)发明人 周道华 古鹏飞 曾俊 (74)专利代理机构 成都行之专利代理事务所
(普通合伙) 51220
代理人 李英(51)Int.Cl.
G06Q 10/04(2012.01)G06Q 50/14(2012.01)
权利要求书1页 说明书6页
CN 109034469 A()发明名称
一种基于机器学习的游客流量预测方法(57)摘要
本发明公开了一种基于机器学习的游客流量预测方法,包括以下步骤:采集旅游景区的历史游客流量数据,并对该数据按年、月、日分类整理;获取上述历史游客流量数据相对应时间段的关联数据,所述关联数据包括最高气温、最低气温、天气、风向、风力、工作日情况中至少一种,并以天为单位将历史游客流量数据与关联数据汇总;将关联数据转换为数值并与历史游客流量数据融合;将关联数据、历史游客流量输入学习器中进行训练实现游客流量预测。本技术方案利用机器学习的方法,综合考虑影响旅游景区游客流量的多种因素的内在关联,辅助以赋权计算的方法,以提高游客流量预测的准确性、科学性和便捷性。
CN 109034469 A
权 利 要 求 书
1/1页
1.一种基于机器学习的游客流量预测方法,包括以下步骤:A、采集旅游景区的历史游客流量数据,并对该数据按年、月、日分类整理;B、获取上述历史游客流量数据相对应时间段的关联数据,所述关联数据包括最高气温、最低气温、天气、风向、风力、工作日情况中至少一种,并以天为单位将历史游客流量数据与关联数据汇总;
C、将关联数据转换为数值并与历史游客流量数据融合;D、将关联数据、历史游客流量输入学习器中进行训练实现游客流量预测。2.根据权利要求1所述的一种基于机器学习的游客流量预测方法,其特征在于,步骤B中还包括对异常数据的剔除,该异常数据为历史游客流量数据且该数据低于阈值。
3.根据权利要求1所述的一种基于机器学习的游客流量预测方法,其特征在于,步骤D具体为:
采用随机森林模型分别按年、月、日对旅游景区游客流量进行预测,获得游客流量预测值,其中,决策字数的数量为275~325棵。
4.根据权利要求1所述的一种基于机器学习的游客流量预测方法,其特征在于,步骤D具体为:
将关联数据、历史游客流量输入随机森林模型、梯度提升树模型、xgboost模型进行基础学习器的训练,其中,随机森林模型的决策字数的数量为275~325棵;
利用基础学习器的预测结果训练岭回归模型并获得游客流量预测值。5.根据权利要求1所述的一种基于机器学习的游客流量预测方法,其特征在于,还包括对游客流量预测值的修订步骤,该步骤包括:
E、结合OTA预定数据客流预测值进行修正得到预测值Tk。
6.根据权利要求5所述的一种基于机器学习的游客流量预测方法,其特征在于,步骤E具体为:
计算预测当天的前30天的OTA占全部客流量的比例平均值γ,
其中,X代表某天OTA预订人数,Y代表某天客流总数,n取值30;
计算预测值Tk,Tk=Xk/γ,其中,T代表客流量预测值,X代表历史同期预测对应天OTA的预订人数,参数k为1-30的正整数。
2
CN 109034469 A
说 明 书
一种基于机器学习的游客流量预测方法
1/6页
技术领域
[0001]本发明涉及计算机数据处理与分析领域,具体涉及一种基于机器学习的游客流量预测方 法。背景技术
[0002]游客流量预测一直是旅游研究中的热点和难点问题,目前主要采用的方法是基于历史游 客流量数据,考虑影响因素赋权法预测游客流量。例如公开号为CN106779247A的发明专利 公开了一种基于熵值法的组合优化旅游需求的预测方法,其根据各项指标观测值所提供的信 息的大小来确定指标权重,并根据次要因素对预测值进行修正;公开号为CN106779196A的 发明专利公开了一种基于旅游大数据的游客流量预测及峰值方法,其核心思想也是基于 某些因素赋权来预测游客流量。
[0003][0004]
影响旅游景区游客流量的因素很多,例如天气、舆情话题、节假日等,而这些因素往往 代表着某种趋势,比方说,天气的变化跟景区四季变化相关,和旅游景区的淡旺季存在着较 强的关联。影响旅游景区游客流量的多方面因素存在着复杂的内部关联,单纯靠穷举式的对 某些因素赋权计算方法,单个因素的影响过大,预测的准确性有待提高。
发明内容
[0005]本发明为了解决上述技术问题提供一种基于机器学习的游客流量预测方法。[0006]本发明通过下述技术方案实现:
[0007]一种基于机器学习的游客流量预测方法,包括以下步骤:[0008]A、采集旅游景区的历史游客流量数据,并对该数据按年、月、日分类整理;[0009]B、获取上述历史游客流量数据相对应时间段的关联数据,所述关联数据包括最高气温、 最低气温、天气、风向、风力、工作日情况中至少一种,并以天为单位将历史游客流量数据 与关联数据汇总;[0010]C、将关联数据转换为数值并与历史游客流量数据融合;[0011]D、将关联数据、历史游客流量输入学习器中进行训练实现游客流量预测。[0012]本技术方案提出利用机器学习的方法,综合考虑影响旅游景区游客流量的多种因素的内 在关联,辅助以赋权计算的方法,以提高游客流量预测的准确性、科学性和便捷性。[0013]为了进一步提高预测值的准确性,避免异常数据对学习器输出的影响,步骤B中还包括 对异常数据的剔除,该异常数据为历史游客流量数据且该数据低于阈值。[0014]步骤D具体为:
[0015]采用随机森林模型分别按年、月、日对旅游景区游客流量进行预测,获得游客流量预测 值,其中,决策字数的数量为275~325棵。[0016]步骤D具体为:[0017]将关联数据、历史游客流量输入随机森林模型、梯度提升树模型、xgboost模型进
3
CN 109034469 A
说 明 书
2/6页
行基础 学习器的训练,其中,随机森林模型的决策字数的数量为275~325棵;[0018]利用基础学习器的预测结果训练岭回归模型并获得游客流量预测值。[0019]还包括对游客流量预测值的修订步骤,该步骤包括:[0020]E、结合OTA预定数据客流预测值进行修正得到预测值Tk。[0021]步骤E具体为:
[0022]
计算预测当天的前30天的OTA占全部客流量的比例平均值γ,
其中,X代表某天OTA预订人数,Y代表某天客流总数,n取值30;[0023]计算预测值Tk,Tk=Xk/γ,其中,T代表客流量预测值,X代表历史同期预测对应天 OTA的预订人数,参数k为1-30的正整数。[0024]本发明与现有技术相比,具有如下的优点和有益效果:[0025]1、本发明提出利用机器学习的方法,综合考虑影响旅游景区游客流量的多种因素的内在 关联,辅助以赋权计算的方法,以提高游客流量预测的准确性、科学性和便捷性。具体实施方式
[0026]为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一 步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的 限定。[0027]实施例1
[0028]一种基于机器学习的游客流量预测方法,包括以下步骤:[0029]A、采集旅游景区的历史游客流量数据,并对该数据按年、月、日分类整理;[0030]B、获取上述历史游客流量数据相对应时间段的关联数据,所述关联数据包括最高气温、 最低气温、天气、风向、风力、工作日情况中至少一种,并以天为单位将历史游客流量数据 与关联数据汇总;[0031]C、将关联数据转换为数值并与历史游客流量数据融合;[0032]D、将关联数据、历史游客流量输入学习器中进行训练实现游客流量预测。[0033]实施例2
[0034]基于上述实施例的原理,本实施例公开一种详细的实施例方案。[0035]A、采集旅游景区的历史游客流量数据,数据来源可以是旅游景区统计的历史游客流量 数据、历史门票出售数据或从旅游主管部门统计的游客接待数据等,并对该数据按年、月、 日分类整理。[0036]B、获取上述历史游客流量数据相对应时间段的关联数据,关联数据包括最高气温、最 低气温、天气、风向、风力、工作日情况中至少一种,并以天为单位将历史游客流量数据与 关联数据汇总。
[0037]以某旅游景区2016年全年的历史游客流量数据为例,采集历史游客流量数据及关联数据 后进行整合的情况如下表:
[0038]表旅游景区历史游客流量数据及关联数据示例
4
CN 109034469 A
说 明 书
3/6页
[0039]
根据旅游景区近一年的游客流量数据情况,考虑到游客流量数据的分布过于分
散,有极 少数游客流量数据低于阀值,因此剔除每日游客流量低于阀值的数据样本。[0041]阀值的设置根据历史游客流量数据的分布情况确定,可以将历史游客流量数据排序,在 处于样本量1%-2%的较小数据中选择一个数据作为阀值。[0042]对前述某景区的游客流量预测,选择的阀值为100。[0043]C、将关联数据转换为数值并与历史游客流量数据融合。例如,将天气weather进行数值 变换,如将“阴~多云”赋给“多云”等;对最高气温max_temp和最低气温min_temp的取 值离散化,对变量值划分范围并赋给不同的值,如将最高气温在28度到30度区间的值赋给 “暑热”等;将变量“星期几”结合国家公布的节假日计划转换为是否为工作日working_day, 其中工作日给“1”,非工作日赋给“0”,以此类推。最终得到51个用于预测游客流量学习模 型的应变量。由于历史游客流量数据count分布很分散,故将历史游客流量数据取对数(log_count),以更好的训练机器学习模型。[0044]D、采用随机森林模型(Random Forest)按年、月、日分别对旅游景区游客流量进行预 测,获得游客流量预测值。
[0045]在如何众多机器学习算法模型中选择合适的模型作为旅游景区游客流量预测的过程中, 将主流的的机器学习算法模型进行了对比测试,包括随机森林模型、xgboost模型、SVR模型、 岭回归模型以及GBDT模型。在对比时,采用交叉验证法,将70%的样本划分为训练集,剩 余30%的样本划分为验证集,将训练集用来训练模型,验证集用来测试得到的模型,以此作 为评价模型性能的指标。
[0046]随机森林模型能解决分类与回归两类问题,并在这两个方面都有相当好的估计表现,且 其能够处理高维度的数据,并且不用做特征选择。
[0047]采用随机森林模型训练后的模型在训练集上的拟合优度得分为0.951,在验证集上的拟合 优度得分为0.832,整体上由于其他集中模型,故选择之。
[0048]表1采用不同机器学习算法模型预测旅游景区游客流量的情况对比
[0040]
5
CN 109034469 A[0049]
说 明 书
4/6页
然后,依据最小误差准则进行参数寻优,根据参数取不同值时验证集的平均得分,
得到 参数如决策树子树个数,采用随机森林模型对游客流量进行预测时,当决策树子树的数量为 300棵时,验证集的平均得分最高,最高得分为0.750。因此,为取得最佳效果,将决策子树 的数量设置为275~325棵。。
[0051]表2决策树子树个数流量预测准确度的影响[0052]0.713(+/-0.032)for{’n_es timators’:10}[0053]0.746(+/-0.032)for{’n_estimators’:50}[00]0.741(+/-0.034)for{’n_es timators’:100}[0055]0.747(+/-0.034)for{’n_es timators’:150}[0056]0.745(+/-0.035)for{’n_es timators’:200}[0057]0.745(+/-0.033)for{’n_es timators’:250}[0058]0.750(+/-0.033)for{’n_es timators’:300}[0059]0.746(+/-0.037)for{’n_es timators’:350}[0060]0.747(+/-0.035)for{’n_es timators’:400}[0061]0.748(+/-0.035)for{’n_es timators’:450}[0062]0.747(+/-0.034)for{’n_es timators’:500}[0063]实施例3
[00]基于实施例1的原理,本实施例公开一种详细的实施例方案。[0065]A、采集旅游景区的历史游客流量数据,数据来源可以是旅游景区统计的历史游客流量 数据、历史门票出售数据或从旅游主管部门统计的游客接待数据等,并对该数据按年、月、 日分类整理。[0066]B、获取上述历史游客流量数据相对应时间段的关联数据,关联数据包括最高气温、最 低气温、天气、风向、风力、工作日情况中至少一种,并以天为单位将历史游客流量数据与 关联数据汇总。
[0067]以某旅游景区2016年全年的历史游客流量数据为例,采集历史游客流量数据及关联数据 后进行整合的情况如下表:
[0068]表3旅游景区历史游客流量数据及关联数据示例
[0050]
6
CN 109034469 A
说 明 书
5/6页
[0069]
根据旅游景区近一年的游客流量数据情况,考虑到游客流量数据的分布过于分
散,有极 少数游客流量数据低于阀值,因此剔除每日游客流量低于阀值的数据样本。[0071]阀值的设置根据历史游客流量数据的分布情况确定,可以将历史游客流量数据排序,在 处于样本量1%-2%的较小数据中选择一个数据作为阀值。[0072]对前述某景区的游客流量预测,选择的阀值为100。[0073]C、将关联数据转换为数值并与历史游客流量数据融合。例如,将天气weather进行数值 变换,如将“阴~多云”赋给“多云”等;对最高气温max_temp和最低气温min_temp的取 值离散化,对变量值划分范围并赋给不同的值,如将最高气温在28度到30度区间的值赋给 “暑热”等;将变量“星期几”结合国家公布的节假日计划转换为是否为工作日working_day, 其中工作日给“1”,非工作日赋给“0”,以此类推。最终得到51个用于预测游客流量学习模 型的应变量。由于历史游客流量数据count分布很分散,故将历史游客流量数据取对数 (log_count),以更好的训练机器学习模型。[0074]D、采用随机森林模型、梯度提升树模型(GBDT)、xgboost模型组合为基础学习器,将 关联数据、历史游客流量输入基础学习器训练,其中,随机森林模型的决策字数的数量为 275~325棵;[0075]利用基础学习器的预测结果训练岭回归模型并获得游客流量预测值。[0076]在考虑使用基础学习器组合作为旅游景区游客流量预测的过程中,对两种组合进行了测 试对比,包括:(组合一)GBDT模型、xgboost模型和SVR模型、(组合二)随机森林、GBDT、 xgboost模型。然后以基础学习器预测的结果作为输入,训练岭回归模型,获得游客流量预测 值。在对比时,采用交叉验证法,将70%的样本划分为训练集,剩余30%的样本划分为验证 集,将训练集用来训练模型,验证集用来测试得到的模型,以此作为评价模型性能的指标。
[0077]经过训练和测试发现,组合一在训练集上的拟合优度得分为0.1,在验证集上的拟合优 度得分为0.795,组合二在训练集上的拟合优度得分为0.931,在验证集上的拟合优度得分为 0.776。具体的差异如下表:
[0078]表4用模型组合预测旅游景区游客流量的情况对比
[0070]
7
CN 109034469 A[0079]
说 明 书
6/6页
[0080]
综合对比,组合二对售票量偏大的情况预测较准确,预测票数与实际票数的差距
小于1000 票的比例占比较高,更符合游客流量预测的需求,因此发明选择组合二作为基础学习器进行 游客流量预测。[0081]实施例4
[0082]基于上述实施例,基本实施例在上述实施例的基础上增设括对游客流量预测值的修订步 骤,该步骤包括:[0083]E、结合OTA预定数据客流预测值进行修正得到预测值Tk。[0084]具体的,
[0085]设定OTA预定数据比例因子为γ,按式(3)进行计算,得到预测当天前30天的OTA占全 部客流量的比例平均值:
[0086]
X代表某天OTA预订人数,Y代表某天客流总数,n取值30,γ代表OTA预订人数占全 部客流量的比例的平均值,则预测未来客流量按式(4)进行计算:[0088]Tk=Zk/γ (4)
[00]T代表客流量预测值,X代表历史同期预测对应天OTA的预订人数,参数k为1-30的正 整数。
[0090]在实际情况中,OTA的订单量越接近今日,则越接近最后的订单数,游客不会提前很早 就确定自己的行程。
[0091]以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护 范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。
[0087]
8
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务