空间数据挖掘与空间大数据的探索与思考(一)

0
分享 2018-04-04
本文是今年1月份去武汉参加社会计算会议的时候,应约在武汉大学GeoScienceCafe 论坛上面做的主题报告《空间数据挖掘与空间大数据的探索与思考》的讲话录音整理稿,另外虾神配合着PPT又重新编写了部分内容,形成了整个文稿,大约会形成三到五章左右发出来。






大家好,非常开心能够来到武大,也特别激动和感动,因为本次来武大是参加社会地理计算的年会,主要想见一见卢克教授,当然啦,还有在座的小伙伴们。





相对说起来,我们这一代学GIS的人还是很幸运的,因为提出始祖级算法的老一代GIS大牛们都还在,包括上次在北大见到的提出了GWR(Geographically Weighted Regression,地理加权分析)的Fotheringham教授,当然还有GIS界当今头把交椅Goodchild教授也还在。等我们的下一代人再学GIS的时候,这些老教授的名字就只能在传说中听到了,所以我这次是专门来见卢克院士的。备受感动的是武大作为中国测绘界的头把交椅,邀请我来跟大家做这样形式的交流,我也是非常激动的。






美国科学院院士,世界空间计量界顶级专家——luc anselin教授





今天我所作报告的题目是《空间数据挖掘与空间大数据》,看到这个题目很多同学可能会想:又来了一个忽悠大数据的……。但是我讲述的大数据可能与你们常规接触到的有所不同。














首先我们从数据挖掘说起,在数据分析领域有这样一个传奇的故事,叫做啤酒与尿布,是说沃尔玛把啤酒和尿布放一块会提高销量,当时我入门的时候对此也深信不疑。








直到上一次去美国,专门去了南加州最大的国际城的沃尔玛超市,结果发现尿布并没有和啤酒放在一起,原来这只是一个都市传说,一个数据分析届的心灵鸡汤。于是我追根溯源,发现这个案例最早来源于一个数据库公司的售前经理的某次报告,而它确实只是一个心灵鸡汤,滋润了无数入行做数据挖掘的小白们。










那么数据挖掘是什么呢?实际上数据挖掘并非是那些神奇而高大上的东西,它的最终目的是直指核心。这是一句出自Netflix(美国制作电视剧《纸牌屋》的出版商)的话——公司真正的价值观和那些动听的表态完全相反,它们具体通过哪些人被奖励、被提升、被解雇来体现。所以我们经常看到有很多公司将以人为本挂在门口,结果发现其互联网跳槽率排名第一;有些标榜诚信第一,或者正直善良、重视人才、尊重个性,如果把这些显目的标语当成是这些公司的标榜的企业文化,可能就会出现贴着尊重个性标语的公司要求大家上班全部穿白加黑;而所谓以人为本的公司晚上九点钟灯火通明,所以其实这些标语都没用,我们如果真的想明白他们的企业文化,只需要看这些公司去年的优秀员工是谁,为什么被评为优秀员工,就可以知道公司的真正价值。










那么我们再来看空间数据挖掘,它其实是一门非常古老的学科,大家都难以想象有多古老。传说中有这样一帮人,它们可以根据天上星辰的排列和地上山川河流的分布找到他们要挖的东西,并且把它挖出来,这就是最早的空间数据挖掘,而它的从业者,我们通常亲切地称呼他们为“摸金校尉”。










那么空间数据挖掘的用处有哪些呢?我们知道公交车里外都贴了广告,如果这趟公交能被越多的人看到,那么广告的投放价值就越高;不同时间段发车所影响的受众也有所区别,比如早高峰或者早高峰之后、中午、以及晚高峰和半夜。这样来说我们是不是可以根据“在行驶过程中所影响的人群”来不同地定义它的广告价位呢?在早高峰发出的几辆车,它的广告价位是不是就可以适当调高一点,这是最朴素的一种空间数据挖掘的直观表现,还有更多的一些表现形式。










另外在长途运算上,我们的空驶率问题是非常严重的,根据交通部最新的统计,中国的道路上奔跑的汽车的空驶率达到了34.7%,也就是说有三分之一的车是放空跑的。








我们再来看一下全球港口航运,根据最新的统计数据,2015年全球的集装箱制造量多达三亿个,集装箱通常使用一次之后就被扔掉了,造成了很大浪费。所以现在国际航运界计划了一个项目,就是通过全球范围内的调度,在一些不那么热门的航线上运输这些集装箱,并将其重新利用起来,这也是空间数据挖掘正想解决的问题。








还有UPS在2015年的一个案例,UPS提出每人每天少开1英里,公司每年可省下5000万美金,因而UPS计划在美国对5.5万条道路进行优化,已完成1万条,通过优化道路地点之间的调度,每年可节约150万加仑汽油,减少1.4万立方吨的二氧化碳排放量,UPS通过一系列数据挖掘的算法优化达到了开源节流的目的。







空间数据挖掘回归本源是地理分析。

首先地理分析给予了一个关于世界的独特视角,曾有人开玩笑说学GIS的人为什么老迷路,原因可能是学GIS的通常是从上往下看地球,每天悬浮在300米的高空像神一样俯视着大地,把这些人放到地面上平视就会迷路了。

第二个是提供了一个范围,上至无穷的太空,下至最深的地底,人类所有已知的位置都是我们的研究范围。曾经有位哲学家说过一句话:所有的时间都交给历史,所有的空间都交给地理。

第三,地理分析提供了一个足迹,每个过程都将留下独特的足迹,我们可以对足迹的意义进行解释。

最后想说的是人机的概念,这也是我今天要重点阐述的内容,任何技术都是存在于人和计算机之间,人和计算机都发挥着重要的作用。人工智能要替代人类的大脑需要很长一段时间,但在人工智能完全替代我们大脑之前,任何情况都不能单独突出计算机的作用,或者单独突出人的作用,所以任何的分析技术是在人和计算机之间共同发挥着作用。其实就是说明一句话,即小学生日记里常写的“在什么时间、什么地点、发生了什么事情”。这也是我们地理人更应该去探明的一点,我们要跟着不同的地理足迹去回溯它。










(待续未完)

文章来源:http://blog.csdn.net/allenlu2008/article/details/79594383

0 个评论

要回复文章请先登录注册