矢量大数据(Geoanalytics Server)之 注册大数据文件共享步骤帖

1
分享 2018-08-20
本文目的

上一篇理解了数据清单和实际数据存储的关系,接下来可以实际动手生成这个清单,将待处理的数据接入大数据平台。
这篇文章挑取了最好上手的共享目录来完成演示。

开始之前

在开始之前,我们来看两个必要问题:

1. 我可以将数据放在哪里?
• File share—本地磁盘或者网络共享的数据文件夹
• HDFS—HDFS目录
• Hive—阿帕奇hive数据库
• Cloud store—An Amazon Simple Storage Service (S3) bucket, Microsoft Azure Blob container, or Microsoft Azure Data Lake Store containing a directory of datasets.
• Microsoft Azure Data Lake Store( ArcGIS Enterprise 10.6.1开始支持)

2. 哪些数据类型可以放在大数据文件共享里?
• Delimited files (such as .csv, .tsv, and .txt)
• Shapefiles (.shp)
• Parquet files (.gz.parquet)
• ORC files (orc.crc)

测试环境

软件:ArcGIS Enterprise 10.6.1+GeoAnalytics Server 站点 10.6.1
操作系统:Linux

实际操作关键步骤

以共享目录上的数据为例,执行注册大数据文件共享。共享目录较为简单,只需要完成下面三步即可完成注册:
  1. 准备您自己待处理的数据
  2. 允许arcgis server的账户访问数据
  3. 在arcgis manager中注册数据



实际案例实施


实际待处理数据分析:

用户每小时都会产生全省各个温度站的温度记录,一个小时的数据存储在一个csv中。

具体操作步骤:
  1. 准备数据


此处文件路径是/home/arcgis/bigdatafile/tem_csv(图一),其中存放了按照小时记录的csv温度文件(图二)。
注:此处路径是GA集群中机器上的位置,已经挂载在数据服务器上。


                             图一

               图二




2.允许arcgis server的账户访问数据

首先,需要在共享目录机器上(数据服务器)创建一个arcgis server账户,密码与GA集群中的arcgis server账户用户名和密码均一致。

其次,将读的权限赋予给arcgis server账户,允许其可以读到包含数据的文件夹。
此处允许arcgis server账户读取文件夹/home/arcgis/bigdatafile即可。

3.在arcgis manager中注册大数据文件共享

登录arcgis server manager,导航到“站点”—>“数据存储”,在注册下拉选项中选择 “大数据文件共享”。见图三。
                              图三



在弹出的窗口中填入以下信息,见图四:

名称:按照您的目的起个名字。
类型:此处选择文件共享。
路径:填入/home/arcgis/bigdatafile,此处tem_csv被识别为一个数据集。

                             图四



如果数据对于arcgis server账户可读,那么我们可以看到“您的大数据文件共享已成功注册,正在生成清单”;否则报错。见图五。
                             图五



等待文件清单生成后,点击“编辑”;可以看到tem_csv已经作为一个数据集被识别到。见图六。
                             图六



选中tem_csv数据集, 可以看到字段列表下,只用col_x来表示当前csv文件中的第几列数据;

从当前这个页面可以看出,csv被识别为表格,而不是被识别为点。见图七。

注:由于被注册数据特殊,所以才导致其被识别为表格,正常应该直接被识别为几何数据集。
                            图七



这是因为被注册的csv文件中没有标示每列的名字,如下图。见图八。
                             图八



 
此时,我们手动修改字段名称,让每一列的数据都简单易懂,如图九。
                                图九



并指定几何类型为点,如图十。
                                图十


待处理数据csv中的数据是有时间的,时间格式为(见图十一):
                               图十一



根据csv中的时间格式修改记录如下,点击保存。见图十二。

图十二

此时,GA的manifest中将tem_csv数据集被识别为有时间属性的点数据集,且空间参考为4326。数据已经被接入到大数据平台中等待处理!

常见问题:

1.如果存储上数据更新了,我该如何通知esri平台?
通过修改文件清单的方式实现删除,添加或者更新。

2.是否可以将存储上的数据直接可视化?
不可以。

参考文档:

http://enterprise.arcgis.com/en/portal/latest/use/what-is-a-big-data-file-share.htm
http://enterprise.arcgis.com/en/server/latest/publish-services/windows/making-your-data-accessible-to-arcgis-server.htm

来源:

http://www.gougexueli.com/2018/08/20/%E6%B3%A8%E5%86%8C%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E4%BB%B6%E5%85%B1%E4%BA%AB%E6%AD%A5%E9%AA%A4%E5%B8%96/

文章来源:https://github.com/serverteamCN/TechnicalArticles/blob/master/BigData/%E6%B3%A8%E5%86%8C%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E4%BB%B6%E5%85%B1%E4%BA%AB%E6%AD%A5%E9%AA%A4%E5%B8%96.md

0 个评论

要回复文章请先登录注册