矢量大数据(Geoanalytics Server)之 执行失败后的排查方法

0
分享 2020-02-28
写在前面:

在文章《矢量大数据(Geoanalytics Server)之 监控分析任务执行》中讲解了如何查看GA任务执行状态和执行中的日志信息,如果由于某些原因,任务执行失败,那么可以参考这篇文章来排查可能的问题。
 

通过这篇文章,你将收获:
 
GA大数据任务执行失败后排查问题的方向,包括GA和数据库本身的状态,磁盘空间,输入数据以及其他原因的排查方式。当然每次出现问题并不需要按照文章从头排查到尾,这篇文章列出可能出错的环节,排查问题的时候可以灵活选取。


执行失败后的具体排查方向:

方向一:GA以及相关数据库组件本身的状态是否正常
  • GA机器健康状况,在GA server admin下,找到 系统 > 平台服务 > 计算平台 > 健康。            

         这里可以看到GA的运算机器,以及任务可用的CPU 和内存,正在运行或者完成的任务。
  • GA组件spark健康状况, 在GA server admin下,找到 系统 > 平台服务 > Spark (Compute_Platform) > status,确保状态是启动的。         

 
  • 组件zookeeper的健康状况, 在GA server admin下,找到 系统 > 平台服务 > Zookeeper (Synchronization_Service),确保状态是启动的。

         
       如果需要重启组件,需要先执行‘stop’,然后再‘start’,然后重新确认状态。
  • 检查hosting server中挂载的数据库是否正常,关系库和时空库都要检测。           

          
       登录hosting server admin,按照以下方式分别找到关系库和时空库:  
 
      data > items > enterpriseDatabases > AGSDataStore_ds_xxx> machines >             machinename> validate 验证关系库。
 
      data > items > nosqlDatabases 继续导航到validate,然后验证时空库
 
 
方向二:GA以及数据库使用的磁盘剩余是否充足
  • 检查下GA临时文件夹是否有地方,临时文件默认写入 \<ArcGIS Server installation directory>\server\framework\runtime\spark\work> 文件夹

 
        如果不确定临时文件夹位置,登录GA server admin, 转至 System > Properties查看。
  • 检查hostingserver上挂的关系库和时空库的磁盘空间是否足够,如果磁盘空间不够,可能遇到的问题是时空库会变成可读,需要在扩容后,将其变为可读可写,参考文章《矢量大数据(Geoanalytics Server)之 解除时空数据库ES只读模式》。

 
 
方向三:输入数据可能有问题

数据问题其实是比价棘手的。假如数据A在执行工具A的时候出现错误,而且当前环境没有问题的话,很大可能是数据问题,可以使用以下方法缩小问题范围:
  1. 用其他数据测试工具A,先确保当前运行的工具A是正常的;建议使用最简单的参数,并且在后面的测试中保持参数不变。
  2. 如果用数据A以及工具A,用上一步相同的测试参数,如果出现问题,那么基本可以断定,工具A的算法执行当前的数据有问题,可能是数据A有些地方不合法;
  3. 可以考虑将数据A通过copytodatastore方法拷贝到关系库中,然后将生成的结果带入工具A测试。

 
 
方向四:其他不明的原因
 
这种情况需要将GA的日志级别调整成为debug模式,这一步操作的时候要额外的小心。按照以下方法调节完成后,再次执行相同任务,通过任务状态页面来看任务执行状态。如果不知道如何查看任务状态,参考文章《矢量大数据(Geoanalytics Server)之 监控分析任务执行》。:

1,登录GA server admin页面,页面url位置示例:https://mymachine.esri.com/server/admin; 

2, 找到GA服务工具,页面url示例位置:https://server.domain.com/serv ... Tools
选择“编辑”,在“properties”下,添加 "_debugModeEnabled" : "true",   (注意后面的英文逗号不要丢掉),如下图:
 


Image.png



PS:在执行GA遇到问题后,可以先访问以下这两个网页,里面记录了一些常见的GA问题以及解决方向,值得参考:
https://enterprise.arcgis.com/en/portal/latest/use/geoanalytics-troubleshooting.htm 

参考文档:
  1. 常见问题解决方案https://enterprise.arcgis.com/en/portal/latest/use/geoanalytics-troubleshooting.htm 
  2. 矢量大数据(Geoanalytics Server)之 解除时空数据库ES只读模式http://zhihu.esrichina.com.cn/article/3941
  3. 矢量大数据(Geoanalytics Server)之 监控分析任务执行http://zhihu.esrichina.com.cn/article/3998

0 个评论

要回复文章请先登录注册