6.1 简介

本章会使用业余无线电操作者的呼叫日志作为输入,构建出一个完整的示例应用。
这些日志至少包含联系过的站点的呼号。呼号是由国家分配的,每个国家都有自己的呼号号段,所以我们可以根据呼号查到对应的国家。
有一些呼叫日志也包含操作者的地理位置,用来帮助确定距离。

{"address":"address here", "band":"40m","callsign":"KK6JLK","city":"SUNNYVALE","contactlat":"37.384733","contactlong":"-122.032164","county":"Santa Clara","dxcc":"291","fullname":"MATTHEW McPherrin","id":57779,"mode":"FM","mylat":"37.751952821","mylong":"-122.4208688735",...}

共享变量

共享变量是一种可以在 Spark 任务中使用的特殊类型的变量。
我们使用 Spark 共享变量来对非严重错误的情况进行计数,以及分发一张巨大的查询表。

当任务需要很长时间进行配置,譬如需要创建数据库连接或者随机数生成器时,在多个数据元素间共享一次配置就会比较有效率。