博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark- 使用第三方依赖解析IP地址
阅读量:7156 次
发布时间:2019-06-29

本文共 2158 字,大约阅读时间需要 7 分钟。

使用 github上已有的开源项目

1)git clone https://github.com/wzhe06/ipdatabase.git

2)编译下载的项目: mvn clean package- DskipTests

3)安装jar包到自己的 maven仓库

  mvn install: install-file -Dfile=${编译的jar包路径}/target/ipdatabase-1.0-SNAPSHOT jar  -DgroupId=com.ggstar  -DartifactId=ipdatabase   -Dversion=1.0  -Dpackaging=jar

4)添加依赖到pom

  
com.ggstar
  
ipdatabase
  
1.0

 

  
org.apache.poi
  
poi-ooxml  
3.14
  
org.apache.poi
  
poi  
3.14

5)将源码main/resource下的ipDatabase.csv和ipRegion.xlxs拷贝到当前项目的resource目录下

6)ip解析工具类

/**  * IP解析工具类  */object IpUtils {  def getCity(ip:String): Unit ={    IpHepler.findRegionByIp(ip)  }}

7)打包到yarn运行

在pom文件排除spark打包,因为环境上有。

org.scala-lang
scala-library
${scala.version}
provided
org.apache.spark
spark-sql_2.11
${spark.version}
provided
org.apache.spark
spark-hive_2.11
${spark.version}
provided

 

打包时注意,pom.xml中需要添加如下plugin

maven-assembly-plugin
jar-with-dependencies

 

提交运行

/bin/spark-submitclass com.rz.log.SparkstatcleanJobYARN--name SparkstatcleanJobYARN--master yarn--executor-memory 1G--num-executors 1\--files /home/hadoop/Lib/ipDatabase. CSV, /home/hadoop/lib/ipRegion XlSx \/home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \hdfs://hadoop001:8020/imooc/input/* hdfs://hadoop001: 8020/imooc/clean

 

转载于:https://www.cnblogs.com/RzCong/p/10612380.html

你可能感兴趣的文章
PHP(四)表单的基本处理
查看>>
Poj3984--迷宫问题(BFS)
查看>>
杭电2053
查看>>
中断过程
查看>>
我的理解OpenAPI原理
查看>>
js自定义方法名字download报错
查看>>
数据结构 动态数组实现
查看>>
IIS6自带FTP的安装及配置方法
查看>>
如何直接在网页中显示PDF文件
查看>>
特殊的生命周期,窗口的操作
查看>>
【leetcode】802. Find Eventual Safe States
查看>>
数组去重的方法
查看>>
云计算大数据面试题,云计算大数据面试题集锦
查看>>
《一遍文章让你快速了解JAVA---并发编程基础》
查看>>
CSS滤镜(filter)
查看>>
面向对象2
查看>>
图片居中
查看>>
Winform窗口应用程序
查看>>
selenium webdriver 的三种等待方式
查看>>
面向对象
查看>>