首页 > 滚动 > > 内容页

大数据Flink进阶（六）：Flink入门案例|播报

发表时间：2023-03-21 22:04:14 来源：腾讯云

Flink入门案例

需求：读取本地数据文件，统计文件中每个单词出现的次数。

(资料图片仅供参考)

一、IDEA Project创建及配置

本案例编写Flink代码选择语言为Java和Scala，所以这里我们通过IntelliJ IDEA创建一个目录，其中包括Java项目模块和Scala项目模块，将Flink Java api和Flink Scala api分别在不同项目模块中实现。步骤如下：

1、打开IDEA，创建空项目

2、在IntelliJ IDEA 中安装Scala插件

使用IntelliJ IDEA开发Flink，如果使用Scala api 那么还需在IntelliJ IDEA中安装Scala的插件，如果已经安装可以忽略此步骤，下图为以安装Scala插件。

3、打开Structure，创建项目新模块

创建Java模块：

继续点击"+"，创建Scala模块：

创建好"FlinkScalaCode"模块后，右键该模块添加Scala框架支持，并修改该模块中的"java"src源为"scala":

在"FlinkScalaCode"模块Maven pom.xml中引入Scala依赖包，这里使用的Scala版本为2.12.10。

  org.scala-lang  scala-library  2.12.10  org.scala-lang  scala-compiler  2.12.10  org.scala-lang  scala-reflect  2.12.10

4、Log4j日志配置

为了方便查看项目运行过程中的日志，需要在两个项目模块中配置log4j.properties配置文件，并放在各自项目src/main/resources资源目录下，没有resources资源目录需要手动创建并设置成资源目录。log4j.properties配置文件内容如下：

log4j.rootLogger=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=%d{HH:mm:ss} %p %c{2}: %m%n

复制

并在两个项目中的Maven pom.xml中添加对应的log4j需要的依赖包，使代码运行时能正常打印结果：

  org.slf4j  slf4j-log4j12  1.7.36  org.apache.logging.log4j  log4j-to-slf4j  2.17.2

5、分别在两个项目模块中导入Flink Maven依赖

"FlinkJavaCode"模块导入Flink Maven依赖如下：

  UTF-8  1.8  1.8  1.16.0  1.7.36  2.17.2        org.apache.flink    flink-clients    ${flink.version}          org.slf4j    slf4j-log4j12    ${slf4j.version}        org.apache.logging.log4j    log4j-to-slf4j    ${log4j.version}

"FlinkScalaCode"模块导入Flink Maven依赖如下：

  UTF-8  1.8  1.8  1.16.0  1.7.31  2.17.1  2.12.10  2.12        org.apache.flink    flink-scala_${scala.binary.version}    ${flink.version}        org.apache.flink    flink-streaming-scala_${scala.binary.version}    ${flink.version}        org.apache.flink    flink-clients    ${flink.version}          org.scala-lang    scala-library    ${scala.version}        org.scala-lang    scala-compiler    ${scala.version}        org.scala-lang    scala-reflect    ${scala.version}          org.slf4j    slf4j-log4j12    ${slf4j.version}        org.apache.logging.log4j    log4j-to-slf4j    ${log4j.version}

注意：在后续实现WordCount需求时，Flink Java Api只需要在Maven中导入"flink-clients"依赖包即可，而Flink Scala Api 需要导入以下三个依赖包：

flink-scala_${scala.binary.version}flink-streaming-scala_${scala.binary.version}flink-clients

主要是因为在Flink1.15版本后，Flink添加对opting-out（排除）Scala的支持，如果你只使用Flink的Java api，导入包不必包含scala后缀，如果使用Flink的Scala api，需要选择匹配的Scala版本。

二、案例数据准备

在项目"MyFlinkCode"中创建"data"目录，在目录中创建"words.txt"文件，向文件中写入以下内容，方便后续使用Flink编写WordCount实现代码。

hello Flinkhello MapReducehello Sparkhello Flinkhello Flinkhello Flinkhello Flinkhello Javahello Scalahello Flinkhello Javahello Flinkhello Scalahello Flinkhello Flinkhello Flink

三、案例实现

数据源分为有界和无界之分，有界数据源可以编写批处理程序，无界数据源可以编写流式程序。DataSet API用于批处理，DataStream API用于流式处理。

批处理使用ExecutionEnvironment和DataSet，流式处理使用StreamingExecutionEnvironment和DataStream。DataSet和DataStream是Flink中表示数据的特殊类，DataSet处理的数据是有界的，DataStream处理的数据是无界的，这两个类都是不可变的，一旦创建出来就无法添加或者删除数据元。

1、Flink 批数据处理案例

Java版本WordCount

使用Flink Java Dataset api实现WordCount具体代码如下：

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();//1.读取文件DataSource linesDS = env.readTextFile("./data/words.txt");//2.切分单词FlatMapOperator wordsDS =        linesDS.flatMap((String lines, Collector collector) -> {    String[] arr = lines.split(" ");    for (String word : arr) {        collector.collect(word);    }}).returns(Types.STRING);//3.将单词转换成Tuple2 KV 类型MapOperator> kvWordsDS =        wordsDS.map(word -> new Tuple2<>(word, 1L)).returns(Types.TUPLE(Types.STRING, Types.LONG));//4.按照key 进行分组处理得到最后结果并打印kvWordsDS.groupBy(0).sum(1).print();

Scala版本WordCount

使用Flink Scala Dataset api实现WordCount具体代码如下：

//1.准备环境，注意是Scala中对应的Flink环境val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment//2.导入隐式转换，使用Scala API 时需要隐式转换来推断函数操作后的类型import org.apache.flink.api.scala._//3.读取数据文件val linesDS: DataSet[String] = env.readTextFile("./data/words.txt")//4.进行 WordCount 统计并打印linesDS.flatMap(line => {  line.split(" ")})  .map((_, 1))  .groupBy(0)  .sum(1)  .print()

以上无论是Java api 或者是Scala api 输出结果如下，显示的最终结果是统计好的单词个数。

(hello,15)(Spark,1)(Scala,2)(Java,2)(MapReduce,1)(Flink,10)

2、Flink流式数据处理案例

Java版本WordCount

使用Flink Java DataStream api实现WordCount具体代码如下：

//1.创建流式处理环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//2.读取文件数据DataStreamSource lines = env.readTextFile("./data/words.txt");//3.切分单词，设置KV格式数据SingleOutputStreamOperator> kvWordsDS =        lines.flatMap((String line, Collector> collector) -> {    String[] words = line.split(" ");    for (String word : words) {        collector.collect(Tuple2.of(word, 1L));    }}).returns(Types.TUPLE(Types.STRING, Types.LONG));//4.分组统计获取 WordCount 结果kvWordsDS.keyBy(tp->tp.f0).sum(1).print();//5.流式计算中需要最后执行execute方法env.execute();

Scala版本WordCount

使用Flink Scala DataStream api实现WordCount具体代码如下：

//1.创建环境val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment//2.导入隐式转换，使用Scala API 时需要隐式转换来推断函数操作后的类型import org.apache.flink.streaming.api.scala._//3.读取文件val ds: DataStream[String] = env.readTextFile("./data/words.txt")//4.进行wordCount统计ds.flatMap(line=>{line.split(" ")})  .map((_,1))  .keyBy(_._1)  .sum(1)  .print()//5.最后使用execute 方法触发执行env.execute()

以上输出结果开头展示的是处理当前数据的线程，一个Flink应用程序执行时默认的线程数与当前节点cpu的总线程数有关。

3、DataStream BATCH模式

下面使用Java代码使用DataStream API 的Batch 模式来处理批WordCount代码，方式如下：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//设置批运行模式env.setRuntimeMode(RuntimeExecutionMode.BATCH);DataStreamSource linesDS = env.readTextFile("./data/words.txt");SingleOutputStreamOperator> wordsDS = linesDS.flatMap(new FlatMapFunction>() {    @Override    public void flatMap(String lines, Collector> out) throws Exception {        String[] words = lines.split(" ");        for (String word : words) {            out.collect(new Tuple2<>(word, 1L));        }    }});wordsDS.keyBy(tp -> tp.f0).sum(1).print();env.execute();

以上代码运行完成之后结果如下，可以看到结果与批处理结果类似，只是多了对应的处理线程号。

3> (hello,15)8> (Flink,10)8> (Spark,1)7> (Java,2)7> (Scala,2)7> (MapReduce,1)

此外，Stream API 中除了可以设置Batch批处理模式之外，还可以设置 AUTOMATIC、STREAMING模式，STREAMING 模式是流模式，AUTOMATIC模式会根据数据是有界流/无界流自动决定采用BATCH/STREAMING模式来读取数据，设置方式如下：

//BATCH 设置批处理模式env.setRuntimeMode(RuntimeExecutionMode.BATCH);//AUTOMATIC 会根据有界流/无界流自动决定采用BATCH/STREAMING模式env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);//STREAMING 设置流处理模式env.setRuntimeMode(RuntimeExecutionMode.STREAMING);

除了在代码中设置处理模式外，还可以在Flink配置文件(flink-conf.yaml)中设置execution.runtime-mode参数来指定对应的模式，也可以在集群中提交Flink任务时指定execution.runtime-mode来指定，Flink官方建议在提交Flink任务时指定执行模式，这样减少了代码配置给Flink Application提供了更大的灵活性，提交任务指定参数如下：

$FLINK_HOME/bin/flink run -Dexecution.runtime-mode=BATCH -c xxx xxx.jar

x 广告

大数据Flink进阶（六）：Flink入门案例|播报

Flink入门案例

一、IDEA Project创建及配置

1、打开IDEA，创建空项目

2、在IntelliJ IDEA 中安装Scala插件

3、打开Structure，创建项目新模块

4、Log4j日志配置

5、分别在两个项目模块中导入Flink Maven依赖

二、案例数据准备

三、案例实现

1、Flink 批数据处理案例

2、Flink流式数据处理案例

3、DataStream BATCH模式

大数据Flink进阶（六）：Flink入门案例|播报

狗狗身体上的寄生虫_狗狗身上的寄生虫有哪些 当前讯息

俄国防部：俄两架图-95MS战略轰炸机在日本海中立水域上空飞行超7小时

花滑世锦赛即将开赛 金博洋领衔出战 视焦点讯

圈9符号怎么打出来_圈9符号

惠及四百多个城市、近五亿人口 西气东输累计输气量超八千亿立方米

中科大mba管理中心_中科大mba-当前视讯

易方达恒生科技ETF(QDII)净值下跌3.24% 请保持关注 最资讯

当前资讯!妻子得知在汤加丈夫平安笑着哭了：我不敢相信，真的是大使馆给我打的电话

天天微资讯！英山板桥村_关于英山板桥村的简介

平方计算的小技巧_平方计算

【世界快播报】万泰生物：谢波辞去公司董事会秘书职务

焦点快看：土星奖什么地位_土星奖

最资讯丨《骑兵》以人演马舞出草原之魂

新疆男篮对阵吉林比赛结果如何

合肥首个小管家驿站正式启用 环球播资讯

江西南昌特产零食可带走_江西南昌特产 全球速讯

欠钱太多了还不起来该怎么办_欠债太多还不起怎么办

世界微头条丨祝贺！孙颖莎女单夺冠

安徽省烈士亲属异地祭扫可获定额补助-环球看热讯

初二《英语周报》报纸答案_初二英语周报答案大全

7月1日实施！电动自行车乘员头盔“强制性国家标准”来了

世界今头条！开水煮西蓝花需要几分钟?

环球视点！西城园协会出版园分会 |【启发】每个孩子都要知道：我的妈妈是最棒的！

肾阴虚会耳鸣吗_肾虚会耳鸣吗

移民管理警察重温军营文化_世界动态

微速讯：生香蕉如何催熟,要几天?

国家邮政局：1-2月邮政行业寄递业务量累计完成210.0亿件 同比增长3.0%|天天速递

大参林：融资净买入122.65万元，融资余额1.69亿元（03-17）

鹤唳华亭_说一说鹤唳华亭的简介 焦点热讯

世界热门:淘宝dsr是哪几个单词_淘宝dsr是什么意思

今天最新消息 上半年中国百强房企业绩同比降近五成 千亿房企数量减半

创富故事丨马依热古丽·塔依热洪：用双手“绣”出精彩生活_全球时讯

印尼承诺通过新设棕榈油交易所提高政策透明度 当前观点

环球资讯：松劲的近义词是泄气吗_松劲的近义词

天天观点：“不能让核污染水污染大海”——日本民众强烈反对核污染水排海

ESSENCORE推出KLEVVCRAS系列A2对应记忆卡读取最高100MB/sec

通山县气象台发布雷电黄色预警【III级/较重】 焦点快播

环球视讯！阿尔及利亚总统宣布进行政府改组

能辉科技：2022年度净利润2614万元，同比下降74.86% 最新资讯

【奇顺投资3月17日】黄金白银期货操作大行情-环球实时

全球快看：聚焦！贵州有治疗癫痫病医院【排名靠前】

《青春有你》夏瀚宇为何不想和李汶翰一组？看完他霸气回复就明白-天天百事通

洛阳发布暴雪蓝色预警​​！预计降雪今晚逐渐停止

焦点速递！什么叫做绝对值_绝对值的概念

财务报表怎么看资产总额_怎样看财务报表的月份的资产总额|聚焦

【时快讯】华致酒行（300755）：3月15日北向资金减持42.4万股

【环球热闻】废柴兄弟2在线观看_废材兄弟2

长征十一号运载火箭2023年首次发射告捷|焦点速读

天天微头条丨炬申股份: 独立董事关于第三届董事会第九次会议有关事项的独立意见

视点！3月15日纺织制造行业十大牛股一览

黑童子唯一的朋友是（黑童子唯一的朋友） 环球时快讯

世界看点：坚强的刘玥霏：婚姻被张檬插足，不能演凤九，比姬衡还惨

被冻成“冰人”！他们说这么多年，已经习惯了-全球热点评

美联储考虑对中型银行实施更严格的资本和流动性规定 世界报资讯

环球新消息丨支月英先进事迹800字_支月英先进事迹

全球观热点：Ozon正规对接开店，7天内过审，商家必看

1.5亿欧元！英超豪门决定出手，皇马犹豫不决，曼联抢购姆巴佩

每日视讯：“请苏来晋” 山西文旅推介活动走进南京

ws5200刷openwrt教程（ws5200）

微资讯！职工医保能报销多少钱？职工医保报销比例的上限是多少？

《人世间》“周爸”：即兴发挥，碰撞出“最后一晚”

12日起至27日宜春明月山旅游区暂停缆车服务

杨布打狗原文及翻译_杨布打狗文言文阅读答案|环球通讯

黑章变红章的三种方法美图秀秀_黑章变红章的三种方法

巴中新型冠状病毒肺炎疫情:3月13日巴中疫情最新消息今天数据统计情况通报

2023佛山顺德逢简水乡开放时间-今日观点

狗狗身体上的寄生虫_狗狗身上的寄生虫有哪些当前讯息

花滑世锦赛即将开赛金博洋领衔出战视焦点讯

惠及四百多个城市、近五亿人口西气东输累计输气量超八千亿立方米

易方达恒生科技ETF(QDII)净值下跌3.24% 请保持关注最资讯

合肥首个小管家驿站正式启用环球播资讯

江西南昌特产零食可带走_江西南昌特产全球速讯

国家邮政局：1-2月邮政行业寄递业务量累计完成210.0亿件同比增长3.0%|天天速递

鹤唳华亭_说一说鹤唳华亭的简介焦点热讯

今天最新消息上半年中国百强房企业绩同比降近五成千亿房企数量减半

印尼承诺通过新设棕榈油交易所提高政策透明度当前观点

通山县气象台发布雷电黄色预警【III级/较重】焦点快播

洛阳发布暴雪蓝色预警！预计降雪今晚逐渐停止

黑童子唯一的朋友是（黑童子唯一的朋友）环球时快讯

美联储考虑对中型银行实施更严格的资本和流动性规定世界报资讯

柏树剪枝可以种吗柏树扦插种植方法世界速读

基德：东契奇不会随队出征客场因左大腿拉伤将缺战灰熊

阿拉伯之春_说一说阿拉伯之春的简介全球要闻

高中教师工作总结德能勤绩廉_高中教师工作总结环球实时

著作权的权利与专利权有何区别？当前要闻

温县岳村街道：网格管理精细化服务群众心贴心短讯

失业保险待遇应当终止的情形是哪些如何办理失业金停止领取？

天天热消息：台后疫情时代旅游　跨国和数位人才需求高