Spark 读取文件中文乱码解决 - 花开时节 - ITeye博客

`

see_you_again

浏览: 147610 次

最近访客更多访客>>

PROFANS

jxusthusiwen

baby孔祥超

御羽倾城

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zhou9629：
spring redis 整合
see_you_again：回复一楼：我也只是初学
spark使用logback+slf4j 替换log4j+slf4j
wu_shao_jie：嗨，我在用spark-submit命令提交作业的时候，应用程序 ...
spark使用logback+slf4j 替换log4j+slf4j
zhangfc682：引用
Eclipse代码模板

Spark 读取文件中文乱码解决

博客分类：

Spark篇

阅读更多

当我们获取文本文件数据源是，直接使用如下代码会出现中文乱码问题

val txt = sc.textFile(rootPath+ "/4/*")

解决方案：将文本先用数据流读进内存，转化成list，在转化成spark需要的格式。

 val files = Source.fromFile("i:\\1\\1.txt","gbk" ).toList
  val rddt = sc.parallelize(files)
  
  rddt.foreach { print }

 sc.hadoopFile(rootPath+ "/1/1.txt",classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map{
      pair =>  new String(pair._2.getBytes, 0, pair._2.getLength, "GBK")}

分享到：

spark基本概念 | scala学习笔记5

2015-11-18 14:02
浏览 6690
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ubuntu spark中文乱码解决方法.docx: ubuntu spark中文乱码解决方法.docx

spark sftp: spark 读取sftp文件下面是用法 // Construct Spark dataframe using file in FTP server DataFrame df = spark.read(). format("com.springml.spark.sftp"). option("host", "SFTP_HOST"). option("username", ...

实验七：Spark初级编程实践: 2. Spark读取文件系统的数据（1）在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；图3 spark统计行数（2）在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”...

spark读取hbase数据，并使用spark sql保存到mysql: 使用spark读取hbase中的数据，并插入到mysql中

Spark小文件异步合并工具: java写的一个spark小文件合并工具，支持text、parquet、orc等格式，分享给有需要的人

spark解析csv文件，存入数据库: csv文件用java太麻烦了，spark很简单，简单到怀疑人生

使用spark操作hudi表: 使用spark操作hudi表： 1、查询hudi表数据 2、查看hudi表结构信息

Spark驱动文件 Simba_Spark_JDBC.zip: Spark驱动文件 Simba_Spark_JDBC.zip Apache Commons Copyright ?2001-2015 The Apache Software Foundation Apache Commons Codec Copyright ?2002-2014 The Apache Software Foundation Apache Hadoop Common ...

读取XML文件的四种方法: 读取XML文件的四种方法，详细介绍了dom,jdom,dom4j,sax

spark-tfrecord:从Apache Spark读取和写入Tensorflow TFRecord数据: Spark-TFRecord 一个用于从读取和写入数据的库。该实现基于，但使用Spark FileFormat特征重写以提供分区功能。包括图书馆这些工件已发布到和存储库。 0.1.x版本针对Spark 2.3和Scala 2.11 0.2.x版本针对Spark 2.4...

Spark 读取HDFS保存mongodb: spark读取hdfs，保存mongodb程序 3、Oozie 的Spark Action的调度验证以及不足，测试是否可以入库 4、Oozie 的 Shell Action的调度 5、Oozie 的定时器调度 6、Oozie 的HiveAction调度支持外部依赖包 7、Oozie整体项目...

spark jdbc 读取并发优化: spark scada jdbc连接数据库读取数据的并发优化方法。

spark snappy save text file: NULL 博文链接：https://fypop.iteye.com/blog/2320597

Spark官方中文文档: 但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境，...

Spark学习---统计文件单词出现次数: 1.读取外部文件创建JavaRDD; 2.通过flatMap转化操作切分字符串，获取单词新JavaRDD; 3.通过mapToPair，以key为单词，value统一为1的键值JavaPairRDD; 4.通过reduceByKey，累计叠加每个key，统计单词出现次数；三....

Hive-Spark小文件解决方案(企业级实战).docx: Hive-Spark小文件解决方案(企业级实战).docx

Spark 性能优化及详细解决方案: Spark 性能优化及详细解决方案解决方案介绍比较详细。内容比较丰富。可以解决许多问题场景。。。。。。

使用Spark SQL读取数据库教程.docx: 使用Spark SQL读取数据库教程.docx

spark笔记整理文档: spark笔记整理文档spark笔记整理文档spark笔记整理文档

Global site tag (gtag.js) - Google Analytics