Spark DataFrame from SequenceFile

Question

sqlContext.read.format('orc').load(hdfspath)
sqlContext.read.format('parquet').load(hdfspath)

This works fine

sqlContext.read.format('sequencefile').load(hdfspath)

But sequencefile format does not work like that.

How can I read a sequence file as a dataframe in PySpark?

No, https://stackoverflow.com/users/2308683/cricket-007 is about a particular case. — Yehor Krivokon, Feb 02 '18 at 14:33

Yehor Krivokon · Answer 1 · 2018-02-02T14:59:18.470

1

Use sequenceFile method from SparkContext:

from pyspark.sql.functions import input_file_name 

df = sc.sequenceFile("/tmp/foo/").toDF()

edited Feb 02 '18 at 14:59

answered Feb 02 '18 at 14:27

Yehor Krivokon

1 Answers1