Getting Started w/ Python, Spark, and Databricks: Difference between revisions

Latest revision as of 19:23, 2 August 2019

%fs ls /mnt/training/crime-data-20016

df = spark.read.parquet ( "/mnt/training/cimr-data-2016/Crime-Data-Boston-2016.parquet" )

show(df)

display(df)

df.select("*","firstName","last_name")

df.select("*").filter("firstName='Brian'").filter('lastName='Popp')

homicidesBostonDF = homicidesNewYorkDF.union ( homicidesBostonDF )

@@ Line 7: / Line 7: @@
 === Reading Parquet ===
-<pre>df = spark.read.parquet ( "/mnt/training/cimr-data-2016/Crime-Data-Boston" )</pre>
+<pre>df = spark.read.parquet ( "/mnt/training/cimr-data-2016/Crime-Data-Boston-2016.parquet" )</pre>
+== Viewing Results ==
+=== Text Based (Generic) ===
+<pre>show(df)</pre>
+=== Databricks Native Viewer ===
+<pre>display(df)</pre>
+== Manipulating Dataframes ==
+=== Select ===
+<pre>df.select("*","firstName","last_name")</pre>
+=== Filter ===
+<pre>df.select("*").filter("firstName='Brian'").filter('lastName='Popp')</pre>
+== Combining Dataframes ==
+=== Union ===
+<pre>homicidesBostonDF = homicidesNewYorkDF.union ( homicidesBostonDF )</pre>