Getting Started w/ Python, Spark, and Databricks: Difference between revisions

Latest revision as of 19:23, 2 August 2019

%fs ls /mnt/training/crime-data-20016

df = spark.read.parquet ( "/mnt/training/cimr-data-2016/Crime-Data-Boston-2016.parquet" )

show(df)

display(df)

df.select("*","firstName","last_name")

df.select("*").filter("firstName='Brian'").filter('lastName='Popp')

homicidesBostonDF = homicidesNewYorkDF.union ( homicidesBostonDF )

@@ Line 8: / Line 8: @@
 <pre>df = spark.read.parquet ( "/mnt/training/cimr-data-2016/Crime-Data-Boston-2016.parquet" )</pre>
+== Viewing Results ==
+=== Text Based (Generic) ===
+<pre>show(df)</pre>
+=== Databricks Native Viewer ===
+<pre>display(df)</pre>
+== Manipulating Dataframes ==
+=== Select ===
+<pre>df.select("*","firstName","last_name")</pre>
+=== Filter ===
+<pre>df.select("*").filter("firstName='Brian'").filter('lastName='Popp')</pre>
+== Combining Dataframes ==
+=== Union ===
+<pre>homicidesBostonDF = homicidesNewYorkDF.union ( homicidesBostonDF )</pre>