Telepítése Apache szikra és ipython

Egy rövid megjegyzés arról, hogyan lehet az Apache Spark Ubuntu. Ugyancsak ide tartozik a beállításokat IPython pySpark.
Annak érdekében, hogy minden beállítás könnyen reprodukálni a felhő, úgy döntöttek, hogy telepíteni mindent belül a virtuális gép. Ehhez fogjuk használni Csavargó és VirtualBox. Ebben a cikkben nem fogok belemenni részletesen, hogyan működik, vagy hogy hogyan lehet testre. Azt javaslom, hogy olvassa el a dokumentációt Csavargó, hogy többet tudjon meg.
Virtual Machine Configuration keresztül Csavargó
Hozzon létre egy új mappát a számítógépen, ami lesz otthon a Csavargó fájlt. Ha a mappa jön létre, megy bele, és formázza meg a virtuális gép. Ebben az esetben, én választottam a normál eloszlás Ubuntu 14.04.
Most, hogy indítsa el a virtuális gépet, ezt a parancsot:
Ekkor elindul egy virtuális gép. Megállítani, ha nem akarjuk, akkor használja a következő parancsot:
Most kell menni egy virtuális gép, amely használat SSH.
Beállítása Ubuntu egy virtuális gép
Néhány alapvető csomagok az Ubuntu, hogy győződjön meg arról, hogy néhány Python könyvtár működik gond nélkül.
telepítése Java
Szikra, hogy működőképes legyen, az szükséges, hogy a telepített Java.
Telepítése Scala (ha szükséges)
Spark néhány a lehetőségek még nem állnak rendelkezésre a hozzáférés és használat által Python (pl Graphx MLLib és néhány modul), ezért telepíti Scala, és képes legyen dolgozni ezeket a funkciókat használja.
Nyisd ki a bash_profile csapat:
és adja hozzá a következő sorokat:
Letöltése és telepítése Apache Spark
Először töltse le és csomagolja az archívumban Spark.
Látnia kell, valahogy így:
Mielőtt folytatnánk, és folytassa a konfigurálni PySpark, Python és IPython adjunk hozzá egy kevés környezeti változók a rendszerben, ahol telepítette a Spark.
Nyisd ki a bash_profile csapat:
és add hozzá a következő sort:
PySpark shell
Most van egy működő Spark, fel tudjuk használni a Python. Komplett Spark megy pySpark shell. Futtathatja:
Akkor meg fogja találni magát benne PySpark és képes lesz használni Python dolgozni a Spark.
PySpark - Configuration IPython
Először is, meg virtualenv, amely lehetővé teszi számunkra, hogy egy virtuális környezetben.
Most aktiválja ezt a környezetet, és a jövőben is képes lesz telepíteni Python könyvtárak belül a virtuális környezetben.
További IPython meg egy virtuális környezetben pyEnv. Telepítéséhez használja a következő parancsot.
Most IPython telepítve a virtuális környezetben. A következő fontos lépés a beállítás IPython úgy, hogy dolgozott a kernel pySpark, és tudtuk kezdeni a Spark IPython. Mi ezt létrehozásával IPython profilja kifejezetten a Spark.
Most, hogy már létrehozott egy igazi pyspark profilt IPython szükségünk lesz a beállításához. A legtöbb beállítás elvégezhető ipython_notebook_config.py fájlt. A fájl megnyitása (használom nano szerkesztéshez):
Ahhoz, hogy elkezdjük módosítsa a következő sort:
Mivel mi dolgozunk egy virtuális szerver, nem akarjuk, hogy nyissa IPython alapértelmezett böngésző. A kikapcsolásához meg kell hozzá a következő sort:
IPython az alapértelmezett port mindig nyitva kommunikáció. Úgy döntöttünk, hogy használjon egy másik portot. Meg lehet változtatni a port, a következő sort:
és illessze be a következő parancsokat a Python. Ezután mentse a tartalmát.
Elindításához IPython, és nem tudta használni a Spark kell vennünk elég sokáig csapat, így hozunk létre egy álnevet, hogy a mi .bash_profile. Nyissa meg a profilt a parancsot:
és adja hozzá a következő két sort:
Miután elmentette, és szoros, ügyeljen arra, hogy indítsa újra a felhasználó profiljának segítségével:
Most, hogy tudjuk futtatni IPython (a Spark bőr), az újonnan létrehozott alias:
Most a helyi számítógépen nyissa meg a böngészőt, és lépjen a localhost: 8001. Meg kell jelennie a IPython Notebook szerver.