hogyan lehet jó nagy


Válasz 1:

Azt javaslom, hogy először ismerje meg a Big Data-t és a Big Data-val kapcsolatos kihívásokat. Tehát, hogy megérthesse, hogyan jelent meg Hadoop megoldásként a Big Data problémákra.

Ezután meg kell értenie, hogyan működik a Hadoop architektúra a HDFS, a YARN és a MapReduce vonatkozásában. Ezt követően telepítenie kell a Hadoop-ot a rendszerére, hogy elkezdhesse a munkát a Hadoop-tal. Ez segít a gyakorlati szempontok részletes megértésében.

A továbblépés mélyen belemerül

Hadoop ökoszisztéma

és megtanulják a Hadoop ökoszisztéma különböző eszközeit, azok funkcióival. Tehát megtanulhatja, hogyan hozhat létre testreszabott megoldást az Ön igényeinek megfelelően.

Mi a Big Data?

A Big Data egy olyan kifejezés, amelyet nagy és összetett adathalmazok gyűjtésére használnak, és amelyet nehéz tárolni és feldolgozni a rendelkezésre álló adatbázis-kezelő eszközök vagy a hagyományos adatfeldolgozó alkalmazások segítségével. A kihívás magában foglalja ezen adatok rögzítését, kezelését, tárolását, keresését, megosztását, továbbítását, elemzését és megjelenítését.

5 V feszültség jellemzi.

KÖTET: A kötet az „adatmennyiségre” utal, amely napról napra nagyon gyors ütemben növekszik.

VELOCITY: A sebesség azt a tempót határozza meg, amelyben a különböző források naponta generálják az adatokat. Ez az adatáramlás hatalmas és folyamatos.

VARIETY: Mivel sok forrás járul hozzá a Big Data-hoz, az általuk generált adatok típusa más. Lehet strukturált, félig strukturált vagy strukturálatlan.

ÉRTÉK: Nagyon jó, ha hozzáférünk a nagy adatokhoz, de hiába tudjuk értékekké alakítani, használhatatlan. Keressen betekintést az adatokba, és profitáljon belőle.

VERACITÁS: A valódiság az adatok inkonzisztenciája és hiányossága miatt kétséges vagy bizonytalan adatokra vonatkozik.

Mi az a Hadoop és az építészet?

A HDFS fő összetevői a NameNode és a DataNode.

NameNode

A mester démon tartja fenn

és kezeli a DataNodes (slave csomópontok). Rögzíti a fürtben tárolt összes fájl metaadatait, pl. A tárolt blokkok helyét, a fájlok méretét, engedélyeket, hierarchiát stb. Feljegyzi a fájlrendszer metaadatainak minden egyes változását.

Például, ha egy fájlt törölnek a HDFS-ből, a NameNode azonnal rögzíti ezt az EditLog-ban. Rendszeresen kap egy szívverést és egy blokkjelentést a fürt összes DataNode-jától annak biztosítása érdekében, hogy a DataNodes éljen. Nyilvántartást vezet a HDFS összes blokkjáról és arról, hogy ezek a blokkok mely csomópontokban vannak tárolva.

DataNode

Ezek rabszolga démonok, amelyek minden rabszolgagépen futnak. A tényleges adatokat a DataNodes tárolja. Feladataik az ügyfelek olvasási és írási kérelmeinek kiszolgálása. Felelősek a blokkok létrehozásáért, a blokkok törléséért és azok replikálásáért is a NameNode által hozott döntések alapján.

A feldolgozáshoz a YARN-t (még egy erőforrás-tárgyaló) használjuk. A YARN összetevői a ResourceManager és a NodeManager.

Erőforrás menedzser

Ez egy fürt szintű (minden fürtönként egy) összetevő, és a főgépen fut. Kezeli a YARN tetején futó erőforrásokat és ütemezi az alkalmazásokat.

NodeManager

Ez egy csomópont szintű összetevő (minden csomóponton egy), és minden slave gépen fut. Felelős a tárolók kezeléséért és az egyes tárolók erőforrás-felhasználásának ellenőrzéséért. Ezenkívül nyomon követi a csomópontok állapotát és a naplókezelést is. Folyamatosan kommunikál a ResourceManagerrel, hogy naprakész maradjon.

Párhuzamos feldolgozást hajthat végre HDFS-en a MapReduce használatával.

MapReduce

Ez a Hadoop-ökoszisztéma feldolgozásának központi eleme, mivel biztosítja a feldolgozás logikáját. Más szavakkal, a MapReduce egy olyan szoftveres keretrendszer, amely segíti az alkalmazások megírását, amely nagy adathalmazokat dolgoz fel elosztott és párhuzamos algoritmusok használatával a Hadoop környezetben. A MapReduce programban a Map () és a Reduce () két funkció. A Térkép funkció olyan műveleteket hajt végre, mint a szűrés, csoportosítás és rendezés. Míg a Reduce függvény összesíti és összefoglalja a térképfüggvény által előállított eredményt. A Map függvény által generált eredmény egy kulcsértékpár (K, V), amely a Reduce funkció bemeneteként működik.

Végignézheti ezt a videót, hogy részletesen megértse a Hadoop-ot és az architektúráját.

Telepítse a Hadoop alkalmazást

Egyetlen csomópont

és

Több csomópontos fürt

Akkor ezt átélheti

Hadoop ökoszisztéma blog

hogy részletesen megtanulják a Hadoop ökoszisztémát.

Végigviheti ezt a Hadoop ökoszisztéma oktatóvideót is.

Szikra

Az Apache Spark egy valós idejű adatelemzés kerete elosztott számítási környezetben. A Spark Scalában íródott, és eredetileg a kaliforniai Berkeley Egyetemen fejlesztették ki. Memórián belüli számításokat végez, hogy növelje az adatfeldolgozás sebességét a Map-Reduce alatt. A memóriában lévő számítások és egyéb optimalizálások kihasználásával 100-szor gyorsabb, mint a Hadoop. Ezért nagy feldolgozási teljesítményre van szükség, mint a Map-Reduce.

Amint láthatja, a Spark magas szintű könyvtárakkal rendelkezik, beleértve az R, SQL, Python, Scala, Java stb. Támogatását. Ezek a szabványos könyvtárak növelik a zökkenőmentes integrációkat az összetett munkafolyamatokban. Ezen túlmenően lehetővé teszi a különféle szolgáltatások integrálását vele, például az MLlib, a GraphX, az SQL + Data Frames, a Streaming szolgáltatások stb.

Ezt a Hadoop interjúkérdések videót is átnézheti, hogy képet kapjon a Hadoop interjúban feltett kérdésekről.

Az Edureka jó listát ad a Hadoop oktatóvideókról. Azt javasolnám, hogy menjen át ezen

Hadoop bemutató videó lejátszási lista

szintén

Hadoop bemutató blog sorozat

. A tanulásodat igazítani kell

Hadoop tanúsítás

.


Válasz 2:

Nyitott kérdése, nyitott válasza.

Először is attól függ, hogy mennyi odaadást kell megtanulnia és gyakorolnia a hadoopot.

A Hadoop egy új technológia, így nem sok segítség áll rendelkezésre az interneten, ha bármikor elakad.

Most feltételezem, hogy elkötelezettséged van, így a lényegre térek.

Először értse meg, hogyan működik a hadoop keretrendszer. Ebben meg kell tanulnia, hogyan működik a hadoop központi eleme, azaz a HDFS és a Map-Reduce.

Amint megtanuljuk a c és a c ++ - t, mielőtt a java, .net stb. Megtanulnánk, a hadoop számos új és népszerű keretrendszer alapja, mint például az apache-szikra, az apache-vihar stb.

Olvassa el a „hadoop definitive guide” című könyvét, amit eddig olvastam.

Ha már ismeri a hadoopot és kissé magabiztosnak érzi magát, töltse le a virtuális gépet (CDH) a clodera webhelyéről. Hadoop beállítást tartalmaz, amelyen gyakorolhat.

Ha programozási háttérrel rendelkezik, akkor gyakorolja a térképcsökkentő programokat, amelyeket könnyen megtalálhat online. Ha még nem ismeri a programozást, akkor kezdje az apache Pig programmal, majd az apache sqoop majd az apache hive majd az apache hue majd az apache oozie paranccsal.

Mostanra már nagyon magabiztos lesz a hadoopban és annak ökoszisztémájában.

Most kezdje meg a demo projekteket. Számos minta adatkészletet kap online.

Tovább

Online képzés, informatikai üzleti tanúsító tanfolyamok - acadgild.com | AcadGild

számos demo projektet találhat a gyakorlatban.

Gondolj nagyra .. Gondolj a Big Data-ra .. !!


Válasz 3:

Úgy gondolom, hogy mindez abban rejlik, hogy megfelelő módszertant és megfelelő eszközöket alkalmazunk minden megoldott adathalmazhoz / problémához. Felülnézetből jól megérteni:

  • Feldolgozás - hogyan és hogyan lehet optimálisan bevinni a különböző forrásokból származó adatokat a HDFS / HBase / NoSQL-be? Annak további megértése, hogy a bevitt adatokat hogyan fogják felhasználni a downstream
  • Átalakítás - melyik eszközt kell használni és hogyan kell megvalósítani: memóriában vagy kötegelt feldolgozás
  • Egress - legvalószínűbb lekérdező vagy megjelenítő eszköz. Hogyan lehet a legjobban kapcsolódni: lekérdezés elküldve vagy lekérdezés (adatátvitel)

Válasz 4:

Hivatkozzon erre az eseményre, és kapja meg a BigData / Hadoop-tal kapcsolatos összes válaszát, teljesen ingyenesen

Az Egyesült Királyság online tanfolyamainak és informatikai képzésének piactere

megy

online esemény megszervezése a Bevezetés a Big Dat-ba és a Hadoop-ba

. A legjobb az, hogy van

teljesen ingyenes!

. Célja

előnyös az újoncoknak és a kezdőknek

akik ezen a területen szeretnének karriert építeni.

Részletes magyarázat lesz a Big Data-ról, valamint a hatalmas adatok és adatbázisok kezelésére szolgáló jelenlegi megoldásokról

Ezután ki lesz téve a Hadoopnak és annak eszközeinek és technikáinak, mint például a Sqoop, Oozie, disznó, kaptár, HBase, Cassandra. Ez az esemény magában foglalja az Amazon webszolgáltatásainak (felhő) és még sok más ismertetését is.

Összességében ez olyan lesz, mint egy összeomlási tanfolyam a Hadoop & Big Data-ban, amely segíteni fog a fontos életdöntéseiben.

Ne hagyja ki ezt az aranyos lehetőséget, amely csak az Ön idejét követeli, és semmi mást

Események időzítése:

2017. január 14

11:00 - 12:00 GMT

Linkek az eseményre:

Megerősítés a Facebookon keresztül

-

Bevezetés az adattudományba

Regisztráció erre az eseményre az EventBrite oldalon

-

https://goo.gl/il6cmo

Várja részvételét


Válasz 5:

Gyakorold tovább a hadoopgal kapcsolatos összes fogalmat. A fork apache hadoop kódbázisa elérhető a githubon, és kezdje figyelni a problémákat. Ha lehetséges, próbáljon közreműködni. Elkezdheti a stackoverflow kérdések keresését, és ha lehetséges, megpróbálhatja megválaszolni. Határozottan ez segít abban, hogy jó nagy adatfejlesztővé váljon. link a kódalapra:

apache / hadoop

Válasz 6:

Itt találhatja meg a válaszait ...

https://acadgild.com

A saját gyakorlása a legjobb út, de nehéz is lehet, ha nem technikai területről van szó, ebben a helyzetben vállalhat online coachingot.