Hadoop Kapittel 9 Sette opp en Hadoop Cluster.

Hadoop Kapittel 9 Sette opp en Hadoop Cluster.

������.

Minne – 16-24 GB ECC RAM (feilkodekontroll)

Lagring – Fire 1TB SATA-disker.

Nettverk -Gigabit Ethernet.

(2) True eller False: For en liten klynge (10 noder) er det akseptabelt a ha namenode og jobtracker pa en enkelt maskin.

2. SANT, sa lenge du har en kopi av namenoden metatdata pa en ekstern maskin. Etter hvert som # av filer vokser, bor navneskoden flyttes til en egen maskin fordi den er en minnehone.

Med flere rackklynger, hva trenger du a gjore?

Kart nodene til rack slik at Hadoop kan finne innen-rack overforinger, som er a foretrekke. Det vil ogsa tillate Hadoop a plassere replikaer mer intelligent.

Hvilken config-egenskap definerer en implementering av DNSToSwitchMapping?

offentlig liste & lt; String & gt; lose (Liste & String> navn); >

navn – liste over IP-adresser.

– returnerer liste over tilhorende nettverksplasseringsstrenger.

(Namenodes og jobtrackers bruker dette til a lose arbeidsnokkelnettverkssteder)

Hva skjer hvis det ikke er et brukerdefinert skript?

topology.script.file.name (script location config)

Skriptet aksepterer args (IP-adresser) og returnerer en liste over nettverkssteder.

2. Alle noder er kartlagt til en enkelt nettverksplassering som kalles / standard-rack.

– Endre eieren av Hadoop-filene til Hadoop-brukeren og -gruppen.

– Hold konfigurasjon i synkronisering mellom maskiner ved hjelp av rsync- eller skalverktoy (dsh pdsh)

– Hvis du introduserer en sterkere maskinklasse, kan du styre separate konfigurer per maskinklasse. (med kokk, pupper, cfengine)

Masters-fil – bestemmer hvilke maskiner som skal kjore en sekund r navnekode.

Slavefil – bestemmer hvilke maskiner datanoder og tasktrackere kjores pa.

– Brukes kun av kontrollskriptene som kjorer pa namenode eller jobtracker.

2. Starter en datanode pa hver maskin som er oppfort i slavefilen.

3. Starter en sekund r navnekode pa hver maskin som er oppfort i hovedfilen.

2. Starter en tasktracker pa hver maskin i slavefilen.

2. HADOOP_HEAPSIZE i hadoop_env.sh.

mapred.tasktracker.reduce.tasks.maximum (standard 2)

Namenode – 1 GB per million blokker lagring.

Verdi oppgitt bor v re Xmx2000m ville tildele 2GB.

sett HADOOP_LOG_DIR i hadoop-env.sh.

Flytt den utenfor installeringsbanen for a unnga sletting under oppgraderinger.

Nar blir de slettet?

2. Logger som slutter i. Ut, fungerer som en kombinasjonsstandardfeil og standard utgangslogg. Bare de siste 5 blir beholdt og de blir rotert nar daemonen starter pa nytt.

2. Hvis det er satt til nei, legges det automatisk til nye vertsnokler. Hvis du spor (standard), ber brukeren om a godta vertsnokkel (ikke bra for en stor klynge)

(standard 64 MB anbefales 128 MB)

1. Hvordan konfigurerer du papirkurven?

2. Hvor finner du Papirkurv filer?

3. Vil programmatisk slettede filer bli satt i papirkurven?

4. Hvordan tar du manuelt ut soppel for ikke-HDFS-filsystemer?

2. I din bruker- / hjemmekatalog i en .trash-mappe.

3. Nei, de vil bli slettet permanent.

4. hadoop fs -expunge.

2. Oppgavehukommelsesovervaking – Administrator angir tillatt rekkevidde for virtuelt minne for oppgaver pa klyngen. Brukere vil angi minnebruk i deres jobbkonfigurasjon, om ikke den bruker mapred.job.map.memory.mb og mapred.job.reduce.memory.mb. Dette er en bedre tiln rming fordi den omfatter hele oppgavetreet og hevdet prosesser. Kapasitetsplanleggeren vil ta hensyn til bruken av spor basert pa minneinnstillinger.

2. mapred.cluster.reduce.memory.mb – amt av virtuelt minne for a ta opp et redusert spor.

3. mapred.job.map.memory.mb – amt av virtuelt minne som en kartoppgave krever a kjore.

4. mapred.job.reduce.memory.mb – amt av virtuelt minne som en reduksjon av oppgave krever a kjore.

5. mapred.cluster.max.map.memory.mb – maksimalt brukere kan sette mapred.job.map.memory.mb.

6. mapred.cluster.max.reduce.memory.mb – maksimale brukere kan sette mapred.job.reduce.memory.mb.

(a) starter ressursbehandling pa maskinen som ble skriptet kjort pa.

(b) knuteprofil pa hver maskin i slavefilen.

(b) config-innstillinger for YARN-daemoner.

(c) Egenskaper som fortsatt brukes uten jobbtracker & amp; Tasktracker-relaterte egenskaper.

(e) garn.nodemanager.vmem-pmem forholdet.

(b) steder der nodeprodusenter tillater containere a dele mellomliggende data (slettet i slutten av en jobb)

(c) Liste over tilleggstjenester som drives av nodeleder.

(d) Amt av fysisk minne som kan tildeles til containere som drives av nodeleder.

(e) Forholdet mellom virtuelt og fysisk minne for containere.

+ 1GB datanode daemon.

+ ekstra for lopende prosesser.

2. mapreduce.map.memory.mb – hvor mye minne som trengs for kart (eller redusere) oppgavebeholdere.

(b) 0.0.0.0:8042 – node manager web ui.

(c) (standard ikke satt) webapp proxy server, hvis ikke sett ressursbehandler prosess.

(d) 0.0.0.0:19888 – jobbhistorikkserver.

(e) 8080 shuffle-handterer HTTP-port (ikke en bruker tilgjengelig webgrensesnitt)

(b) 8033 Brukes av admin klienten til a kommunisere med ressurs manager.

(c) 8030 Brukes av in-cluster application masters til a kommunisere med ressurs manager.

(d) 8031 Brukes av in-cluster node-ledere til a kommunisere med ressursadministratoren.

(e) 0 Brukes av in-cluster applikasjonsledere til a kommunisere med node managers.

(g) 10020 Brukes av klienten, vanligvis utenfor klyngen, for a soke jobbhistorie.

2. Planlegger min / maks minne tildelinger. yarn.scheduler.capacity.minimum-allocation.mb.

2. Autorisasjon – (ikke brukerniva, klienten utforer) Klienten bruker TGT til a be om en servicekort fra Ticket Granting Server.

3. Tjenestebegrensning – (ikke brukerniva) Kunden bruker servicekort for a autentisere seg til serveren som leverer tjenesten. (ex: navneode, jobbtracker)

2. Ticket Granting Server.

3. Oppsett ACLs (Access Control Lists) i hadoop-policy.xml.

2. En oppgave kan kun kommunisere med sin overordnede tasktracker.

3. Shuffle er sikker, men ikke kryptert.

4. En datanode kan kjores pa en privilegert port (under 1024) for a sikre at den starter sikkert.

5. Nar oppgaver kjores som bruken som sendte jobben, er den distribuerte cachen sikker. Cachen ble delt inn i sikre / delte deler.

6. Ondsinnede brukere kan ikke fa rouge sekund re navngitte numre, datanoder eller tasktrackere for a bli med i klyngen. Daemoner er palagt a autentisere med hovednoden.

hadoop jar $ HADOOP_INSTALL / hadoop – * – test.jar TestDFSIO -write -nrFiles IO-filSize 1000 (skriver 10 filer pa 1000.

cat TestDFSIO_results.logg inn / benchmarks / TestDFSIO.

hadoop jar $ HADOOP_INSTALL / hadoop – * – test.jar TestDFSIO -read -nrFiles IO-filSize 1000 (leser 10 filer pa 1000.

hadoop jar $ HADOOP_INSTALL / hadoop – * – test.jar TestDFSIO -clean.

hadoop jar $ HADOOP_INSTALL / hadoop – * – examples.jar randomwriter random-data (generer noen data tilfeldig)

hadoop jar $ HADOOP_INSTALL / hadoop – * – examples.jar sortere tilfeldige data sorterte data (kjorer sorteringsprogrammet) Kan se fremdrift pa jobtracker webadressen.

3. Verifiser data er sortert riktig.

hadoop jar $ HADOOP_INSTALL / hadoop – * – examples.jar testmapredsort -sortInput tilfeldig data-sorteringUtgitte sorterte data (returnerer suksess eller feil)

2. Nyttig for last-testing namenode maskinvare.

3. Suite av benchmarks designet for a modellere en realistisk klynge.