Pentru ca framework-ul Hadoop să poată funcționa, este necesar ca în prealabil să se instaleze:
Este recomandat să se creeze un grup / un utilizator dedicat pentru framework-ul Hadoop, realizându-se astfel separarea de alte programe utilizate pe mașina respectivă.
aipi2014@ubuntu:~$ sudo apt-get install openssh-server
aipi2014@ubuntu:~$ ssh-keygen -t rsa -P "" Generating public/private rsa key pair. Enter file in which to save the key (/home/aipi2014/.ssh/id_rsa): Created directory '/home/aipi2014/.ssh'. Your identification has been saved in /home/aipi2014/.ssh/id_rsa. Your public key has been saved in /home/aipi2014/.ssh/id_rsa.pub. The key fingerprint is: 60:50:6d:e7:07:d5:44:12:43:63:34:15:3c:64:b4:a5 aipi2014@ubuntu
Deși nu este recomandată folosirea de parole vide, adoptarea unui astfel de comportament în acest caz este dictată de faptul că, în caz contrat, această informație va fi solicitată de fiecare dată când se realizează o conexiune între framework-ul Hadoop și nodurile pe care le gestionează.
aipi2014@ubuntu:~$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
known_host
a utilizatorului curentaipi2014@ubuntu:~$ ssh localhost The authenticity of host 'localhost (127.0.0.1)' can't be established. ECDSA key fingerprint is bb:40:19:2c:64:82:15:d6:0f:a3:0e:a2:b2:a7:ae:5a. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts. Welcome to Ubuntu 14.10 (GNU/Linux 3.16.0-28-generic i686) * Documentation: https://help.ubuntu.com/ The programs included with the Ubuntu system are free software; the exact distribution terms for each program are described in the individual files in /usr/share/doc/*/copyright. Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by applicable law.
Alte configurări cu privire la serverul SSH pot fi realizate în fișierul /etc/ssh/sshd_config
:
PubkeyAuthentication
trebuie să aibă valoarea yes
;AllowUsers
este activă, utilizatorul curent trebuie să se regăsească în această listă.
Încărcarea unei astfel de configurații (în situația în care au fost realizate modificări) se face prin comanda
aipi2014@ubuntu:~$ sudo /etc/init.d/ssh reload
Alte configurări referitoare la clientul SSH pot fi precizate în fișierul ~/.ssh/config
.
Este recomandat ca pentru cele mai multe sisteme să se dezactiveze protocolul IP v6 întrucât framework-ul Hadoop utilizează adresa 0.0.0.0
pentru mai multe configurări, putând să se realizeze confuzia că aceasta ar aparține acestui spațiu.
În /etc/sysctl.conf
trebuie precizate valorile următorilor parametri:
aipi2014@ubuntu:~$ sudo nano /etc/sysctl.conf
... net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1
Actualizarea acestor valori se realizează în momentul în care se repornește sistemul de operare.
Starea protocolului IP v6 se poate testa prin comanda:
aipi2014@ubuntu:~$ cat /proc/sys/net/ipv6/conf/all/disable_ipv6
care poate furniza următoarele valori:
$HADOOP_HOME/etc/hadoop/hadoop-env.sh
):
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
aipi2014@ubuntu:~$ cd /tmp aipi2014@ubuntu:/tmp$ wget http://mirrors.hostingromania.ro/apache.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
aipi2014@ubuntu:/tmp$ tar xzf hadoop-2.6.0.tar.gz aipi2014@ubuntu:/tmp$ sudo mv hadoop-2.6.0 /usr/local/ aipi2014@ubuntu:/tmp$ sudo ln -s /usr/local/hadoop-2.6.0/ /usr/local/hadoop aipi2014@ubuntu:/tmp$ rm -f hadoop-2.6.0.tar.gz
aipi2014@ubuntu:~$ sudo chown -R aipi2014 /usr/local/hadoop
Se va crea directorul hdfs
în $HOME
, având subdirectoarele name
, data
și tmp
, acestea urmând a fi folosite în contextul sistemului de fișiere distribuit Hadoop pentru diferite operații de către nodul de nume și nodul de date:
aipi2014@ubuntu:~$ mkdir $HOME/hdfs aipi2014@ubuntu:~$ mkdir $HOME/hdfs/name aipi2014@ubuntu:~$ mkdir $HOME/hdfs/data aipi2014@ubuntu:~$ mkdir $HOME/hdfs/tmp aipi2014@ubuntu:~$ sudo chmod -R 755 $HOME/hdfs
Se specifică în .bashrc
valoarea variabilelor de sistem JAVA_HOME
, HADOOP_INSTALL
, HBASE_INSTALL
care indică locațiile la care sunt instalate aceste programe, căile respective fiind adăugate și la PATH, pentru ca procesul de căutare a diferitelor utilitare să fie realizat în mod automat:
aipi2014@ubuntu:~$ sudo nano ~/.bashrc
... export JAVA_HOME=/usr/local/java/jdk1.8.0_25 export HADOOP_INSTALL=/usr/local/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL export HADOOP_COMMON_LIB_NATIVE_DIRE=$HADOOP_INSTALL/lib/native export HBASE_INSTALL=/usr/local/hbase export PATH=$PATH:$HBASE_INSTALL/bin
aipi2014@ubuntu:~$ source ~/.bashrc
În fișierul hadoop-env.sh
trebuie specificată valoarea variabilei de sistem JAVA_HOME
astfel încât aceasta să fie disponibilă de fiecare dată când pornește framework-ul Hadoop:
aipi2014@ubuntu:/usr/local/hadoop/etc/hadoop$ sudo nano hadoop-env.sh
... export JAVA_HOME=/usr/local/java/jdk1.8.0_25
În fișierul core-site.xml
trebuie specificate valori ale unor proprietăți care vor fi utilizate de fiecare dată când pornește framework-ul Hadoop, suprascriind valorile implicite:
fs.default.name
: URI-ul (protocol://gazda:port
) ce descrie NameNode-ul pentru fiecare cluster, întrucât fiecare nod din cadrul sistemului pe care rulează framework-ul Hadoop trebuie să cunoască adresa acestuia;hadoop.tmp.dir
: locația la care vor fi plasate informațiile temporare - subdirectorul /tmp
din $HOME/hdfs
.aipi2014@ubuntu:/usr/local/hadoop/etc/hadoop$ sudo nano core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/aipi2014/hdfs/tmp</value> </property> </configuration>
În fișierul yarn-site.xml
pot fi specificate valori ale unor proprietăți care vor fi utilizate de fiecare dată când pornește procesul MapReduce, suprascriind valorile implicite:
aipi2014@ubuntu:/usr/local/hadoop/etc/hadoop$ sudo nano yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
În fișierul mapred-site.xml
pot fi specificate proprietăți precum tipul de proces care va fi utilizat pentru planificarea sarcinilor (JobTracker / Yarn):
aipi2014@ubuntu:/usr/local/hadoop/etc/hadoop$ cp mapred-site.xml.template mapred-site.xml aipi2014@ubuntu:/usr/local/hadoop/etc/hadoop$ nano mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
În fișierul hdfs-site.xml
, fiecare mașină din cluster trebuie să specifice locațiile de pe disc care vor fi folosite de nodul de nume, respectiv de nodul de date:
dfs.name.dir
- calea din cadrul sistemului local de fișiere în care instanța NameNode își stochează datele; în cazul în care nu este indicată implicit, are valoarea /tmp
;dfs.data.dir
- calea din cadrul sistemului local de fișiere în care instanța DataNode își stochează datele; în cazul în care nu este indicată implicit, are valoarea /tmp
;dfs.replication
- nivelul de replicare (de câte ori va fi replicat același bloc în cadrul unor clustere diferite).aipi2014@ubuntu:/usr/local/hadoop/etc/hadoop$ sudo nano hdfs-site.xml
<configuration> <property> <name>dfs.name.dir</name> <value>/home/aipi2014/hdfs/name</value> </property> <property> <name>dfs.data.dir</name> <value>/home/aipi2014/hdfs/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
Înainte de a putea fi utilizat, sistemul de fișiere distribuit HDFS trebuie să fie formatat:
aipi2014@ubuntu:~$ hdfs namenode -format 14/12/17 14:15:34 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = ubuntu/127.0.1.1 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.6.0 STARTUP_MSG: classpath = /usr/local/hadoop-2.6.0/etc/hadoop:/usr/local/hadoop/share/hadoop/common/lib/httpcore-4.2.5.jar:/usr/local/hadoop/share/hadoop/common/lib/httpclient-4.2.5.jar:/usr/local/hadoop/share/hadoop/common/lib/zookeeper-3.4.6.jar:/usr/local/hadoop/share/hadoop/common/lib/slf4j-api-1.7.5.jar:/usr/local/hadoop/share/hadoop/common/lib/curator-client-2.6.0.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-digester-1.8.jar:/usr/local/hadoop/share/hadoop/common/lib/jettison-1.1.jar:/usr/local/hadoop/share/hadoop/common/lib/jackson-jaxrs-1.9.13.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-codec-1.4.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-el-1.0.jar:/usr/local/hadoop/share/hadoop/common/lib/jaxb-api-2.2.2.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-collections-3.2.1.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-cli-1.2.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-math3-3.1.1.jar:/usr/local/hadoop/share/hadoop/common/lib/jasper-compiler-5.5.23.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-compress-1.4.1.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-io-2.4.jar:/usr/local/hadoop/share/hadoop/common/lib/jackson-mapper-asl-1.9.13.jar:/usr/local/hadoop/share/hadoop/common/lib/mockito-all-1.8.5.jar:/usr/local/hadoop/share/hadoop/common/lib/gson-2.2.4.jar:/usr/local/hadoop/share/hadoop/common/lib/api-asn1-api-1.0.0-M20.jar:/usr/local/hadoop/share/hadoop/common/lib/avro-1.7.4.jar:/usr/local/hadoop/share/hadoop/common/lib/api-util-1.0.0-M20.jar:/usr/local/hadoop/share/hadoop/common/lib/guava-11.0.2.jar:/usr/local/hadoop/share/hadoop/common/lib/jersey-core-1.9.jar:/usr/local/hadoop/share/hadoop/common/lib/snappy-java-1.0.4.1.jar:/usr/local/hadoop/share/hadoop/common/lib/jasper-runtime-5.5.23.jar:/usr/local/hadoop/share/hadoop/common/lib/htrace-core-3.0.4.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-beanutils-core-1.8.0.jar:/usr/local/hadoop/share/hadoop/common/lib/hamcrest-core-1.3.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-net-3.1.jar:/usr/local/hadoop/share/hadoop/common/lib/paranamer-2.3.jar:/usr/local/hadoop/share/hadoop/common/lib/jetty-6.1.26.jar:/usr/local/hadoop/share/hadoop/common/lib/jsp-api-2.1.jar:/usr/local/hadoop/share/hadoop/common/lib/java-xmlbuilder-0.4.jar:/usr/local/hadoop/share/hadoop/common/lib/curator-recipes-2.6.0.jar:/usr/local/hadoop/share/hadoop/common/lib/apacheds-kerberos-codec-2.0.0-M15.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-logging-1.1.3.jar:/usr/local/hadoop/share/hadoop/common/lib/curator-framework-2.6.0.jar:/usr/local/hadoop/share/hadoop/common/lib/asm-3.2.jar:/usr/local/hadoop/share/hadoop/common/lib/jersey-server-1.9.jar:/usr/local/hadoop/share/hadoop/common/lib/log4j-1.2.17.jar:/usr/local/hadoop/share/hadoop/common/lib/jets3t-0.9.0.jar:/usr/local/hadoop/share/hadoop/common/lib/servlet-api-2.5.jar:/usr/local/hadoop/share/hadoop/common/lib/jetty-util-6.1.26.jar:/usr/local/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar:/usr/local/hadoop/share/hadoop/common/lib/jsr305-1.3.9.jar:/usr/local/hadoop/share/hadoop/common/lib/jsch-0.1.42.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-httpclient-3.1.jar:/usr/local/hadoop/share/hadoop/common/lib/jackson-core-asl-1.9.13.jar:/usr/local/hadoop/share/hadoop/common/lib/stax-api-1.0-2.jar:/usr/local/hadoop/share/hadoop/common/lib/xz-1.0.jar:/usr/local/hadoop/share/hadoop/common/lib/netty-3.6.2.Final.jar:/usr/local/hadoop/share/hadoop/common/lib/junit-4.11.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-configuration-1.6.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-lang-2.6.jar:/usr/local/hadoop/share/hadoop/common/lib/xmlenc-0.52.jar:/usr/local/hadoop/share/hadoop/common/lib/jersey-json-1.9.jar:/usr/local/hadoop/share/hadoop/common/lib/hadoop-annotations-2.6.0.jar:/usr/local/hadoop/share/hadoop/common/lib/jaxb-impl-2.2.3-1.jar:/usr/local/hadoop/share/hadoop/common/lib/apacheds-i18n-2.0.0-M15.jar:/usr/local/hadoop/share/hadoop/common/lib/protobuf-java-2.5.0.jar:/usr/local/hadoop/share/hadoop/common/lib/commons-beanutils-1.7.0.jar:/usr/local/hadoop/share/hadoop/common/lib/jackson-xc-1.9.13.jar:/usr/local/hadoop/share/hadoop/common/lib/activation-1.1.jar:/usr/local/hadoop/share/hadoop/common/lib/hadoop-auth-2.6.0.jar:/usr/local/hadoop/share/hadoop/common/hadoop-common-2.6.0-tests.jar:/usr/local/hadoop/share/hadoop/common/hadoop-nfs-2.6.0.jar:/usr/local/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar:/usr/local/hadoop/share/hadoop/hdfs:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-codec-1.4.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-el-1.0.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-cli-1.2.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-io-2.4.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jackson-mapper-asl-1.9.13.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/xercesImpl-2.9.1.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/guava-11.0.2.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jersey-core-1.9.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jasper-runtime-5.5.23.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/htrace-core-3.0.4.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jetty-6.1.26.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/xml-apis-1.3.04.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jsp-api-2.1.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-logging-1.1.3.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/asm-3.2.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jersey-server-1.9.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/log4j-1.2.17.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/servlet-api-2.5.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jetty-util-6.1.26.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jsr305-1.3.9.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/jackson-core-asl-1.9.13.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/netty-3.6.2.Final.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-daemon-1.0.13.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/commons-lang-2.6.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/xmlenc-0.52.jar:/usr/local/hadoop/share/hadoop/hdfs/lib/protobuf-java-2.5.0.jar:/usr/local/hadoop/share/hadoop/hdfs/hadoop-hdfs-2.6.0-tests.jar:/usr/local/hadoop/share/hadoop/hdfs/hadoop-hdfs-2.6.0.jar:/usr/local/hadoop/share/hadoop/hdfs/hadoop-hdfs-nfs-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/zookeeper-3.4.6.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jettison-1.1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jersey-client-1.9.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jline-0.9.94.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jackson-jaxrs-1.9.13.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-codec-1.4.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jaxb-api-2.2.2.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-collections-3.2.1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-cli-1.2.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-compress-1.4.1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-io-2.4.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jackson-mapper-asl-1.9.13.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jersey-guice-1.9.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/leveldbjni-all-1.8.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/guava-11.0.2.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jersey-core-1.9.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/javax.inject-1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jetty-6.1.26.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-logging-1.1.3.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/asm-3.2.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jersey-server-1.9.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/log4j-1.2.17.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/servlet-api-2.5.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jetty-util-6.1.26.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jsr305-1.3.9.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-httpclient-3.1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jackson-core-asl-1.9.13.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/stax-api-1.0-2.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/xz-1.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/guice-servlet-3.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/netty-3.6.2.Final.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/aopalliance-1.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/commons-lang-2.6.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jersey-json-1.9.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jaxb-impl-2.2.3-1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/protobuf-java-2.5.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/jackson-xc-1.9.13.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/activation-1.1.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/lib/guice-3.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-server-common-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-api-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-applications-unmanaged-am-launcher-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-server-tests-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-server-nodemanager-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-server-web-proxy-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-registry-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-server-resourcemanager-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-server-applicationhistoryservice-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-common-2.6.0.jar:/usr/local/hadoop-2.6.0/share/hadoop/yarn/hadoop-yarn-client-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/commons-compress-1.4.1.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/commons-io-2.4.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/jackson-mapper-asl-1.9.13.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/jersey-guice-1.9.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/avro-1.7.4.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/leveldbjni-all-1.8.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/jersey-core-1.9.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/snappy-java-1.0.4.1.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/javax.inject-1.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/hamcrest-core-1.3.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/paranamer-2.3.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/asm-3.2.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/jersey-server-1.9.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/log4j-1.2.17.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/jackson-core-asl-1.9.13.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/xz-1.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/guice-servlet-3.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/netty-3.6.2.Final.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/junit-4.11.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/aopalliance-1.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/hadoop-annotations-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/protobuf-java-2.5.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/lib/guice-3.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-app-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-shuffle-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-hs-plugins-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar:/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-hs-2.6.0.jar:/contrib/capacity-scheduler/*.jar STARTUP_MSG: build = https://git-wip-us.apache.org/repos/asf/hadoop.git -r e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1; compiled by 'jenkins' on 2014-11-13T21:10Z STARTUP_MSG: java = 1.8.0_25 ************************************************************/ 14/12/17 14:15:35 INFO namenode.NameNode: registered UNIX signal handlers for [TERM, HUP, INT] 14/12/17 14:15:35 INFO namenode.NameNode: createNameNode [-format] 14/12/17 14:15:43 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 14/12/17 14:15:45 WARN common.Util: Path /home/aipi2014/hdfs/name should be specified as a URI in configuration files. Please update hdfs configuration. 14/12/17 14:15:45 WARN common.Util: Path /home/aipi2014/hdfs/name should be specified as a URI in configuration files. Please update hdfs configuration. Formatting using clusterid: CID-43be76c0-81e9-42b7-bae9-b210dbd132f6 14/12/17 14:15:45 INFO namenode.FSNamesystem: No KeyProvider found. 14/12/17 14:15:46 INFO namenode.FSNamesystem: fsLock is fair:true 14/12/17 14:15:47 INFO blockmanagement.DatanodeManager: dfs.block.invalidate.limit=1000 14/12/17 14:15:47 INFO blockmanagement.DatanodeManager: dfs.namenode.datanode.registration.ip-hostname-check=true 14/12/17 14:15:47 INFO blockmanagement.BlockManager: dfs.namenode.startup.delay.block.deletion.sec is set to 000:00:00:00.000 14/12/17 14:15:47 INFO blockmanagement.BlockManager: The block deletion will start around 2014 Dec 17 14:15:47 14/12/17 14:15:47 INFO util.GSet: Computing capacity for map BlocksMap 14/12/17 14:15:47 INFO util.GSet: VM type = 32-bit 14/12/17 14:15:47 INFO util.GSet: 2.0% max memory 966.7 MB = 19.3 MB 14/12/17 14:15:47 INFO util.GSet: capacity = 2^22 = 4194304 entries 14/12/17 14:15:50 INFO blockmanagement.BlockManager: dfs.block.access.token.enable=false 14/12/17 14:15:50 INFO blockmanagement.BlockManager: defaultReplication = 1 14/12/17 14:15:50 INFO blockmanagement.BlockManager: maxReplication = 512 14/12/17 14:15:50 INFO blockmanagement.BlockManager: minReplication = 1 14/12/17 14:15:50 INFO blockmanagement.BlockManager: maxReplicationStreams = 2 14/12/17 14:15:50 INFO blockmanagement.BlockManager: shouldCheckForEnoughRacks = false 14/12/17 14:15:50 INFO blockmanagement.BlockManager: replicationRecheckInterval = 3000 14/12/17 14:15:50 INFO blockmanagement.BlockManager: encryptDataTransfer = false 14/12/17 14:15:50 INFO blockmanagement.BlockManager: maxNumBlocksToLog = 1000 14/12/17 14:15:51 INFO namenode.FSNamesystem: fsOwner = aipi2014 (auth:SIMPLE) 14/12/17 14:15:51 INFO namenode.FSNamesystem: supergroup = supergroup 14/12/17 14:15:51 INFO namenode.FSNamesystem: isPermissionEnabled = true 14/12/17 14:15:51 INFO namenode.FSNamesystem: HA Enabled: false 14/12/17 14:15:51 INFO namenode.FSNamesystem: Append Enabled: true 14/12/17 14:15:56 INFO util.GSet: Computing capacity for map INodeMap 14/12/17 14:15:56 INFO util.GSet: VM type = 32-bit 14/12/17 14:15:56 INFO util.GSet: 1.0% max memory 966.7 MB = 9.7 MB 14/12/17 14:15:56 INFO util.GSet: capacity = 2^21 = 2097152 entries 14/12/17 14:16:00 INFO namenode.NameNode: Caching file names occuring more than 10 times 14/12/17 14:16:00 INFO util.GSet: Computing capacity for map cachedBlocks 14/12/17 14:16:00 INFO util.GSet: VM type = 32-bit 14/12/17 14:16:00 INFO util.GSet: 0.25% max memory 966.7 MB = 2.4 MB 14/12/17 14:16:00 INFO util.GSet: capacity = 2^19 = 524288 entries 14/12/17 14:16:01 INFO namenode.FSNamesystem: dfs.namenode.safemode.threshold-pct = 0.9990000128746033 14/12/17 14:16:01 INFO namenode.FSNamesystem: dfs.namenode.safemode.min.datanodes = 0 14/12/17 14:16:01 INFO namenode.FSNamesystem: dfs.namenode.safemode.extension = 30000 14/12/17 14:16:01 INFO namenode.FSNamesystem: Retry cache on namenode is enabled 14/12/17 14:16:01 INFO namenode.FSNamesystem: Retry cache will use 0.03 of total heap and retry cache entry expiry time is 600000 millis 14/12/17 14:16:01 INFO util.GSet: Computing capacity for map NameNodeRetryCache 14/12/17 14:16:01 INFO util.GSet: VM type = 32-bit 14/12/17 14:16:01 INFO util.GSet: 0.029999999329447746% max memory 966.7 MB = 297.0 KB 14/12/17 14:16:01 INFO util.GSet: capacity = 2^16 = 65536 entries 14/12/17 14:16:02 INFO namenode.NNConf: ACLs enabled? false 14/12/17 14:16:02 INFO namenode.NNConf: XAttrs enabled? true 14/12/17 14:16:02 INFO namenode.NNConf: Maximum size of an xattr: 16384 14/12/17 14:16:07 INFO namenode.FSImage: Allocated new BlockPoolId: BP-756723125-127.0.1.1-1418818563112 14/12/17 14:16:07 INFO common.Storage: Storage directory /home/aipi2014/hdfs/name has been successfully formatted. 14/12/17 14:16:08 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 14/12/17 14:16:08 INFO util.ExitUtil: Exiting with status 0 14/12/17 14:16:08 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at ubuntu/127.0.1.1 ************************************************************/
Script-urile pentru operațiile de pornire / oprire a proceselor Hadoop sunt plasate în $HADOOP_INSTALL/sbin
și se referă la:
aipi2014@ubuntu:~$ start-dfs.sh Starting namenodes on [localhost] localhost: starting namenode, logging to /usr/local/hadoop-2.6.0/logs/hadoop-aipi2014-namenode-ubuntu.out localhost: starting datanode, logging to /usr/local/hadoop-2.6.0/logs/hadoop-aipi2014-datanode-ubuntu.out Starting secondary namenodes [0.0.0.0] The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established. ECDSA key fingerprint is 36:dc:33:57:17:ce:fc:3d:d6:11:52:5e:b5:7f:24:7c. Are you sure you want to continue connecting (yes/no)? yes 0.0.0.0: Warning: Permanently added '0.0.0.0' (ECDSA) to the list of known hosts. 0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop-2.6.0/logs/hadoop-aipi2014-secondarynamenode-ubuntu.out
start-dfs.sh
stop-dfs.sh
aipi2014@ubuntu:~$ start-yarn.sh starting yarn daemons starting resourcemanager, logging to /usr/local/hadoop-2.6.0/logs/yarn-aipi2014-resourcemanager-ubuntu.out localhost: starting nodemanager, logging to /usr/local/hadoop-2.6.0/logs/yarn-aipi2014-nodemanager-ubuntu.out
start-yarn.sh
stop-yarn.sh
Verificarea faptului că aceste procese au fost pornite / oprite cu succes se face prin inspectarea proceselor java care rulează la un moment dat:
aipi2014@ubuntu:~$ jps 4883 ResourceManager 4566 DataNode 5223 Jps 5193 NodeManager 4427 NameNode 4749 SecondaryNameNode
Framework-ul Hadoop pune la dispoziția utilizatorilor interfețe web ce permit monitorizarea cluster-ului:
aipi2014@ubuntu:~$ cd /tmp aipi2014@ubuntu:/tmp$ wget http://mirrors.hostingromania.ro/apache.org/hbase/stable/hbase-0.98.8-hadoop2-bin.tar.gz
aipi2014@ubuntu:/tmp$ tar xzf hbase-0.98.8-hadoop2-bin.tar.gz aipi2014@ubuntu:/tmp$ sudo mv hbase-0.98.8-hadoop2 /usr/local/ aipi2014@ubuntu:/tmp$ sudo ln -s /usr/local/hbase-0.98.8-hadoop2/ /usr/local/hbase aipi2014@ubuntu:/tmp$ rm -f hbase-0.98.8-hadoop2-bin.tar.gz
aipi2014@ubuntu:~$ sudo chown -R aipi2014 /usr/local/hbase
În directorul $HBASE_INSTALL/lib
, HBase stochează biblioteci Hadoop pe care le-ar folosi doar în situația în care nu ar fi utilizat în corelație cu acest framework (modul standalone). Întrucât această colecție de biblioteci nu este actualizată, acest proces trebuie realizat manual (bibliotecile respective din distribuția curentă Hadoop sunt copiate în contextul HBase).
aipi2014@ubuntu:/usr/local/hbase/lib$ cp /usr/local/hadoop/share/hadoop/common/*.jar ./ aipi2014@ubuntu:/usr/local/hbase/lib$ cp /usr/local/hadoop/share/hadoop/common/lib/*.jar ./ aipi2014@ubuntu:/usr/local/hbase/lib$ cp /usr/local/hadoop/share/hadoop/hdfs/*.jar ./ aipi2014@ubuntu:/usr/local/hbase/lib$ cp /usr/local/hadoop/share/hadoop/mapreduce/*.jar ./ aipi2014@ubuntu:/usr/local/hbase/lib$ cp /usr/local/hadoop/share/hadoop/yarn/*.jar ./ aipi2014@ubuntu:/usr/local/hbase/lib$ rm -f hadoop*2.2.0*
Eventual, se pot șterge manual și alte biblioteci pentru care există versiuni diferite.
În fișierul hbase-env.sh
trebuie specificată valoarea variabilei de sistem JAVA_HOME
astfel încât aceasta să fie disponibilă de fiecare dată când pornește sistemul de baze de date HBase, precum și a variabilelor de sistem HBASE_REGIONSERVERS
(fișierul de configurare pentru serverele de regiuni), respectiv HBASE_MANAGES_ZK
(HBase gestionează propria instanță ZooKeeper):
aipi2014@ubuntu:/usr/local/hbase/conf$ sudo nano hbase-env.sh
... export JAVA_HOME=/usr/local/java/jdk1.8.0_25 export HBASE_REGIONSERVERS=/usr/local/hbase/conf/regionservers export HBASE_MANAGES_ZK=true
În cadrul fișierului de configurare hbase-site.xml
sunt specificate proprietăți care determină modul în care operează sistemul de baze de date distribuit HBase:
hbase.rootdir
- indică denumirea locației în care sistemul de baze de date distribuit HBase va stoca informațiile din tabele; întrucât este folosit HDFS, se va specifica aceeași locașie ca în cazul proprietății fs.default.name
din cadrul fișierului de configurare $HADOOP_INSTALL/etc/hadoop/core-site.xml
, sufixat de /hbase
;hbase.cluster.distributed
- poate lua valorile:true
- pentru modul de lucru (pseudo-)distribuit;false
- pentru modul de lucru de sine stătător.hbase.zookeeper.quorum
- reprezintă adresa locației la care procesul ZooKeeper (ce monitorizează clusterele) își stochează datele;dfs.replication
- stabilește nivelul de replicare (de câte ori va fi stocat același bloc în cadrul unor clustere diferite); trebuie să aibă aceeași valoare ca în cazul proprietății omonime din $HADOOP_INSTALLATION/etc/hadoop/core-site.xml
hbase.zookeeper.property.clientPort
- configurează portul prin care comunică diferitele instanțe ZooKeeper;hbase.zookeeper.property.dataDir
- precizează locația din cadrul sistemului de fișiere local în care procesul ZooKeeper își stochează datele temporare.aipi2014@ubuntu:/usr/local/hbase/conf$ nano hbase-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000/hbase</value> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>localhost</value> </property> <property> <name>hbase.zookeeper.property.clientPort</name> <value>2181</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/home/aipi2014/hbase/zookeeper</value> </property> </configuration>
Script-urile pentru operațiile de pornire / oprire a proceselor Hadoop sunt plasate în $HBASE_INSTALL/bin
și gestionează procesele HMaster, HRegionServer ale sistemului de baze de date distribuite HBase și HQuorumPeer al procesului ZooKeeper.
aipi2014@ubuntu:~$ start-hbase.sh localhost: starting zookeeper, logging to /usr/local/hbase/bin/../logs/hbase-aipi2014-zookeeper-ubuntu.out starting master, logging to /usr/local/hbase/bin/../logs/hbase-aipi2014-master-ubuntu.out localhost: starting regionserver, logging to /usr/local/hbase/bin/../logs/hbase-aipi2014-regionserver-ubuntu.out
aipi2014@ubuntu:~$ stop-hbase.sh
Verificarea faptului că aceste procese au fost pornite / oprite cu succes se face prin inspectarea proceselor java care rulează la un moment dat:
aipi2014@ubuntu:~$ jps 4282 ResourceManager 7277 HQuorumPeer 4489 NodeManager 3853 DataNode 7334 HMaster 7685 Jps 7541 HRegionServer 4109 SecondaryNameNode 3653 NameNode
Sistemul de baze de date distribuit HBase permite gestiunea informațiilor stocate:
Prin intermediul consolei (shell), accesibilă prin comanda $HBASE_INSTALL/bin/hbase shell
se permite realizarea tuturor operațiilor DDL/DML specifice acestui tip de sistem de baze de date:
aipi2014@ubuntu:~$ hbase shell 2014-10-10 23:07:59,084 INFO [main] Configuration.deprecation: hadoop.native.lib is deprecated. Instead, use io.native.lib.available HBase Shell; enter 'help<RETURN>' for list of supported commands. Type "exit<RETURN>" to leave the HBase Shell 0.98.8-hadoop2, r6cfc8d064754251365e070a10a82eb169956d5fe, Fri Nov 14 18:26:29 PST 2014 hbase(main):001:0> list TABLE 0 row(s) in 0.1250 seconds => [] hbase(main):002:0> exit
Prin intermediul interfeței web, disponibilă la http://localhost:60010, utilizatorul are la dispoziție doar operații de consultare a stării bazei de date sau a vizualizării tabelelor.
Dezvoltarea aplicațiilor Hadoop / HDFS în Eclipse poate fi facilitată de folosirea unui plugin:
Arhiva .jar
corespunzătoare acestuia trebuie copiată în subdirectorul plugins
al mediului de dezvoltare Eclipse pentru a putea fi folosit corespunzător.
Pentru remedierea acestuia, plugin-ul trebuie compilat din surse.
1. Se indică versiunile curente ale bibliotecilor Hadoop existente în versiunea instalată pe mașina locală, în fișierele
~/hadoop2x-eclipse-plugin/ivy/libraries.properties
~/hadoop2x-eclipse-plugin/src/ivy/libraries.properties
Specificarea unor valori incorecte pentru aceste proprietăți va conduce la eșuarea procesului de obținere a unui plugin pe baza versiunilor curente de Eclipse și Hadoop instalate pe mașina locală.
2. Se precizează căile către versiunile de Hadoop / Eclipse existente pe mașina pe care se dorește folosirea acestuia.
aipi2014@ubuntu:~/hadoop2x-eclipse-plugin$ cd src/contrib/eclipse-plugin aipi2014@ubuntu:~/hadoop2x-eclipse-plugin/src/contrib/eclipse-plugin$ ant jar -Dversion=2.6.0 -Declipse.home=/opt/eclipse -Dhadoop.home=/usr/local/hadoop
Arhiva .jar
corespunzătoare plugin-ului obținut va fi plasată în ~/hadoop2x-eclipse-plugin/build/contrib/eclipse-plugin
.
Se selectează Window
→ Open Perspective
→ Other…
și din cadrul listei de perspective disponibile se selectează opțiunea Map/Reduce.
În bara de perspective va apărea secțiunea Map/Reduce Locations
în care vor trebui configurați anumiți parametrii legați de localizarea framework-ului Hadoop, prin:
Definirea unei locații Hadoop presupune:
DFS Master
): localhost:9000
;Map/Reduce(V2) Master
): localhost:50020
;
Astfel, în secțiunea Project Explorer va fi disponibil un navigator pentru sistemul de fișiere HDFS (DFS Locations) care oferă posibilitatea interacțiunii cu sistemul de fișiere local prin operații de tip încărcare / descărcare de diferite resurse.
Configurarea unui proiect Map/Reduce se face prin New
→ Project
→ Map/Reduce
→ Map/Reduce Project
, specificându-se și locația unde a fost instalat framework-ul Hadoop pe discul local (Use Default Hadoop
→ Configure Hadoop install directory…
)
Ulterior, clasele specifice acestui tip de aplicaţii (clasa principală, respectiv clasele Mapper şi Reducer) se vor genera automat (New
→ Other
→ Map/Reduce
de unde se selectează tipurile de clasă respective: MapReduce Driver
, Mapper
şi Reducer
), utilizatorul completând numai conţinutul metodelor responsabile cu sarcinile executate pe fiecare cluster în parte şi cu prelucrarea rezultatelor finale pe baza informaţiilor provenite de la proces care a rulat o anumită parte a sarcinii.
De asemenea, pentru clasele de tip Mapper
/ Reducer
, vor trebui specificate tipul de intrare şi tipul de ieşire prin indicarea clasei de bază parametrizate pe care o vor moșteni.
Întrucât se doreşte ca rezultatele procesărilor distribuite să fie afişate în cadrul consolei Eclipse, se va crea un fişier log4j.properties
care va fi plasat în subdirectorul bin
al proiectului respectiv:
log4j.rootLogger=INFO,console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{2}: %m%n
Rularea proiectului va trebui realizată în contexul Hadoop, astfel încât să fie invocate procesele care sunt responsabile cu distribuirea sarcinii, respectiv cu preluarea rezultatelor obţinute în urma prelucrărilor pe diferite sarcini. Astfel, din meniul contextual al proiectului va trebui să se specifice Run As
→ Run On Hadoop
.
Pe măsură ce este rulată aplicaţia, în consolă vor fi afişate actualizările privind sarcinile de tip map şi sarcinile de tip reduce, exprimate procentual.
După ce aplicaţia a fost executată, vor fi afişate statistici referitoare la numărul de octeţi citiţi şi scrişi (din sistemul de fişiere local respectiv din sistemul de fişiere distribuit HDFS), numărul de operaţii de citire şi scriere (cu evidenţierea celor care au durat mai mult timp) ca şi numărul de înregistrări procesate în cadrul sarcinilor de tip map şi de tip reduce.