Commit e08a28ec authored by Gabriel Couture's avatar Gabriel Couture

Adding Hadoop

parent b6f4dae9
......@@ -9,3 +9,6 @@ Nous en laissons une trace ici pour que nous puissions rapidement retrouvé le n
Talend est une platforme qui se déploit sur un cluster de serveurs pour effectuer des opérations ETL. Talend se base sur la technologie Hadoop, qui est le coeur de Talend.
### Hadoop
Apache Hadoop est un projet pour effectuer des traitements informatiques ou stocker de larges ensembles de données sur un cluster de serveurs.
# Apache Hadoop
## Résumé
Apache Hadoop est un projet pour effectuer des traitements informatiques ou stocker de larges ensembles de données sur un cluster de serveurs.
## Description
Description du site web :
_The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures._
Il s'agit d'un outil très utilisé partout à travers le monde pour effectuer des opérations sur de grandes quantité de données. Son but est de :
- Stocker des données massives
- Faire des recherches rapides aux travers des données massives
Hadoop est fait en deux couches principales.
- __HDFS__ : Hadoop FileSystem. C'est un système de fichiers virtuels regroupant le stockage de plusieurs machines.
- __Hadoop MapReduce__ : un framework logiciel en Java permettant de développer des programmes exécutables de manière distribués grâce à l'utilisation de l'algorithme MapReduce développé par Google
Son fonctionnement peut être visualisé de la sorte :
![](imgs/structure_hadoop.png)
Source : https://stph.scenari-community.org/contribs/nos/Hadoop1/co/b_Qu_est_ce_que_c_est.html
Hadoop est un outil sans UI pouvant être manipulé de plusieurs languages, dont Python. Il a été développé en Java.
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment