Juanlu, elGuerre: 9/6/13

lunes, 10 de junio de 2013

HDInsight: Afinando y ajustando tuercas en la nueva versión. El BIGDATA de mis Twitts!

Muy buenas,

Antes de nada gracias a todos aquellos a los que os gustan mis posts y que esperáis que siga con ellos. Sinceramente, esto me anima a continuar y seguir al pie del cañón. En segundo lugar, perdonad por la espera, pero, hay veces que las situaciones personales/profesionales requieren una dedicación mayor de la habitual. ¡¡¡ Gracias a todos por la paciencia y los ánimos !!!

¡Ahora al turrón!. !Recordad que estuvimos viendo el funcionamiento de algunos componentes de Hadoop (HDInsight):

Hadoop

HiveQL

Hive desde Excel, Power Pivot y Power View

Sqoop I

Sqoop II

Mahout

Durante esta semana he retomado el tema y he estado siguiendo algunos ejemplos para ver donde continuar sacando partido a BIGDATA. La nueva versión (0.9 en Azure) que incluye todo esto, y la inclusión de HDInsight en el portal de Azure, hay que probarla. Pues bien:

1) En el portal de Windows Azure, ya tenemos la opción integrada:

2) La configuración del driver de ODBC y configuración con el Storage de Azure han desaparecido y ahora son trasparentes y “Out of the box”.

3) El AddIn de Excel para Hive, también es diferente. Hemos perdido el Ribbon, y el acceso pasa a realizarse siguiendo estos pasos:

4) Configuramos el ODBC con siempre, esto no ha cambiado. A excepción de que el dominio para HDInsight si, ahora es “.azurehdinsight.net”:

5) Desde Excel:

Nota: Aquí podemos ver el detalle completo de la configuración.

Con estos cambios presentes, ya podemos continuar trabajando.

Como en ocasiones anteriores, volveré a partir de un ejemplo, en este caso de este, donde podemos ver como capturar información e Twitter y explotarla hasta límites impensables dentro del mundo profesional y concretamente en campañas de marketing, entre otros.

Recordemos también que un fichero puede subirse a HDFS además del “Copy & Paste” como se muestra en el ejemplo, de esta otra manera:

Tras la ejecución del ejemplo, tendremos una tabla en Hive (“twitter_temp”) con todos los campos de Twitter para el usuario indicado, “juanluelguerre”, en mi caso, y con una muestra de datos equivalente al tiempo que hayamos dejado a “Curl” obteniendo información según este código:

   1: curl -d @twitter_parameters.txt -k https://stream.twitter.com/1/statuses/filter.json -u user:{password} >>twitter_stream_seq2.txt

Una vez completados todos estos pasos sólo necesitamos explotar los datos en PowerView y obtener información similar a la siguiente, donde podemos ver la procedencia de algunos de mis seguidores por “Time Zone” y “User Location”:

Hasta aquí un pequeño repaso sobre hasta donde llegar con HDInsight.

Algunas notas interesantes:

HDFS se apoya 100% en Azure BLOBS Storage. A este respecto aunque existen ventajas, también es cierto que pueden ocurrir penalizaciones/retardos en algunos casos, por lo que tendremos que tener esto presente en todo momento. Mas detalle aquí.
Ahora .NET, ya no es un wrapper de Java, hasta donde he podido averiguar. Sin embargo, si la implementación de un Map/Reduce es muy compleja, la recomendación sigue siendo hacer uso de JAVA !!
Cuando hablamos de HDInsight, debemos saber que existe una compañía como es Hortonworks junto con Microsoft se está encargando de conseguir lo mejor de esta plataforma (HDInsight).
La versión OnPremise de HDInsight es menor que la de Windows Azure, pero en breve ambas estarán a la par, es decir, la versión 1.0, donde podremos ver grandes mejoras, ¡Veremos que nos deparan las mismas!

Gracias a todos nuevamente !!!

Saludos @Home
Juanlu, ElGuerre

Etiquetas: Hadoop, HDInsight

# posted by Unknown : 22:26 0 comments

Juanlu, elGuerre

lunes, 10 de junio de 2013

HDInsight: Afinando y ajustando tuercas en la nueva versión. El BIGDATA de mis Twitts!

Datos personales

Links

Archives