lunes, 10 de junio de 2013

HDInsight: Afinando y ajustando tuercas en la nueva versión. El BIGDATA de mis Twitts!

image

Muy buenas,

Antes de nada gracias a todos aquellos a los que os gustan mis posts  y que esperáis que siga con ellos. Sinceramente, esto me anima a continuar y seguir al pie del cañón. En segundo lugar, perdonad por la espera, pero, hay veces que las situaciones personales/profesionales requieren una dedicación mayor de la habitual. ¡¡¡ Gracias a todos por la paciencia y los ánimos !!!

¡Ahora al turrón!. !Recordad que estuvimos viendo el funcionamiento de algunos componentes de Hadoop (HDInsight):

  • Hadoop
  • HiveQL
  • Hive desde Excel, Power Pivot y Power View
  • Sqoop I
  • Sqoop II
  • Mahout

     

    Durante esta semana he retomado el tema y he estado siguiendo algunos ejemplos para ver donde continuar sacando partido a BIGDATA. La nueva versión (0.9 en Azure) que incluye todo esto, y la inclusión de HDInsight en el portal de Azure, hay que probarla. Pues bien:

    1) En el portal de Windows Azure, ya tenemos la opción integrada:

    image

    2) La configuración del driver de ODBC y configuración con el Storage de Azure han desaparecido y ahora son trasparentes y “Out of the box”.

    3) El AddIn de Excel para Hive, también es diferente. Hemos perdido el Ribbon, y el acceso pasa a realizarse siguiendo estos pasos:

    4) Configuramos el ODBC con siempre, esto no ha cambiado. A excepción de que el dominio para HDInsight si, ahora es “.azurehdinsight.net”:

    image

    5) Desde Excel:

    imageimageimage

    Nota: Aquí podemos ver el detalle completo de la configuración.

     

    Con estos cambios presentes, ya podemos continuar trabajando.

    Como en ocasiones anteriores, volveré a partir de un ejemplo, en este caso de este, donde podemos ver como capturar información e Twitter y explotarla hasta límites impensables dentro del mundo profesional y concretamente en campañas de marketing, entre otros.

     

    Recordemos también que un fichero puede subirse a HDFS además del “Copy & Paste” como se muestra en el ejemplo, de esta otra manera:

    image

    Tras la ejecución del ejemplo, tendremos una tabla en Hive (“twitter_temp”) con todos los campos de Twitter para el usuario indicado, “juanluelguerre”, en mi caso, y con una muestra de datos equivalente al tiempo que hayamos dejado a “Curl” obteniendo información según este código:

       1: curl -d @twitter_parameters.txt -k https://stream.twitter.com/1/statuses/filter.json -u user:{password} >>twitter_stream_seq2.txt

     


    Una vez completados todos estos pasos sólo necesitamos explotar los datos en PowerView y obtener información similar a la siguiente, donde podemos ver la procedencia de algunos de mis seguidores por “Time Zone” y “User Location”:


    image


    Hasta aquí un pequeño repaso sobre hasta donde llegar con HDInsight.



    Algunas notas interesantes:



    • HDFS se apoya 100% en Azure BLOBS Storage. A este respecto aunque existen ventajas, también es cierto que pueden ocurrir penalizaciones/retardos en algunos casos, por lo que tendremos que tener esto presente en todo momento. Mas detalle aquí.
    • Ahora .NET, ya no es un wrapper de Java, hasta donde he podido averiguar. Sin embargo, si la implementación de un Map/Reduce es muy compleja, la recomendación sigue siendo hacer uso de JAVA !!
    • Cuando hablamos de HDInsight, debemos saber que existe una compañía como es Hortonworks junto con Microsoft se está encargando de conseguir lo mejor de esta plataforma (HDInsight).
    • La versión OnPremise de HDInsight es menor que la de Windows Azure, pero en breve ambas estarán a la par, es decir, la versión 1.0, donde podremos ver grandes mejoras, ¡Veremos que nos deparan las mismas!

    Gracias a todos nuevamente !!!


    Saludos @Home
    Juanlu, ElGuerre


  • Etiquetas: ,


    This page is powered by Blogger. Isn't yours?