miércoles, 17 de octubre de 2012
Windows Azure Hadoop. Understanding, Diving & Solving issues III (Consumiendo Hive desde Excel, Power Pivot y Power View)
Muy buenas,
Continuado con Hadoop on Windows Azure y tras los dos post anteriores: “Understanding, Diving And Solving issues” y “Understanding, Diving and Solving Issues II (HiveQL)”, seguiremos con el ejemplo a partir de la Tabla “iislog” creada en HiveQL.
Una vez creada y cargada la tabla con la información del fichero de texto almacenado previamente, veremos como podemos tratar la información desde Excel, Power Pivot y/o Power View, donde para ello seguiremos los siguientes pasos:
1) Habilitamos la comunicación desde Hadoop para poder conectarnos vía ODBC desde Excel.
2)Descargamos el “.msi” de instalación del ODBC desde el portal de hadoop y lo instalamos.
3) Configuramos la conexión del ODBC de Hive con Hadoop.
4) Abrimos Excel 2010 o 2013 Preview y revisamos que nuestro nuevo Add-In se encuentra habilitado al igual que el de Power View. Para el caso de Excel 2010, descargaremos “Power Pivot” desde aquí. Para 2013 Preview, no es necesario, bastará simplemente con habilitarlo.
5) Accedemos al menú DATA y, concretamente, al ribbon “Hive Pane” el cual nos mostrará el Tool Box “Hive Query” y donde seleccionaremos la conexión creada en el paso 3.
6) Seleccionamos la tabla “iislog”
7) Navegamos a POWER PIVOT - “Manage” y a continuación elegimos “Existing Connections…”
7.a) En este punto obtendremos un error del tipo, “SQL_ERROR Query preparation failed. Username/password is invalid: <jlguerrero>/<>”. Donde por algún motivo el passord no se incluye en la conexión ni tampoco hay posibilidad para ello.
7.b) Optamos por “From Other Sources… – Others (OLEDB\ODBC)” e introducimos el siguiente “Connection String”:
“Provider=MSDASQL.1;Dsn=My First Hadoop;uid=jlguerrero;password=xxxxxx”
8) Seguimos los pasos de Wizard y en esta ocasión todo es correcto. ¡Esperemos que se trate de bug del Hive para Excel o incluso de Office 2013 Preview, como es mi caso!
8) A partir de aquí, Power Pivot hará el resto del trabajo. Para obtener el siguiente gráfico, en poco más de 1minuto, echemos un vistazo a este vídeo.
Aunque la información con la que hemos estado trabajando en el ejemplo, no es “mucha”, ni “grande”, es suficiente a modo de ejemplo para demostrar como trabajar con Hive. Si extrapolamos todo este proceso para un conjunto mayor de información, para información de los más variopinta y de distintos repositorios/fuentes y las juntamos todas en Hive, estaremos visualizando hasta donde puede llegar Hadoop.
Power Pivot, también permite la conexión directa con SQL Azure y otras muchas fuentes, así que con Hive lo haremos sólo cuando sea realmente necesario. ¡No todo tiene que ser ahora Hadoop!
Os dejo también un enlace bastante interesante relacionado con el tema: Processing Azure Storage analytics logs with Hadoop on Azure.
Saludos y nos vemos en el siguiente capitulo de Hadoop
Juanlu, ElGuerre
Etiquetas: Hadoop, Hive, Windows Azure