Estudiantes de pre y postgrado profundizan conocimientos sobre análisis y programación de datos
Cursos Básicos de “R” y “Big data” se realizaron en dos jornadas de trabajo práctico
El Instituto de Biología (PUCV) realizó estas actividades los días 29 de julio y 1 de agosto, las cuales convocaron a estudiantes de distintas universidades para profundizar en programación y análisis de datos. La persona a cargo de compartir sus conocimientos al respecto fue el profesor Mauricio Fernández, candidato a doctor en genómica y ex alumno de nuestro Instituto. A raíz de sus experiencias personales, el profesor Fernández ideó esta instancia con el fin de ayudar a mejorar el aprendizaje de lo que, a su juicio, son herramientas fundamentales que todo científico debiera saber manejar. “Pasa en general, por lo menos cuando uno está en un Doctorado, que tu trabajo y aprendizaje es en gran medida autónomo, donde cosas muy simples, como lo que he mostrado en esta oportunidad, pueden llegar a tardar semanas en ser aprendidas”, comenta Mauricio.
El primer curso realizado fue “Básico R”, que introdujo a los asistentes en el uso de la herramienta “R”, un programa de análisis estadístico y de modelamiento de datos, fuertemente utilizado en ciencias. No obstante, señala Mauricio, hay cierta reticencia en utilizarlo, ya que “es un programa que requiere tener nociones de programación y estadística lo cual lo hace complejo de aprender en un principio”. Es por esta razón que decidió empezar abordando conceptos y contenidos fundamentales de estadística. “Fuimos, agrega, desde estadística básica a la esencia de la programación en ‘R’. Les enseñé de forma muy básica cómo utilizar el programa, con pequeños códigos de programación, para luego hacer algo más sofisticado; utilizando librerías, que son programas dentro de R para uso en casos específicos de análisis”.
El “Curso Básico R” tuvo por objeto construir, además, una base para el uso del programa, con sus principales características, dando énfasis a conceptos básicos, tanto del software como de la estadística que le subyace. Finalmente, y acompañado de un ejemplo de uso práctico en el área de la biológica, “les mostré varios comandos muy potentes de uso en la terminal, cosas que son muy introductorias, fundamentales, pero extremadamente útiles, porque así es como uno parte y es en esto donde mi ayuda es relevante, sin una buena base en estadística básica ni conocimiento de R se dificulta mucho avanzar en el aprendizaje y realizar análisis más complejos a futuro”
Asimismo, el segundo curso ofrecido fue “Big data”, que tiene como principal propósito entregar contenidos que permitan analizar datos biológicos masivos. En este sentido, y según lo afirma el relator, “estamos en la era del big data, donde programar permite no limitarse a lo que pueda llegar a hacer un software pagado, por ejemplo, ciertos softwares ampliamente utilizados no tienen la capacidad suficiente para cargar bases de datos de grandes dimensiones ¿Entonces qué haces en ese caso? La idea de aprender a programar es que puedes crear tu propio software, que haga lo que tú necesitas sin límites a los tamaños de archivos y mejor aún, lo haces gratis”.
Todo lo anterior explica el amplio interés que despertó esta convocatoria. Cuando el Instituto de Biología comunicó la noticia de que se realizaría esta actividad, los cupos se agotaron rápidamente. Hubo interesados de diversas carreras y universidades. Entre ellos, una estudiante de pregrado de Ingeniería agronómica de la Pontificia Universidad Católica de Chile, Daniela Bertens, llegó motivada para estar presente en ambos días porque le parece que son herramientas muy importantes de aprender y que cada vez se están haciendo más necesarias: “como que a veces faltan oportunidades para iniciarse y siento que esta fue una gran oportunidad”. Agrega que esta era una inquietud que tenía hace tiempo, “ya que hay muchos profesores que no se dan el tiempo para enseñar y asumen que uno tiene el conocimiento. Me ha gustado mucho cómo el profesor ha ido abordando los conceptos básicos que hay detrás de los programas, con el espacio para entender y seguir desarrollando las habilidades”.
Para otro participante, John Manríquez, estudiante de pregrado y tesista del Instituto de Química de la PUCV, esta actividad fue una muy buena experiencia: “el profesor demuestra conocimiento de lo que expone y en cada curso se nos enseñó una aplicación con datos reales de análisis de otros investigadores. No dudé en inscribirme. Si lanzan más programas como estos, seré el primero en anotarme. Fue una buena iniciativa”.
Sobre la importancia del conocimiento y aplicación de estas herramientas de programación, Mauricio Fernández afirma que, en genómica, por ejemplo, no se puede dejar de lado el programa “R”, “independientemente de lo que hagas, siempre va a estar ahí, y en general en biología ‘R’ será prontamente el programa de cabecera y si no es R será “python”, un lenguaje de programación que cada día expande más su uso a las ciencias biológicas. Agrega que, actualmente, tener nivel básico de programación, en el currículum, es una gran ventaja competitiva, sobre todo en Ciencias”.
Y continúa su comentario sobre este mismo punto diciendo que “si bien es muy necesario, hay poca gente que se atreve a iniciarse en su uso, pero vamos en camino hacia el momento en que sean competencias que un científico deba tener necesariamente, porque puedes estar en un laboratorio sin saber programar y vas a necesitar que alguien te haga un análisis en particular y específico para tus datos. Puedes pagar a un bioinformático, pero este especialista no está en el laboratorio, no sabe de las vicisitudes, las dificultades y ni siquiera conoce el contexto y objetivo de la investigación, sólo ve datos. Entonces la probabilidad de que el bioinformático haga algo que no tiene nada que ver con tu investigación; es alta. Por eso es importante tener al menos nociones de programación para comunicarse eficientemente con el bioinformático”.
Por su parte, la estudiante Daniela Bertens concluye que “en todas las carreras científicas, principalmente, y en las humanistas también, se debieran tener estos conocimientos de manejo de datos porque al final son herramientas multidisciplinarias que nos pueden ayudar a facilitar todos los trabajos”.
John Manríquez coincide con ambas opiniones y señala: “son herramientas imprescindibles para todo científico que pueda verse enfrentado al empleo de este tipo de programas o que deba manejar grandes cantidades de datos para sus análisis”.
Es primera vez que Mauricio Fernández realiza estos cursos en la que fue su casa de estudios durante el proceso de pregrado en biología, y confiesa sentirse muy agradecido de la Universidad por: facilitar el espacio y el tiempo, dos factores muy necesarios para que esta constructiva experiencia se lograra desarrollar con éxito.