El periodismo ya no es lo que era; y la informática, tampoco

Es una de las reflexiones a las que puede llevarnos la lectura de un reciente artículo -“Computational Journalism“- de la revista Comunications, publicación de referencia en el gremio, editada por la ACM (Association for Computer Machinery). A pesar de que su subtítulo -“How computer scientists can empower journalists, democracy’s watchdogs, in the production of news in the public interest“- nos adelante su enfoque superficial, tecno-optimista y un tanto ingenuo, no he podido evitar recorrerlo con interés para traer aquí algunas de sus observaciones e hilar unos pocos argumentos para el debate con un tono distinto del que he adoptado en otros foros.

El concepto que le da título y que podríamos traducir como “periodismo informático” es ambicioso y pretende recoger todos los esfuerzos para sistematizar, estructurar y facilitar “los procesos que relacionan las comunidades y grupos sociales con la información que las condiciona y que generan“, aunque los autores van más allá, afirmando que una definición amplia “puede incluir cambiar la forma en que la historias se descubren, se presentan, se agregan, se monetizan y se archivan“.

A symposium on computation + journalism

Los autores -a partir de las conclusiones obtenidas en un taller de una semana que organizaba en 2009 el Centro de Estudios Avanzados en Ciencias del Comportamiento de Stanford y que se publicaban bajo el título de “Accountability Through Algorithm: Developing the Field of Computational Journalism. Report from Developing the Field of Computational Journalism“-, identifican cinco áreas, cuyo desarrollo definirá este nuevo periodismo:

La combinación de información de diversas fuentes digitales. El número y diversidad de fuentes de información y datos a que se enfrenta cualquier reportero es creciente; y la gestión de las mismas crece en complejidad impactando en la eficiencia de cualquier proceso de documentación. Hoy, mientras las herramientas para la automatización de tales procesos no acaban de consolidarse, sí parece que la generalización de fenómenos como el de ‘crowdsourcing’ y el de filtraje cooperativo de contenidos (‘content curation’) ayuda a paliar en cierto sentido la situación.

La extracción de información. La Extracción de Información se asocia desde el punto de vista de los ingenieros con el área de Procesamiento del Lenguaje Natural (NLP, Natural Language Processing) cuyo objetivo es “extraer automáticamente conocimiento estructurado, habitualmente dependiente del contexto, a partir de información existente en texto no estructurado en lenguaje natural, con el fin de mejorar su explotación y reutilización”. En ese proceso, lo primero que se debe hacer es el reconocimiento de entidades con nombre (en inglés Named Entity Recognition, NER), también conocido como identificación de entidades o extracción de entidades, que consiste en la detección y clasificación de los elementos del texto en categorías predefinidas (p.ej. nombres de personas, empresas, lugares, expresiones numéricas, temporales, etc.), o lo que hoy solemos denominar etiquetado semántico. Hay herramientas disponibles en la Red que facilitan esa labor, como STILUS NER u Open Calais.

La exploración documental y el estudio de la redundancia. Aquí se juntan dos problemas: encontrar la información realmente relevante y el minado de grandes acumulaciones de información documental; es decir que se trata de un área donde convergen desde los problemas de agregación de información (p.ej. fuentes RSS que se repiten reiteradamente), hasta la agrupación selectiva de grandes cantidades de documentos, pasando por la extracción de información o documentos relevantes.

La indexación de los contenidos audiovisuales. Es evidente que la inmensa mayoría de los contenidos que encontramos online se encuentran en formato de audio o vídeo; además de que es habitual que los reporteros acumulen una gran cantidad de estos contenidos procedentes, por ejemplo, de entrevistas o, si tenemos en cuenta la realidad del fenómeno del periodismo ciudadano, piezas audiovisuales captadas sobre el terreno que recogen sucesos e información documental cuya gestión y recuperación suponen todavía un desafío para el estado del arte de las tecnologías a disposición de la ciudadanía: pensemos en las herramientas, muy limitadas, para el reconocimiento vocal (p.ej. Dragon) o facial en la Red (p.ej. Pittpatt).

El minado de datos a partir de informes y formularios oficiales/gubernamentales. Este área es la menos evidente y desarrollada técnicamente; estamos hablando de el grueso de documentación que los reporteros siguen recopilando en papel y/o redactadas a mano y que exigen un trabajo de digitalización y estructuración que permita su representación mediante registros en una base de datos cuya gestión sí podamos automatizar para proceder a su posterior minado y explotación.

Esos espacios de oportunidad -mejor estructurados y sintetizados en el artículo de Diakopoulos desde mi punto de vista- son el terreno abonado donde florecen ya numerosas iniciativas, algunas de las cuales se repasan en al artículo: Jigsaw, del Georgia Tech, CMU Sphinx, DocumentCloud, a iniciativa del New York Times y ProPublica, Talking Points Memo, “Investigate your own MP’s expenses“, de The Guardian o Public Insight Network, de American Public Media.

A Functional Roadmap for Innovation in Computational Journalism

Aparte de desempolvar algunas de mis notas desordenadas sobre la problemática asociada a la extracción de información multimedia, conceptos básicos y temas anejos, el artículo me ha hecho pensar en el impacto de nuestras tecnologías en la existencia cotidiana de nuestra sociedad de la información y en la necesaria reflexión acerca de cómo sacamos partido al conocimiento que seguimos desarrollando en estos ámbitos; y cómo formamos a los profesionales que van a constituirse en el instrumento transformador que apalanque aquellas oportunidades.

No es difícil que encontremos programas formativos interdisciplinares -de grado y/o postgrado- bajo la denominación genérica que daba título al artículo de marras… sobre todo en EE.UU. De hecho, en el texto señalan algunos de ellos, ofrecidos tanto desde escuelas de periodismo -es el caso de Columbia University Graduate School of Journalism o Northwestern University’s Medill School of Journalism como desde instituciones del ámbito de la ingeniería -como en el caso del Georgia Institute of Technology, donde se sitúa, en 2006, el origen del periodismo informático.

No tardaremos en ver cómo ese tipo de iniciativas maduran también en nuestro país; pero la reflexión, desde mi punto de vista, debe ser más profunda ¿Tiene sentido seguir impulsando la especialización masiva desde nuestra técnica, creando una ingeniería (informática) biomédica, una industrial u otra periodística? El rol de nuestra universidad debería basarse en la realidad de un escenario social y tecnológico nuevo, en el que ya no podemos plantearnos buscar el “universalismo” fundacional de esta institución en un cientifismo desmedido como antaño o en la supuesta legitimidad heredada que parece justificarnos hoy, sino en la cotidianeidad de unas infotecnologías que hace necesario el desarrollo de una “tecnocultura” compleja e integradora, además de precisar unos profesionales “híbridos” cuya formación exige ir más allá de la simple multidisciplinariedad, cultivando un espacio inter y transdisciplinar.

La otra reflexión fundamental que no puedo evitar es la que confronta al algoritmo y al periodista, a la herramienta y al profesional, a la máquina y el humano en un escenario de coevolución. Si lo pensamos, la disponibilidad de tecnología que nos ayuda a lidiar con mayores cantidades de información, más diversa, más fugaz, más visual, etc. ha cambiado y, de hecho, está cambiando ahora mismo la forma en que contamos las historias, como las construimos y cómo las compartimos… cómo hacemos periodismo; de la misma manera en que esos patrones de información y comunicación exigen nuevas herramientas, innovaciones y tecnologías.

En definitiva, tal y como decía en el título, “el periodismo ya no es lo que era; y la informática, tampoco”; y espero que estas breves líneas ayuden al lector a entender por qué, además de animarle a participar de manera activa en la explotación de alguna de las oportunidades que dibujaban los autores del artículo que motivaba la redacción de esta entrada. Por otro lado, si el lector quiere seguir leyendo sobre este tema, puede acudir a alguna de las referencias recopiladas por Jonathan Stray en su sitio web.

Twitter Digg Delicious Stumbleupon Technorati Facebook Email

No hay comentarios aún... ¡Se el primero en dejar una respuesta!

Dejar un Comentario