Prototipos de cartografía y herramientas para la Causa Mendoza – Riachuelo-Matanza

Aqui lo que se hizo en hackathones y foros tecnologias de la informacion junto con afectados, expertos y funcionarios entre 2010 y 2011

Prototipos de trazabilidad de políticas públicas y territorios emergentes.

notas:

la cuenca resiste dos acciones criticas, que no nos llevan a ningún lado, o a un movimiento muy corto; el pedido de transparencia y el pedido de integridad, del estado o de la conciencia moral ecologica o social de la sociedad…
la cuenca no nos da mucho cuando reclamamos que se devele lo que «realmente» está pasando o al menos que se decidan a mostrarlo. lo mismo pasa cuando intentamos entender el terrible embrollo centenario mediante la indignación por la corrupción (el desgaste o la destrucción de algo supuestamente existente) de unos actores humanos suficientemente poderosos para hacer detener o no el curso de mil cosas mediante su voluntad.
tampoco podemos
transparencia para con una acciones «ocultas» de las que se sabe todo, pero que se intenta silenciar, integridad para un estado que debería poder «contarnos» lo que esta pasando. específicamente se le pide integridad a los órganos del estado para actuar en conjunto como un «cuerpo»
dos ideas guían estas críticas, una la de que hay algo oculto que debe ser develado, el manejo de la cosa pública, la información oculta… o la falta de pericia para recoger la información que está «allá afuera»; la otra la idea de que hay una homogeneidad dada entre las instituciones que regulan a las poblaciones, de que hay un espacio homogeneo que unifica de antemano a la cuenca y a las mismas instituciones.
Aqui lo que se hizo en hackathones y foros tecnologias de la informacion junto con afectados, expertos y funcionarios entre 2010 y 2011.
intro:
-lo que la corte pide (cita)
-lo que acumar entiende por sistema publico de informacion (cita) lista de las carpetas
-preguntas: cómo acercarse a la idea de sistema publico de informacion
-hipótesis y trabajos intermedios: hacer público lo publico (recolectar, integrar, , estructurar, conectar, re-publicar)
– haciendo públicos, y potencialmente editables los archivos kmz de acumar
– un principio de integracion y estructuracion (que nos muestra lo pobre del sistema de acumar, donde no hay vinculaciones ni trazabilidad)
-la hipótesis de la trazabilidad: ensamblar una cadena de datos (documentos, informacion) mediante la articulacion ordenada entre los mismos, vincular los datos que refieren a un suceso. cada punto en el mapa es una cadena de documentos relacionados, que vinculan unos datos con otros mediante sus referencias reciprocas o mediante su relación a un mandato público o consenso/disenso sobre su estado.
-la construcción de un banco de datos estructurado y publico
sistema de información o espacios de información?
 

1 – sistema de información pública según acumar: lista de carpetas de archivos KMZ y KML (para google earth):

sistema público según acumar: lista de carpetas de archivos KMZ y KML (para google earth): 

obtuvimos esta lista, que es el contenido de todos los mapas publicados por acumar en octubre-noviembre 2010

2- Ensayo de Mapa Colaborativo de la Cuenca Matanza-Riachuelo

Geolocalización y trazabilidad de políticas públicas – cuenca Matanza Riachuelo 
Dentro del marco de Hackaton de datos pú2blicos y Gobierno abierto organizado por GarageLab
equipo: Jose Orlicki, Eduardo Mercovich, Alberto Miguel Pose, Santiago Bazerque, Ignacio Perversi, Pio Torroja

objetivos: Poder extraer y moderar información geográfica en base a documentos oficiales estructurados, semi-estructurados o informales. Poder consolidar la información en una interfaz pública y editable. Poder visualizar intensidad del debate público en zonas geográficas mediante la colaboración de la ciudadanía vía redes sociales en línea y foros públicos de debate existentes. Esta proposición podría ser vista como un doble movimiento de localizar por un lado tanto obras públicas como documentos referidos a estas o a ciertas localidades, y por el otro convertir la representación geográfica de la cuenca en un mapa de información heterogénea hoy dispersa y sin dispositivos de visualización de conjunto.
Database: Hay un conjunto básico de documentos geográficos publicado por el organismo ACuMaR que se podrían usar como semilla para el mapa geográfico publico.
Impacto: 5 millones de habitantes afectados por las aguas o la cercanía a la Cuenca, aproximadamente el doble de personas que la capital federal.

3- Actores y Elementos de la Cuenca Matanza-Riachuelo

un primer paso para el linkeo de datos públicos (linked data) de la cuenca MR

Dentro del marco de Hackaton de datos pú2blicos y Gobierno abierto organizado por GarageLab
equipo: Jose Orlicki, Eduardo Mercovich, Alberto Miguel Pose, Santiago Bazerque, Ignacio Perversi, Pio Torroja
estructuracion e integracion

4- tabla integrada de documentos KMZ y KML acumar


proyecto modular para un sistema de información público de la cuenca

trazabilidad de politicas publicas
historia de actores
trazabilidad de actores

análisis y extracción de datos de la pagina web de Acumar, marzo 2010

introducción: 

extracción y minería elemental de datos disponibles relacionados a la Cuenca del Río Matanza y a su desembocadura conocida como Riachuelo. El objetivo fue la detección de actores, temas, acciones y propiedades involucradas en el conflicto, junto con las interrelaciones entre los mismo, las redes. Nos concentramos en la minería de los documentos digitales provistos por la recientemente conformada Autoridad de Cuenca Matanza-Riachuelo o ACUMAR (6). Es el principal ente oficial encargado de resolver los conflictos ambientales existentes en esta cuenca, publicar información sobre estudios y publicar resultados de políticas. Toda la recolección y procesamiento de datos fue de manera automática usando programas informáticos desarrollados ad hoc salvo excepciones en las cuales se agregaron datos o filtros de forma manual y puntual.

Usando un buscador web comercial, herramienta paradigmática de la información libre, se recolectaron en total 725 documentos públicos del sitio oficial de ACUMAR. De cuales 427 estaban publicados en formato abierto HTML, 293 en formato comercial PDF, y finalmente 5 documentos publicados en un formato comercial Office. El formato HTML, al ser un estándar abierto, fue el más facilmente procesable durante el rastrillaje automático. Un solo documento HTML no contenía texto plano. En cambio solamente de 74 de los documentos en formato PDF se pudo extraer texto plano de manera automática, usando una herramienta de uso libre llamada pdftotext.
Detallemos el proceso que se realizó con el cuerpo o corpus de documentos disponible para la extracción de elementos o nodos destacados dentro de los documentos. Como detallamos en el párrafo anterior, los documentos fueron llevados a texto plano en un proceso de normalización. Luego se aplicaron algoritmos, es decir programas automáticos, para la detección de nombres propios que identifiquen a los Actores.
Se logró una primera aproximación a la extracción automática de relaciones entre elementos de un corpus textual de un sitio web de información pública gubernamental. Las herramientas desarrolladas lograron suficiente flexibilidad para ser adaptadas a otros sitios con información pública o a cualquier búsqueda en laweb. Las categorías predefinidas que se diferenciaron fueron: actores, acciones, propiedades y temas. Los resultados y herramientas del proyecto están disponibles en Internet de manera abierta… leer mas.

herramientas y resultados:

1- Corpus de la web Acumar marzo 2010

2- Listas de entidades extraidas

se aplicaron algoritmos, es decir programas automáticos, para la detección de nombres propios que identifiquen a los Actores. Se decidió detectar nombre propios de forma aproximada usando la aparición de mayúsculas como evidencia. De manera similar para las Propiedades involucradas fueron detectadas gracias a una lista predefinida de adjetivosespañoles. Las Acciones fueron detectadas usando una lista predefinida de verbos españoles. Finalmente luego de filtrar palabras sin contenido semántico en el lenguaje español se clasificaron las palabras sobrantes, presumiblemente sustantivos, como Temas dentro del corpus.

lista de actores – lista larga

3- lista de coocurrencias

Elegimos relacionar de manera binaria, es decir de a pares, los elementos usando el concepto de coocurrencias dentro de algún entorno textual. En nuestro caso medimos la cantidad de coocurrencias consecutivas para nodos dentro de una misma oración. Por ejemplo si dentro del texto aparece la frase «el Ingeniero Perez pertenece al Ministerio Ejemplo» entonces se contabiliza una coocurrencia para «Ingeniero Perez» y «Ministerio Ejemplo». A partir de ahí para armar la red compleja se elije una cota inferior para el número de coocurrencias que son necesarias para la existencia de un vínculo entre cada par de nodos. Por ejemplo para una cota inferior de 20 se obtiene una red con 5904 actores, 401 acciones, 265 propiedades y 11728 temas, conectados por 3359 relaciones binarias. No se incluyó el Plan Integral de Saneamiento y los Anexos. ver la lista corta

mapas semánticos

Red compleja de relaciones semánticas en la pagina de ACUMAR
Red compleja de relaciones binarias usando el concepto de coocurrencias dentro de algún entorno textual. se midieron la cantidad de coocurrencias consecutivas para nodos dentro de una misma oración. Para armar la red compleja se elije una cota inferior para el número de coocurrencias que son necesarias para la existencia de un vínculo entre cada par de nodos.

    

Nubes de etiquetas del corpus ACUMAR

Visualizaciones de nubes de etiquetas o tag clouds para las distintas categorías de nodos o todas las categorías simultaneamente. El tamaño es proporcional a la cantidad de ocurrencias de los nodos en el corpus completo.http://www.wordle.net/show/wrdl/1996740/actores_acumar