martes, 27 de mayo de 2008

Infogestión

Revista de infonomía: la información en las organizaciones

Mensaje 582 (06/04/01)

Extraer conocimiento del caos de datos y textos

Por Alfons Cornella, Infonomia.com
http://www.infonomia.com
Tiempo estimado de lectura: 4 minutos (cuatro ideas rápidas, y una propuesta de encuesta relevante).

Los datos son el resultado de la medición de magnitudes observables (la temperatura es hoy de 10 grados). Los datos se estructuran en un contexto generando información (¿10 grados en abril, si estoy sudando?). El conocimiento es información validada con la experiencia previa que nos permite ejecutar una acción (el termómetro debe estar estropeado). Hay tantas definiciones de estos conceptos como libros sobre la "sociedad de la información" (infinitos). No importa. Lo importante es lo que viene: hay que aprender a extraer científicamente conocimiento de las masivas cantidades de datos ("minería de datos"), y de textos ("minería de textos"), que utilizamos en nuestras actividades profesionales.

Pongamos el tema en contexto. La hecatombe.com es una banalidad coyuntural. Lo que viene va a ser mucho más interesante. Entre los temas importantes para el futuro digital más cercano, hay algunos que creo que van a destacar:

1) Las nuevas formas de reconocer al usuario, más a través de sus características físicas (biológicas: la forma de su cara, sus huellas digitales, como teclea en un ordenador, etc) que por la memorización de "palabras de paso". Porque este tema es fundamental para cualquiera que quiera estar al día sobre la seguridad en el comercio que viene, hemos elaborado el Informe "Sistemas Biométricos", disponible en http://www.infonomia.com/informes/informe4.asp

2) Las nuevas formas de pago, más allá de la "temida" tarjeta de crédito (hay una verdadera paranoia con respecto a poner tus datos en la Red). En este sentido, hay dos innovaciones que vienen con fuerza, el pago mediante un intermediario de credibilidad, como Qpass ( http://www.qpass.com), o el pago a través del correo electrónico, como Paypal ( http://www.paypal .com). Tengo la impresión (justificada...) de que de ambos oiremos hablar mucho en España (y en otros países) en los próximos meses.

3) El descubrimiento de conocimiento a partir de la "búsqueda de patrones" (pattern analysis) en los datos. La idea es analizar de manera informatizada grandes cantidades de datos para extraer algún patrón útil. A esta técnica se le llama "minería de datos" (data mining) cuando el énfasis está puesto en el tratamiento de los datos (el medio), o "descubrimiento de conocimiento" (knowledge discovery) cuando el énfasis está en la extracción de un patrón que permita ejecutar una acción (el fin). Sobre este tema hay algunos espacios muy interesantes, para ir aprendiendo, como el espacio Kdnuggets ("pepitas de oro en descubrimiento de conocimiento"), en http://www.kdnuggets.com/. También puedo recomendar un reciente número del Bulletin de la American Society of Information Science, dedicado al tema, disponible entero en http://www.asis.org/Bulletin/index.html. En concreto, hay dos artículos introductorios muy interesantes: "Systematic Knowledge Management and Knowledge Discovery", de Igor Jurisica http://www.asis.org/Bulletin/Oct-00/jurisica.html) y "Text Mining", de Elizabeth D. Liddy, a quien tuve el privilegio de conocer durante mis estudios en Syracuse ( http://www.asis.org/Bulletin/Oct-00/liddy.html).

4) La gestión del conocimiento, como conjunto de técnicas, procedimientos, procesos, políticas, etc, para identificar qué conocimiento necesitamos, descubrir dónde está el conocimiento en la organización, etc. Hablamos con cierta extensión del tema en un reciente mensaje http://www.infonomia.com/extranet/index.asp?idm=1&idrev=1&num=578). Y hablaremos mucho más en el futuro...


Nuestro interés por el tema de la "minería de datos", de la "extracción de conocimiento" (k-discovery), y de la gestión del conocimiento ya es conocido. Ahora queremos avanzar en el conocimiento sobre el estado de la cuestión en España, a través de una serie de encuestas que iremos realizando.

Para empezar, os invitamos a participar en una encuesta sobre tecnologías Data Warehousing en el mercado español. El estudio, dirigido por nuestra colaborada norteamericana Josephine Jagielo, intenta analizar el grado de integración de estas tecnologías emergentes en las empresas españolas, sin olvidar las posibles dudas y problemas derivados de su uso. La encuesta está disponible en http://www.infonomia.com/encuesta Los resultados de esta encuesta se recogerán en una base de datos y, posteriormente, se analizarán con herramientas de Minería de Datos (Data Mining), para intentar descubrir patrones de información que inicialmente podrían pasar desapercibidos. Los resultados de la encuesta se compartirán con los participantes del estudio, a los que garantizamos la confidencialidad de los datos que nos proporcionen (ver nuestra política de privacidad en http://www.infonomia.com/nosotros/privacidad.asp).

Gracias de antemano por vuestra participación.

Y es que el análisis de los datos resulta increíblemente interesante. Véase si no como The Economist analiza el estado de la "crisis" en la economía norteamericana a través del número de veces que la palabra "recession" va apareciendo en las páginas del New York Times y el Washington Post. Yo hablé de este índice hace algunos años, cuando se aplicaba a la economía inglesa. La utilidad del "término-R" es muy curiosa: parece seguir un comportamiento "especular" al de la producción industrial del país. Pero con la ventaja de que es accesible intantáneamente, meses antes de que los datos estadísticos estén disponibles... Véase lo que se dice al respecto en The Economist esta semana: http://www.economist.com/finance/displayStory.cfm?Story_ID=566293

El problema es si es justamente al hablar tanto de "crisis" que la misma prensa la está generando...