Una mirada sobre la complejidad técnica en la moderación de contenidos

Desde hace varios días se reavivó la polémica para un proyecto de ley que intenta - entre otras cosas - moderar los comentarios y contenidos subidos por usuarios a sitios de internet.
Los medios de comunicación digitales fueron migrando en los últimos años a plataformas donde la interacción entre el medio y los usuarios toma un papel preponderante. El ida y vuelta hace que un medio cobre vida y se enriquezca.

Antes de proseguir voy a compartir un extracto de el proyecto de ley en cuestión:

ARTICULO 21°: PROMOCIÓN DE LA NO DISCRIMINACIÓN EN INTERNET. Los administradores de sitios de internet que dispongan de plataformas que admitan contenidos y/o comentarios subidos por los usuarios están obligados a: a) publicar términos y condiciones que contengan la información del Anexo II de esta ley, con el objeto de informar sobre el carácter discriminatorio de un contenido y la legislación vigente al respecto; b) disponer y hacer pública una vía de comunicación para que los usuarios denuncien y/o soliciten la remoción del material que se encuentre en infracción a esta ley. Los medios de prensa, agencia de noticias, diarios online y revistas electrónicas que cuenten con plataformas que admitan contenidos generados por los usuarios deben, además de las obligaciones previstas precedentemente, disponer de la información prevista en el inciso a) de este artículo a través de la activación automática de una ventana cuyos términos deben ser aceptados por el usuario antes de acceder a realizar el comentario o subir cualquier contenido, y adoptar las medidas necesarias para evitar la difusión de contenidos discriminatorios.

ARTICULO 23°.- Será reprimido con prisión de UN (1) mes a TRES (3) años quien: a) por cualquier medio alentare o incitare a la persecución, el odio, la violencia o la discriminación contra una persona o grupo de personas por los motivos enunciados en el artículo anterior; b) en forma pública u oculta, formare parte de una organización o realizare propaganda, basados en ideas o teorías de superioridad o inferioridad de un grupo de personas, que tengan por objeto la justificación o promoción de la discriminación por los motivos enunciados en el artículo anterior; c) en forma pública u oculta, financiare o prestare cualquier otra forma de asistencia a las organizaciones y actividades mencionadas en los incisos a) y b).

En la web de la cámara de diputados no encontré el texto tratado (Tal vez aparezca en los proximos días)
Acá el proyecto de ley original (del 2014) que disparó todo
Acá el texto consolidado, que publica la página web vialibre, tratado en la cámara de diputados el 14/07/2015
Un análisis amplio de la ley propuesta

El problema fundamental que despierta las alarmas es "adoptar las medidas necesarias para evitar la difusión de contenidos discriminatorios". Cuales medidas son las necesarias? Como evitar caer en la censura previa?

La administración de comentarios y contenidos es un problema que desde hace años nos acompaña a los que trabajamos en este medio. El volumen, velocidad y diversidad de los contenidos que los usuarios emiten lo transforman en un problema complejo.

Existen muchas metodologías que se aplican para mantener el control de los comentarios y contenidos. Todos tienen que lidiar con los siguientes tipos de problemas:

- SPAM. contenido publicitario ni relacionado que se envía en forma abusiva.
- Contenido agresivo o discriminatorio hacia una persona y/o grupo.
- Contenido de terceros con copiright que se comparte sin autorización.

Los contenidos clasificados dentro de esas categorías se espera que sean eliminados del sistema.

Para la moderación existen tradicionalmente 2 aproximaciones.

Premoderación: Proceso automático o manual que antes de publicar determina si un contenido debe ser eliminado o publicado.
Postmoderacion: Un contenido es denunciado por un número determinado de usuarios y en ese momento pasa a realizarse el proceso manual o automático de verificación.

En la actualidad, en sitios masivos, se suele utilizar un modelo mixto donde se realiza un proceso de premoderación automático y un proceso de postmoderación manual.

El volumen de comentarios hace imposible una premoderación manual. Imaginen un conjunto de usuarios mirando un partido de fútbol. Mientras comentan en una página jugadas no están dispuestos a esperar 5 minutos o mas que su comentario aparezca. Incluso la postmoderación manual requiere en caso recursos que muchas veces no están disponibles y quedando muchas veces descuidada.

Una clasificación automática tiene el problema de la complejidad de la clasificación. La inventiva de los usuarios hace que continuamente busquen maneras de engañar al sistema. Lo que lo convierte en un juego del gato y el ratón.

Un primer nivel de control puede incluir la utilizacion de diccionarios de palabras prohibidas o de alerta temprana. Pero es facilmente engañable realizando cambios o inserciones de ciertos caracteres. Ejemplo: "c4s4" por "casa", "d1a" por "dia" o "c*a*m*b*i*o" por "cambio".

Eso obliga a realizar controles de patrones sospechosos para preprosesar el contenido. pero que a veces se hacen complicados. Por ejemplo dentro de la palabra "computadora" figura la palabra prohibida que hace referencia a una trabajadora del ambito sexual. Pero no es algo que debe ser moderado. Por otro lado si se ingresa algo del estilo xxxxmeretrizxxxx es evidente para un lector humano que debe ser moderado, no así para un sistema automático no entrenado correctamente.

Se debe tener en cuenta contextos. Hablar sobre determinados temas en un lugar tiene un sentido que en otro no. En el caso de un comentario sobre un artículo puede ser valido en uno y en otro no (Por ejemplo decir "son todos negros" comentando sobre el color de ciertas piezas a la venta es diferente a referirse peyorativamente a un conjunto de personas por el color de su piel)

Se debe tener en cuenta pertinencia. Un comentario puede ser totalmente valido, pero no estar refiriendose en la que se ingresa. Esto puede ocurrir cuando los comentarios se cierran de una nota por su alto nivel de virulencia, por cuestiones legales o por pedido del autor. Generalmente se empieza a desbordar a otras noticias los de este tópico. Desvirtuandose el intercambio normal de comentarios. y llegando muchas veces a un mal mayor.

Las cosas se hacen más complejas cuando a los contenidos se le agrega la posibilidad de incluir imágenes y videos (Google pide perdón por confundir afroamericanos con gorilas o Facebook censura por "desnudez" las fotos de dos amigas tras superar un cáncer).

En resumen un sistema automático realizará un proceso y como resultado moderada o no el contenido. Se pueden ver cuatro casos:

El contenido es correctamente eliminado
El contenido es correctamente mantenido.
El contenido debe ser eliminado y no lo es (conocido en la jerga como "falso negativo")
El contenido no debe ser eliminado y lo es ("falso positivo" ... ¿censura?)

Los falsos negativos ya nos condenan? O con dar la posibilidad de postmoderacion alcanza?
Los falsos positivos nos hacen censores? O con dar la posiblidad de un descargo y la posibilidad de apelar nos alcanza?

Algunos sitios ya abandonaron la problemática. "que otro se haga cargo"concluyen e incluyen los comentarios administrados por otros sistemas como redes sociales o terceros. ¿Pero eso los exculpa de mostrar el contenido en su sitio? Lo que es seguro es que les quita el control de contenido que los podría enriquecer.

La mayoría prohibe la participación anónima de usuarios. Pero permite registrarse mediante redes sociales donde crear una identidad falsa es fácil. O no tienen los medios para verificar la veracidad de los datos de los usuarios propios. (es otra discusión si esto está bien o no)

En todo caso... queda mucha tela para cortar y seguir analizando.
Hasta luego!

Inside the trash can

Buscar este blog

Toda tu vida multiplicaste en forma ineficiente: El algoritmo de Karatsuba

Una mirada sobre la complejidad técnica en la moderación de contenidos

Comentarios

Publicar un comentario