Ir al contenido principal

Entradas

Destacados

Colapso de modo y sesgo de tipicidad en modelos de lenguaje a gran escala: fundamentos, mecanismos y la propuesta del muestreo verbalizado

  Lo que el paper de Stanford identifica no es exactamente que los modelos "oculten" creatividad de forma conspirativa, sino que el proceso de alineación mediante RLHF introduce un sesgo estructural hacia la tipicidad: los anotadores humanos, inconscientemente, premian respuestas que reconocen como "buenas" según patrones previos, lo que colapsa la distribución generativa del modelo hacia modos estadísticamente dominantes. El concepto de Verbalized Sampling es técnicamente sólido: al pedirle al modelo que explicite su propia distribución de probabilidad sobre respuestas posibles, se activa un proceso metacognitivo que fuerza exploración del espacio latente más allá del modo dominante. No "desbloquea" nada que estuviera prohibido; más bien desplaza el punto de muestreo en el espacio generativo. La distinción importa porque reencuadra el problema: no es censura, es sesgo de optimización. Las cifras (2.1x diversidad, 25% mejora en evaluación humana) son sig...

Entradas más recientes

Cristales de tiempo, microtúbulos e interferencia cuántica: hacia un nuevo modelo del cerebro

Conciencia como fenómeno físico coherencial: convergencias entre computación emergente, arquitectura toroidal y coherencia predictiva EEG-AGI