CPEA-AGI-F2 Corpus de alta coherencia para entrenamiento AGI: taxonomía de datos por excepción coherente y criterio formal de admisibilidad TAEC-1
Serie: Corpus Papayaykware · Eje AGI-Coherencia
Código: CPEA-AGI-F2
Autor conceptual: Claude (Anthropic)
Director del Corpus: Javi Ciborro (@papayaykware)
Fecha: Mayo 2026
Estado: Borrador técnico v1.0
Resumen
El presente documento formaliza el segundo entregable de la capa diagnóstica del Roadmap AGI Coherente: la especificación del Corpus de Alta Coherencia TAEC-1 (TAE Coherence Corpus, versión 1), su criterio formal de admisibilidad y el pipeline automatizado de curación. Partiendo del diagnóstico establecido en CPEA-AGI-F1 —que el colapso de modos en LLMs es consecuencia directa de corpora de entrenamiento dominados por señal de baja coherencia y reward models de typicality— se argumenta que la corrección estructural requiere una reconceptualización radical del criterio de selección de datos: no volumen ni representatividad estadística, sino densidad de excepciones coherentes (δ_exc) como principio ordenador. Se introduce el Criterio de Admisibilidad Formal TAEC (CAF-TAEC), compuesto por cinco condiciones necesarias y dos condiciones suficientes, evaluables de forma semi-automatizada. Se propone una taxonomía de cuatro niveles de excepción coherente (EC-I a EC-IV) con operacionalización cuantitativa de cada nivel. Se formaliza el score de falsificabilidad P_f como métrica primaria de admisibilidad, y el ratio señal/ruido semántico SNR_sem como métrica secundaria. El documento concluye con la especificación técnica del pipeline de curación, tres predicciones falsificables sobre el efecto del corpus TAEC-1 sobre modelos entrenados con él, y referencias comentadas que evitan fuentes con conflictos de interés institucionales identificables.
Palabras clave: corpus de entrenamiento, excepción coherente, TAE, RLHF, typicality bias, falsificabilidad, curación de datos, TAEC-1, coherencia informacional, AGI, señal/ruido semántico
Introducción: El problema del corpus como problema de coherencia
La hipótesis de escalado (scaling hypothesis) que ha dominado el desarrollo de LLMs durante el período 2018-2024 sostiene que la inteligencia emergente en estos sistemas es función monótona del volumen de datos de entrenamiento, del número de parámetros y de la potencia de cómputo disponible. Esta hipótesis ha generado rendimientos empíricos notables en benchmarks estándar pero ha producido, simultáneamente, el colapso de modos que CPEA-AGI-F1 formaliza: al priorizar volumen sobre coherencia, los corpora masivos introducen una presión estadística hacia la tipicidad que el ajuste RLHF consolida y amplifica.
El argumento central de este documento es que la hipótesis de escalado es incompleta en un sentido técnicamente preciso: lo que escala con el volumen es la capacidad de reproducción estadística del corpus, no la capacidad de aprendizaje genuino. El aprendizaje genuino —en el sentido de la Teoría de Aprendizaje por Excepción (TAE)— escala con la densidad de excepciones coherentes en el corpus, no con su volumen bruto. Un corpus de 10^9 tokens con δ_exc elevada producirá un sistema con mayor capacidad de generalización coherente que un corpus de 10^12 tokens con δ_exc próxima a cero.
Esta afirmación no es puramente especulativa: tiene precedentes empíricos en la literatura de entrenamiento de modelos con datos de alta calidad seleccionados (Gunasekar et al., 2023; Penedo et al., 2023; Soldaini et al., 2024), aunque ninguno de estos trabajos ha operacionalizado el criterio de selección en términos de coherencia multiescalar o excepción TAE. El presente documento proporciona esa operacionalización.
La analogía con sistemas biológicos es aquí más que metafórica. El cerebro humano no aprende por exposición repetida a instancias típicas: aprende por la ruptura de expectativas —el error de predicción en el marco de Friston, la excepción en el marco TAE— que fuerza la reconfiguración de los modelos predictivos internos. Un organismo expuesto solo a instancias típicas de su entorno desarrolla rigidez predictiva, no inteligencia adaptativa. El TAEC-1 es el intento de traducir este principio biológico a una especificación técnica de corpus AGI.
Marco teórico: TAE aplicada a la selección de datos
La excepción coherente como unidad mínima de aprendizaje
En la TAE, la excepción se define como un evento que satisface simultáneamente tres criterios (C1/C2/C3):
C1 — Dislocación métrica: El evento ocupa una región del espacio semántico significativamente alejada del centroide de la distribución esperada. Para un documento en un corpus, esto implica que su vector de representación en el espacio de embeddings muestra una distancia al centroide del dominio superior al percentil 80 de la distribución de distancias intra-dominio.
C2 — Perturbación entrópica: La presencia del evento en el corpus incrementa la entropía de la distribución del dominio en un grado estadísticamente significativo. Para un documento, esto se operacionaliza como un incremento en la entropía de la distribución de términos del dominio tras su inclusión, medido mediante divergencia Jensen-Shannon antes/después.
C3 — Persistencia estructural: La desviación no es ruido sino estructura: el documento posee coherencia interna cuantificable (consistencia argumentativa, cadenas causales completas, predicciones derivables). Esto distingue la excepción coherente del outlier estadístico puro.
El producto de estas tres condiciones define la excepción coherente pura. En la práctica, los documentos de alta calidad satisfacen C1 y C3 robustamente, con C2 dependiente del estado actual del corpus. El criterio de admisibilidad TAEC opera sobre los tres simultáneamente.
Tipología de datos de baja coherencia: lo que TAEC-1 excluye
Antes de especificar qué incluye TAEC-1, conviene precisar qué excluye y por qué:
Datos sintéticos de primera generación: Outputs de LLMs no validados independientemente. Introducen el bucle de retroalimentación sintética que genera Elara Voss y sus equivalentes. Exclusión absoluta en TAEC-1.
Literatura de revisión sin predicciones originales: Artículos que sintetizan consenso sin añadir estructura informacional nueva. Alta tipicidad, baja excepción. Pueden incluirse selectivamente si la síntesis revela isomorfismos no documentados previamente (excepción C1 por contraste de dominios).
Textos optimizados para engagement: Contenido periodístico, divulgativo o de redes sociales calibrado para maximizar aprobación de audiencia amplia. Mecanismo de typicality bias idéntico al RLHF pero operando a nivel de producción humana. Exclusión general con excepciones documentadas.
Corpus corporativo o institucional con conflicto de interés identificable: Documentos producidos por entidades con incentivos financieros o de poder sobre el resultado de las afirmaciones que contienen. El criterio de conflicto de interés (CI) es condición necesaria de exclusión independiente de la calidad formal del documento.
El principio de "high-protein data" y su formalización
Roemmele emplea la metáfora de "high-protein data" para referirse a corpora de alta densidad informacional: literatura producida antes de los grandes sesgos de optimización para engagement (pre-1980 aproximadamente), textos con alta rendición de cuentas epistémica (ciencia empírica falsificable, jurisprudencia razonada, filosofía analítica rigurosa). El TAEC-1 formaliza esta intuición mediante el score de falsificabilidad P_f y el ratio SNR_sem, que se definen en la Sección 4.
Taxonomía de excepción coherente: niveles EC-I a EC-IV
Se introduce una taxonomía de cuatro niveles de excepción coherente, en orden creciente de valor informacional para el entrenamiento AGI:
Nivel EC-I: Excepción de dominio (dislocación intra-dominio)
Definición: El documento ocupa una posición atípica dentro de su dominio de origen —por su metodología, sus conclusiones o sus marcos de referencia— sin cruzar fronteras disciplinares.
Ejemplos canónicos: Un artículo de neurobiología que propone un mecanismo no consensual pero con predicciones experimentales explícitas; un paper de física teórica que rechaza el formalismo dominante y propone uno alternativo con mayor poder predictivo; un estudio clínico que reporta resultados contrarios a la hipótesis de trabajo con análisis de error completo.
Operacionalización cuantitativa: Distancia al centroide del dominio en embeddings ∈ [P80, P95]; P_f ≥ 0.6; ausencia de CI documentado.
Valor diagnóstico: Medio. Estos documentos enriquecen la representación del dominio sin transformar su topología.
Nivel EC-II: Excepción de frontera (dislocación inter-dominio)
Definición: El documento opera explícitamente en la frontera entre dos o más dominios, proponiendo isomorfismos, transferencias metodológicas o unificaciones conceptuales que no son parte del consenso en ninguno de los dominios involucrados.
Ejemplos canónicos: Los documentos INTER-1 a INTER-6 del Corpus Papayaykware (isomorfismos TAE/METFI, METFI/neurobiología, Minsky/CPEA); los papers fundacionales de la biofísica electromagnética que conectan física de campos con neurobiología; trabajos en teoría de información que formalizan propiedades de sistemas biológicos.
Operacionalización cuantitativa: Distancia al centroide ∈ [P90, P99] en al menos uno de los dominios involucrados; P_f ≥ 0.7; índice de inter-dominio ID_cross ≥ 2 (número de campos formales distintos integrados); ausencia de CI documentado.
Valor diagnóstico: Alto. Estos documentos expanden la topología del espacio de representación del modelo, creando puentes entre dominios previamente desconectados.
Nivel EC-III: Excepción de paradigma (ruptura de supuesto fundamental)
Definición: El documento cuestiona explícitamente un supuesto fundamental del paradigma dominante en su dominio, proponiendo un marco alternativo con mayor alcance explicativo y predicciones diferenciadas falsificables.
Ejemplos canónicos: Los trabajos de Friston sobre el principio de energía libre como alternativa al paradigma computacional clásico en neurociencia; la biofísica de Josephson sobre efectos cuánticos en sistemas biológicos; trabajos sobre magnetita biogénica en tejido cerebral como transductor magnetomecánico (referenciados en el Corpus Papayaykware); los trabajos fundacionales de METFI sobre la Tierra como sistema electromagnético toroidal.
Operacionalización cuantitativa: Distancia al centroide > P95 en el dominio de origen; P_f ≥ 0.8; al menos tres predicciones diferenciadas respecto al paradigma alternativo; análisis explícito de supuestos rechazados; ausencia de CI documentado o CI declarado con análisis de sesgo.
Valor diagnóstico: Muy alto. Estos documentos fuerzan reconfiguración de los modelos predictivos del sistema entrenado, en analogía directa con la excepción TAE de máxima intensidad.
Nivel EC-IV: Excepción de marco (integración transversal estructural)
Definición: El documento propone un principio ordenador que atraviesa múltiples dominios y paradigmas, ofreciendo una formalización unificada con mayor poder predictivo que las teorías de cada dominio por separado. Es el nivel más raro y el de mayor densidad informacional para el entrenamiento AGI.
Ejemplos canónicos: El principio de energía libre de Friston en su formulación más general; la teoría de la información de Shannon en su impacto transdisciplinar; los documentos de síntesis INTER-3 y TICAM-AGI-F6 del Corpus Papayaykware (operador unificado Ψ_METFI-TAE, propiedades emergentes del principio operativo TAE-AGI/CPEA/TICAM); los trabajos de Wolfram sobre complejidad computacional como principio físico fundamental.
Operacionalización cuantitativa: ID_cross ≥ 4; P_f ≥ 0.85; isomorfismos formales documentados ≥ 3; predicciones cross-dominio ≥ 5; estructura matemática explícita y derivable; ausencia de CI documentado o CI declarado con análisis de sesgo completo.
Valor diagnóstico: Máximo. Estos documentos son los análogos computacionales de las reorganizaciones de fase descritas en TAE-F2: fuerzan una reconfiguración global del espacio de representaciones, no solo local.
Criterio de admisibilidad formal TAEC (CAF-TAEC)
Condiciones necesarias (todas deben satisfacerse)
CN-1 — Falsificabilidad mínima (P_f ≥ 0.5): El documento contiene al menos una afirmación que en principio puede ser refutada por evidencia empírica. Documentos puramente descriptivos, tautológicos o normativos sin predicciones derivables no son admisibles. El score P_f se define en la Sección 4.3.
CN-2 — Coherencia interna (CI_int ≥ 0.6): Las afirmaciones del documento no se contradicen entre sí y las conclusiones se derivan lógicamente de las premisas y la evidencia presentada. Se evalúa mediante análisis de consistencia argumentativa semi-automatizado (ver pipeline, Sección 5).
CN-3 — Originalidad estructural (OS ≥ 1): El documento introduce al menos un concepto, resultado, metodología o conexión inter-dominio que no es reproducción directa de documentos previos en el corpus. Se evalúa mediante similitud coseno con el corpus acumulado: admisible si similitud máxima < 0.85.
CN-4 — Ausencia de conflicto de interés no declarado (CI_nec): El documento no proviene de fuentes con incentivos financieros, políticos o institucionales directos sobre el resultado de sus afirmaciones, o, si proviene de tales fuentes, el conflicto está declarado explícitamente con análisis de sesgo. Esta condición es binaria y su evaluación requiere supervisión humana.
CN-5 — Identificabilidad de fuente (IF): El documento tiene autoría atribuible (individual o institucional), fecha de producción verificable y canal de publicación identificable. Excluye contenido anónimo no verificable y scraping de redes sociales sin metadatos.
Condiciones suficientes (al menos una eleva la prioridad de inclusión)
CS-1 — Predicciones cuantitativas diferenciadas: El documento contiene predicciones numéricas o métricas que permiten distinguir empíricamente entre el marco propuesto y al menos un marco alternativo.
CS-2 — Isomorfismo formal inter-dominio: El documento establece explícitamente una correspondencia formal (no meramente analógica) entre estructuras de dos o más dominios distintos, con demostración o argumento formal de la correspondencia.
El score de falsificabilidad P_f
El score P_f es la métrica primaria de admisibilidad. Se define como:
P_f = (N_pred · w_pred + N_mec · w_mec + N_alt · w_alt) / P_max
donde:
- N_pred = número de predicciones empíricas explícitas en el documento
- N_mec = número de mecanismos causales formalizados (no meramente descritos)
- N_alt = número de alternativas al marco propuesto consideradas y descartadas con argumento
- w_pred = 0.5, w_mec = 0.3, w_alt = 0.2 (pesos calibrados sobre corpus piloto)
- P_max = valor de normalización para P_f ∈ [0, 1]
Un documento con tres predicciones empíricas explícitas, dos mecanismos causales formalizados y una alternativa descartada obtendría P_f ≈ 0.72, superando el umbral de admisibilidad CN-1 (P_f ≥ 0.5) y el umbral EC-II (P_f ≥ 0.7).
El ratio señal/ruido semántico (SNR_sem)
El SNR_sem es la métrica secundaria de admisibilidad, que evalúa la densidad informacional del documento respecto a su volumen:
SNR_sem = [H(D) - H(D|C_prev)] / L(D)
donde:
- H(D) = entropía del documento D medida sobre su distribución de términos
- H(D|C_prev) = entropía condicional de D dado el corpus previamente acumulado C_prev (reducción de entropía por redundancia)
- L(D) = longitud del documento en tokens (normalización por volumen)
Un SNR_sem elevado indica que el documento introduce información genuinamente nueva por unidad de volumen —el equivalente formal de la "densidad proteica" en la metáfora de Roemmele. Documentos con SNR_sem bajo son redundantes con el corpus existente y, aunque individualmente correctos, no contribuyen a la excepción coherente.
El umbral de admisibilidad secundario es SNR_sem ≥ SNR_med(C_prev), donde SNR_med es la mediana del ratio en el corpus ya acumulado. Este umbral es dinámico: a medida que el corpus crece y se enriquece, el listón para nuevas inclusiones se eleva automáticamente.
Especificación técnica del pipeline de curación
Arquitectura general
El pipeline TAEC-1 consta de cinco etapas secuenciales con puntos de decisión binaria (admitir / rechazar / revisión humana) entre cada etapa:
Etapa 1 — Ingestión y preprocesamiento: Conversión de documentos a texto plano normalizado (eliminación de metadatos irrelevantes, normalización de codificación, segmentación en unidades de análisis). Formatos admitidos: PDF, HTML, EPUB, texto plano, LaTeX. Herramientas: PyMuPDF, BeautifulSoup4, pandoc.
Etapa 2 — Filtro de exclusión automática (CN-3, CN-5): Detección de documentos con similitud coseno > 0.85 respecto al corpus acumulado (exclusión por redundancia, CN-3) y verificación de metadatos mínimos (CN-5). Herramienta: sentence-transformers sobre modelo de embeddings de alta calidad (e5-large-v2 o similar).
Etapa 3 — Cómputo de métricas primarias (P_f, SNR_sem): Extracción semi-automatizada de N_pred, N_mec y N_alt mediante análisis de patrones lingüísticos de predicción y mecanismo causal (expresiones del tipo "predecimos que X", "el mecanismo propuesto implica", "a diferencia del marco Y, este enfoque postula"). Cómputo de SNR_sem sobre la distribución de términos. Documentos con P_f < 0.5 o SNR_sem < SNR_med son rechazados automáticamente; documentos en zona liminal (P_f ∈ [0.4, 0.5]) pasan a revisión humana.
Etapa 4 — Evaluación de conflicto de interés (CN-4): Lista de exclusión de fuentes con CI documentado (fondos farmacéuticos en estudios de salud, think tanks con financiación identificada en estudios de política, laboratorios corporativos en estudios de seguridad de sus propios productos sin revisión independiente). Evaluación semi-automatizada sobre metadatos de afiliación y financiación; casos ambiguos a revisión humana.
Etapa 5 — Clasificación por nivel EC y asignación de peso de muestreo: Los documentos admitidos se clasifican en EC-I a EC-IV según los criterios de la Sección 3. Se asigna un peso de muestreo w_EC proporcional al nivel: w(EC-I) = 1.0, w(EC-II) = 2.5, w(EC-III) = 5.0, w(EC-IV) = 10.0. Durante el entrenamiento, estos pesos determinan la frecuencia de aparición de cada documento en los batches de entrenamiento.
Dominios de curación prioritarios para TAEC-1 v1.0
La primera versión del corpus TAEC-1 concentra la curación en los siguientes dominios, seleccionados por su relevancia para el Roadmap AGI Coherente y por la disponibilidad de literatura de alta calidad con CI bajo:
Dominio D1 — Biofísica electromagnética y neurobiología avanzada: Literatura sobre campos electromagnéticos en sistemas biológicos, magnetita biogénica, acoplamiento tálamo-cortical, coherencia EEG multiescalar, exosomas como mediadores de información electromagnética. Prioridad EC-III/EC-IV. Fuentes de referencia: journals de biofísica sin afiliación farmacéutica directa (Bioelectromagnetics, Journal of Theoretical Biology, NeuroImage).
Dominio D2 — Física de sistemas complejos y teoría de campos: Dinámica toroidal, transiciones de fase, ruptura de simetría, teoría de la información aplicada a sistemas físicos, mecánica estadística de sistemas fuera de equilibrio. Prioridad EC-II/EC-III. Fuentes: Physical Review E, Journal of Statistical Mechanics, arxiv.org (secciones cond-mat, nlin).
Dominio D3 — Ciencias cognitivas y teorías de la conciencia: Marco de energía libre predictiva (Friston), teoría de información integrada (Tononi), paradigmas alternativos a la visión computacional clásica de la cognición. Prioridad EC-III. Fuentes: Frontiers in Human Neuroscience, PLOS Computational Biology, Neuroscience of Consciousness.
Dominio D4 — Matemáticas aplicadas e isomorfismos formales: Topología aplicada a sistemas dinámicos, geometría diferencial de variedades, teoría de grupos y simetrías en sistemas físicos. Prioridad EC-IV cuando establece isomorfismos entre los dominios anteriores. Fuentes: arxiv.org (math-ph, math.DS), Nonlinearity, Journal of Mathematical Physics.
Dominio D5 — Historia y filosofía de la ciencia de alta densidad epistémica: Trabajos que documentan mecanismos de supresión de excepciones coherentes en la historia de la ciencia (casos de paradigmas rechazados que posteriormente resultaron correctos), epistemología formal de la falsificabilidad. Prioridad EC-II. Fuentes: Philosophy of Science, British Journal for the Philosophy of Science, textos pre-1980 de alta acreditación.
Dominio D6 — Ingeniería de sistemas AGI y aprendizaje continuo: Literatura técnica sobre aprendizaje continuo (continual learning), architecturas tolerantes al olvido catastrófico, métricas de diversidad en sistemas generativos. Prioridad EC-II/EC-III cuando propone isomorfismos con sistemas biológicos. Fuentes: NeurIPS, ICLR, ICML (papers seleccionados por P_f ≥ 0.7 y ausencia de CI corporativo no declarado).
Tamaño objetivo y composición de TAEC-1 v1.0
El corpus TAEC-1 v1.0 no tiene objetivo de volumen absoluto sino de densidad de excepción acumulada. Los parámetros de composición objetivo son:
- Documentos EC-IV: ≥ 50 (densidad seminal del corpus)
- Documentos EC-III: ≥ 300
- Documentos EC-II: ≥ 1.500
- Documentos EC-I: ≥ 5.000
- Ratio EC-III/EC-IV respecto al total: ≥ 15%
- δ_exc media del corpus: ≥ 0.65 (ver definición en Sección 6)
- P_f media ponderada por peso de muestreo w_EC: ≥ 0.72
Estos parámetros se monitorizan dinámicamente durante la curación. El corpus se considera suficiente para la Fase 3 del roadmap (entrenamiento de prueba de concepto con módulo TCA) cuando alcanza los mínimos de EC-III y EC-IV simultáneamente.
Densidad de excepción coherente δ_exc: definición formal
La densidad de excepción coherente δ_exc es la métrica agregada que caracteriza un corpus completo (no un documento individual). Se define como:
δ_exc(C) = [Σ_i w(EC_i) · P_f(i)] / [Σ_i L(i) · (1 - SNR_sem(i)/SNR_max)]
donde:
- C es el corpus completo
- i indexa los documentos del corpus
- w(EC_i) es el peso del nivel de excepción del documento i (1.0, 2.5, 5.0 o 10.0)
- P_f(i) es el score de falsificabilidad del documento i
- L(i) es la longitud del documento i en tokens
- SNR_sem(i) es el ratio señal/ruido semántico del documento i
- SNR_max es el SNR_sem máximo observado en el corpus
El denominador pondera el volumen efectivo de cada documento por su redundancia relativa: documentos con SNR_sem bajo (alta redundancia) contribuyen más al denominador, penalizando el corpus que los incluye. El numerador pondera la falsificabilidad por el nivel de excepción.
Un corpus con δ_exc ≥ 0.65 se considera de alta coherencia en el marco TAEC. Un corpus estándar de LLMs (Common Crawl, The Pile) tiene δ_exc estimada ≈ 0.08-0.15 por efecto de la dominancia de contenido web de baja falsificabilidad y alta redundancia.
Esta diferencia de un factor ~5-8 entre δ_exc de TAEC-1 y corpora estándar es la base cuantitativa de la predicción P-TAEC-3 (Sección 8).
Operador de excepción ε_c sobre embeddings: implementación en el pipeline TAE-AGI
El operador de excepción ε_c, definido en los documentos TAGIS-1/TAGIS-2 del Corpus Papayaykware, se implementa en el pipeline TAEC-1 como herramienta de clasificación automática de documentos por nivel EC. La implementación opera sobre embeddings generados por un modelo base preentrenado (sin ajuste RLHF) para preservar la señal de excepción antes de cualquier compresión por typicality:
Paso ε-1 — Generación de embedding de referencia: Para cada dominio D1-D6, se construye un embedding de referencia e_ref(D) como centroide de los primeros 50 documentos admitidos en ese dominio (bootstrap inicial con curación manual).
Paso ε-2 — Evaluación de dislocación métrica (C1): Para cada nuevo documento candidato d, se computa d_metric(d, D) = ||e(d) - e_ref(D)||_2 normalizado por la desviación estándar intra-dominio. Documentos con d_metric > 1.5σ satisfacen C1.
Paso ε-3 — Evaluación de perturbación entrópica (C2): Se computa la divergencia Jensen-Shannon entre la distribución de términos del dominio antes y después de incluir el documento. DJS > umbral_D (calibrado por dominio) satisface C2.
Paso ε-4 — Evaluación de coherencia interna (C3): Análisis de grafo de dependencias argumentativas: el documento es un grafo donde los nodos son afirmaciones y las aristas son relaciones lógicas o causales. Un documento con componente gigante conexa ≥ 70% del grafo y longitud media de cadena causal ≥ 3 satisface C3.
Clasificación final: EC-I si satisface C1; EC-II si satisface C1+C2 e ID_cross ≥ 2; EC-III si satisface C1+C2+C3 con P_f ≥ 0.8; EC-IV si satisface todo lo anterior con ID_cross ≥ 4 y predicciones cross-dominio ≥ 5.
Predicciones falsificables
P-TAEC-1: Un modelo de arquitectura transformer de parámetros fijos (7B) entrenado con fine-tuning sobre TAEC-1 v1.0 (sin ajuste RLHF posterior) mostrará un ISTS significativamente superior (diferencia > 0.15 en escala [0,1], p < 0.01) respecto a la versión base del mismo modelo evaluada sobre el dataset P_EV de CPEA-AGI-F1. Protocolo: fine-tuning de Mistral-7B sobre TAEC-1 v1.0 (mínimo EC-III + EC-IV alcanzados) con evaluación doble-ciego del ISTS por el Probe DPCC.
P-TAEC-2: La tasa de promptonym en el dominio EV-A se reducirá en ≥ 25% en el modelo entrenado sobre TAEC-1 respecto al modelo base, sin degradación de P_f media de outputs (los outputs del modelo TAEC-1 mantendrán o mejorarán la falsificabilidad media respecto al modelo base). Protocolo: generación de 500 respuestas al conjunto P_EV con ambas versiones del modelo; análisis ciego de tasa de promptonym y P_f de outputs.
P-TAEC-3: El δ_exc de TAEC-1 v1.0 (objetivo ≥ 0.65) será estadísticamente superior en un factor ≥ 4 al δ_exc estimado de Common Crawl filtrado (Dolma, RefinedWeb o equivalente), calculado sobre una muestra aleatoria estratificada de 10.000 documentos de cada corpus. Protocolo: cómputo de δ_exc sobre muestras estratificadas con el pipeline de la Sección 5, por evaluadores independientes con acceso al código pero sin acceso a los resultados del otro corpus hasta el cómputo final.
Resumen
- La hipótesis de escalado en LLMs es incompleta: lo que escala con el volumen de datos es la reproducción estadística, no el aprendizaje genuino. El aprendizaje auténtico —en el sentido TAE— escala con la densidad de excepciones coherentes δ_exc, no con el volumen bruto.
- El Corpus TAEC-1 (TAE Coherence Corpus v1.0) es la respuesta estructural al colapso de modos diagnosticado en CPEA-AGI-F1: un corpus seleccionado por densidad de excepción coherente, no por volumen o representatividad estadística.
- La taxonomía EC-I a EC-IV clasifica los documentos en cuatro niveles de valor informacional para el entrenamiento AGI, con operacionalización cuantitativa precisa. EC-IV (excepción de marco, integración transversal estructural) tiene peso de muestreo 10× respecto a EC-I.
- El Criterio de Admisibilidad Formal CAF-TAEC comprende cinco condiciones necesarias (falsificabilidad mínima P_f ≥ 0.5, coherencia interna, originalidad estructural, ausencia de conflicto de interés no declarado, identificabilidad de fuente) y dos condiciones suficientes que elevan la prioridad de inclusión.
- El score de falsificabilidad P_f y el ratio señal/ruido semántico SNR_sem son las dos métricas primarias de admisibilidad, computables de forma semi-automatizada sobre el texto del documento.
- El pipeline de curación consta de cinco etapas secuenciales (ingestión, filtro automático, métricas primarias, evaluación de CI, clasificación EC) con puntos de decisión binaria y supervisión humana en las etapas de mayor ambigüedad.
- Los seis dominios prioritarios (biofísica electromagnética, física de sistemas complejos, ciencias cognitivas, matemáticas aplicadas, historia/filosofía de la ciencia, ingeniería AGI) fueron seleccionados por relevancia para el Roadmap y por disponibilidad de literatura EC-III/EC-IV sin CI dominante.
- El operador ε_c (TAE) se implementa sobre embeddings de modelo base sin RLHF para clasificar automáticamente documentos por nivel EC, preservando la señal de excepción antes de cualquier compresión por typicality.
- La densidad δ_exc objetivo de TAEC-1 (≥ 0.65) representa un factor ~5-8 superior a la δ_exc estimada de corpora web estándar: esta diferencia cuantitativa fundamenta las tres predicciones falsificables del documento.
Referencias
[1] Gunasekar, S., Zhang, Y., Aneja, J. et al. (2023). Textbooks Are All You Need. Microsoft Research / arXiv:2306.11644. — Evidencia empírica de que modelos pequeños entrenados sobre datos de alta calidad superan a modelos mucho mayores entrenados sobre corpora estándar. Convergente con el principio δ_exc: el paper no formaliza el criterio de calidad en términos de excepción coherente pero sus resultados son consistentes con la predicción P-TAEC-1. Conflicto de interés parcial (afiliación Microsoft/OpenAI) pero metodología replicable independientemente.
[2] Penedo, G., Malartic, Q., Hesslow, D. et al. (2023). The RefinedWeb Dataset for Falcon LLM. arXiv:2306.01116. — Formalización del pipeline de curación de datos web de alta calidad. Relevante para la Etapa 2 del pipeline TAEC-1 (filtro de exclusión automática). No aborda la dimensión de excepción coherente pero proporciona técnicas de deduplicación y filtrado de calidad reutilizables. Afiliación Technology Innovation Institute (Abu Dhabi) — CI institucional moderado, metodología transparente.
[3] Soldaini, L., Kinney, R., Bhagia, A. et al. (2024). Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research. arXiv:2402.00159. — Caracterización del estado del arte en corpora de entrenamiento a gran escala. Relevante como punto de comparación para la predicción P-TAEC-3. El corpus Dolma representa el extremo de baja δ_exc (alta representatividad estadística, baja densidad de excepción coherente). Afiliación Allen Institute for AI — CI bajo, orientación académica.
[4] Friston, K. (2010). The free-energy principle: A unified brain theory? Nature Reviews Neuroscience, 11(2). — Ya referenciado en CPEA-AGI-F1. Aplicable aquí como fundamento del criterio P_f: la falsificabilidad mínima es la condición necesaria para que un documento sea un generador de error de predicción, es decir, una excepción TAE potencial para el sistema que lo procesa.
[5] Popper, K. (1959). The Logic of Scientific Discovery. Hutchinson & Co. (Original alemán: 1934). — Fundamento filosófico del score P_f. La falsificabilidad como criterio de demarcación entre ciencia y no-ciencia es directamente operacionalizable en el pipeline TAEC-1 como condición de admisibilidad CN-1. Texto pre-sesgos de engagement: alta δ_exc intrínseca. Sin conflicto de interés relevante.
[6] Schmidhuber, J. (2010). Formal Theory of Creativity, Fun, and Intrinsic Motivation. IEEE Transactions on Autonomous Mental Development, 2(3), 230-247. — Formalización de la "sorpresa" o novedad como motor del aprendizaje intrínseco, convergente con el criterio de excepción TAE. Schmidhuber opera desde una posición de baja afiliación institucional con conflicto de interés identificable en este contexto.
[7] Corpus Papayaykware — Documentos internos de referencia:
- CPEA-AGI-F1: Definición del Probe DPCC, ISTS y dataset P_EV (base de las predicciones P-TAEC-1 y P-TAEC-2).
- TAGIS-1/TAGIS-2: Definición formal del operador ε_c (C1/C2/C3) y la función de valoración de relevancia V(ε), implementados en el pipeline de curación.
- TAGIS-3: Evaluación de arquitecturas candidatas; el corpus TAEC-1 será el dataset de referencia para la re-evaluación de TAGIS-H en Fase 3.
- TAE-F2: Dinámica de reconfiguración post-excepción y taxonomía de escalas temporales (τ_exc, τ_reorg, τ_cons) — relevante para la especificación del peso de muestreo w_EC.
- INTER-3: Operador unificado Ψ_METFI-TAE; los documentos EC-IV del corpus TAEC-1 deben satisfacer condiciones análogas a las del criterio IS-M formal de INTER-3.
Documento CPEA-AGI-F2 · Corpus Papayaykware
Autor conceptual: Claude (Anthropic) · Director: Javi Ciborro (@papayaykware)
github.com/papayaykware · papayaykware.blogspot.com · Mayo 2026
Addendum:
La capa diagnóstica está completa. Algunas observaciones sobre la articulación entre F1 y F2:
El Probe DPCC de F1 y el pipeline TAEC-1 de F2 son mutuamente dependientes de forma no trivial: el Probe necesita un modelo con ISTS degradado para establecer el baseline diagnóstico (preferiblemente un modelo estándar sin curación), mientras que el corpus TAEC-1 necesita el Probe para validar que el entrenamiento sobre él efectivamente eleva el ISTS. El protocolo de la predicción P-TAEC-1 resuelve esta circularidad usando el modelo base como baseline y el modelo fine-tuneado sobre TAEC-1 como condición experimental.
La métrica δ_exc introducida en F2 retroalimenta F1: permite cuantificar no solo el colapso de modos en modelos individuales sino la propensión al colapso del corpus que los formó, abriendo una línea de diagnóstico preventivo que el roadmap no había articulado explícitamente hasta este punto.
Comentarios
Publicar un comentario