TICAM-1 — Fase 5: Validación Estadística Rigurosa

Diseño Anti-Confirmatorio, Inferencia Bayesiana y Pruebas de Datos Sustitutos en el Marco del Transductor Inferencial de Coherencia por Acoplamiento Magnetotalámico

Corpus Papayaykware · Documento TICAM-F5 Autor conceptual: Claude (Anthropic) · Director del corpus: Javi Ciborro (@papayaykware) 

Abstract

La Fase 5 del Roadmap TICAM-1 afronta el problema estadístico central de cualquier programa de investigación sobre acoplamiento entre variables geofísicas y neurobiológicas: el sesgo confirmatorio. Cuando una teoría es internamente coherente y sus proponentes están comprometidos con ella, la probabilidad de encontrar "evidencia" espuria mediante análisis post-hoc, selección de subconjuntos de datos o elección flexible de métricas es sistemáticamente no trivial. Esta fase introduce un protocolo de validación estructurado en cuatro pilares: (1) uso exclusivo de datasets abiertos y prerregistro de hipótesis; (2) exigencia de replicación independiente y cruzada; (3) inferencia bayesiana con priors explícitos y calibrados; y (4) pruebas de datos sustitutos (surrogate data testing) y permutaciones como estándar mínimo de referencia nula. El objetivo no es demostrar que TICAM es correcto. Es construir las condiciones bajo las cuales podría demostrarse que está equivocado, y hacerlo de forma transparente, reproducible y resistente a la manipulación interpretativa.

Palabras clave: validación estadística, sesgo confirmatorio, inferencia bayesiana, Monte Carlo, surrogate data testing, pruebas de permutación, datasets abiertos, replicación, predicción fuera de muestra, factor de Bayes, TICAM-1, coherencia geomagnética, EEG, falsabilidad. 

El problema real: el sesgo confirmatorio en ciencia integrativa

Hay un tipo de error que no aparece en los manuales de estadística clásica pero que destruye más investigación que cualquier otro: el sesgo confirmatorio. No es deshonestidad deliberada. Es algo más sutil y más peligroso. Es la tendencia estructural de cualquier investigador —cualquiera— a interpretar los datos de manera que confirmen lo que ya creía antes de recogerlos.

En marcos teóricos integrativos como TICAM, este riesgo se multiplica. La riqueza del espacio analítico —múltiples canales de señal, múltiples bandas de frecuencia, múltiples retardos temporales, múltiples métricas de coherencia— crea un "universo de decisiones" en el que es estadísticamente inevitable encontrar alguna correlación significativa si se busca con suficiente flexibilidad. Esto tiene nombre técnico: p-hacking, o más formalmente, el problema de la inflación del error de tipo I por comparaciones múltiples no controladas.

El problema se agudiza en el dominio específico de TICAM por una razón adicional. Las variables geofísicas —índices Kp, Dst, flujo solar, resonancias Schumann— exhiben variabilidad natural de amplio espectro que correlaciona inevitablemente con docenas de variables biológicas a través de mecanismos completamente ajenos al mecanismo TICAM propuesto (cambios en ritmo circadiano, temperatura, presión atmosférica, comportamiento social modulado por condiciones meteorológicas). Distinguir señal real de correlación espuria en ese contexto requiere un aparato estadístico explícitamente diseñado para ello.

La Fase 5 existe para construir ese aparato. No como formalidad metodológica, sino como núcleo epistemológico del programa. 

Prerregistro y datasets abiertos: la arquitectura de la transparencia

Prerregistro como compromiso vinculante

El prerregistro no es un procedimiento burocrático. Es un contrato epistémico. Consiste en especificar, antes de ver los datos, exactamente qué se va a medir, cómo se va a analizar y qué resultado se considerará confirmatorio o refutatorio de cada hipótesis. Una vez que los datos están disponibles, ese protocolo no puede modificarse retroactivamente.

Para TICAM-F5, el prerregistro en OSF (Open Science Framework) debe incluir de forma vinculante:

  • Las tres hipótesis mínimas (H1, H2, H3) en su formulación exacta de la Fase 4.
  • Los cuatro módulos analíticos (M1–M4) con sus parámetros fijados: longitudes de ventana, rangos de lag, umbrales de significación, correcciones por comparaciones múltiples.
  • Los criterios de falsación operacionales para cada hipótesis, incluyendo el tamaño de efecto mínimo considerado teóricamente relevante (no solo el umbral de significación).
  • El plan de análisis de sensibilidad: qué decisiones analíticas alternativas se explorarán y cómo se reportarán.

Este último punto es crucial. El análisis de sensibilidad no es una concesión a la flexibilidad analítica. Es exactamente lo contrario: es la declaración anticipada de que se explorarán alternativas y se reportarán todas, incluyendo las que debiliten el resultado principal. Un resultado que se sostiene bajo múltiples especificaciones analíticas razonables es cualitativamente más sólido que uno que solo aparece bajo una configuración particular.

Datasets abiertos y replicación cruzada

La dependencia exclusiva en datos propios es una vulnerabilidad estructural de cualquier programa de investigación. Un resultado que solo emerge en el laboratorio de quien lo predijo es, en el mejor de los casos, preliminar. En el peor, es artefacto.

TICAM-F5 integra tres fuentes de datos abiertos preexistentes que permiten replicación independiente sin necesidad de nueva recolección:

NOAA/NGDC Geomagnetic Data: Índices Kp, Dst, Ap y datos de estaciones individuales con resolución de 1 minuto. Disponibles desde 1932 para índices de resumen y desde la década de 1990 para datos de alta resolución. Permite análisis histórico de largo plazo y validación de patrones TICAM en ventanas temporales no seleccionadas por el investigador.

INTERMAGNET Network: Red global de observatorios geomagnéticos con datos vectoriales (Bx, By, Bz) a 1 Hz en tiempo real y archivados. La distribución geográfica de los observatorios permite evaluar si los efectos TICAM son globales, regionales o dependientes de la latitud geomagnética —una predicción diferenciada que el marco METFI puede hacer explícita.

OpenNeuro y PhysioNet: Repositorios de datos EEG y fisiológicos abiertos con miles de sujetos. PhysioNet incluye específicamente datasets de HRV y EEG simultáneos en condiciones de reposo y tarea. Aunque estos datasets no fueron recogidos con el propósito de testear TICAM, su combinación con datos geomagnéticos simultáneos (indexados por fecha y hora de registro) permite un análisis de replicación no planificado por los recolectores originales, lo que elimina el sesgo de selección experimental.

La estrategia de replicación opera en dos niveles. Replicación interna: el mismo pipeline analítico aplicado a distintos subconjuntos del dataset propio (partición temporal, partición por sujeto). Replicación externa: el mismo pipeline aplicado a combinaciones de datasets abiertos sin ninguna intervención del equipo de investigación sobre la selección de los datos. 

Inferencia bayesiana: más allá del p-valor

Por qué el p-valor no es suficiente

El valor p mide la probabilidad de obtener los datos observados (o más extremos) bajo la hipótesis nula. No mide la probabilidad de que la hipótesis alternativa sea cierta. Esta distinción, frecuentemente ignorada en la práctica, es especialmente crítica en el dominio TICAM, donde la hipótesis nula (ausencia de acoplamiento) y la hipótesis alternativa (acoplamiento magnetotalámico real) tienen plausibilidades a priori muy distintas según el marco teórico que se adopte.

Un p = 0.04 en un experimento de acoplamiento EEG-geomagnético puede significar cosas muy distintas dependiendo de qué tan plausible era el efecto antes del experimento. Si el mecanismo propuesto tiene base biofísica sólida (magnetita cerebral documentada, sensibilidad de canales iónicos a campos débiles, precedentes en otros organismos), el prior a favor de la hipótesis alternativa es no trivial y el p = 0.04 actualiza sustancialmente la probabilidad posterior. Si el mecanismo no tuviera base física alguna, ese mismo p = 0.04 sería casi con certeza un falso positivo.

La inferencia bayesiana formaliza exactamente esta lógica.

Factor de Bayes como métrica principal

El Factor de Bayes (BF) cuantifica cuánto más probable es observar los datos bajo la hipótesis alternativa que bajo la hipótesis nula. BF > 10 constituye evidencia fuerte a favor de la hipótesis alternativa; BF < 1/10, evidencia fuerte a favor de la nula; valores intermedios representan evidencia ambigua que requiere datos adicionales.

Para TICAM-F5, el cálculo de BF requiere especificar explícitamente la distribución prior sobre el tamaño del efecto bajo la hipótesis alternativa. Dos opciones metodológicamente defensibles:

Prior de Cauchy escalado (Rouder et al., 2009): Distribución no informativa que asigna probabilidad sustancial a efectos de distintos tamaños sin favorecer ninguno a priori. Adecuado para H1 y H3, donde la literatura precedente no permite estimar el tamaño del efecto con precisión.

Prior informativo calibrado por literatura: Para H2 (criticalidad y sensibilidad aumentada), la literatura sobre brain criticality proporciona estimaciones del rango de efectos esperables. Un prior Gaussiano centrado en δ = 0.4 (tamaño de efecto medio según Shew & Plenz, 2013) con σ = 0.2 es epistemológicamente más eficiente que el prior no informativo, pero requiere justificación explícita.

El BF se calcula mediante integración numérica (cuadratura de Gauss o método de puente de muestreo) sobre el espacio de parámetros del modelo. Se reportará la distribución posterior completa, no solo el valor puntual.

Actualización secuencial bayesiana

Una ventaja específica de la inferencia bayesiana para el diseño TICAM es la posibilidad de actualización secuencial: a medida que se incorporan nuevos participantes, nuevas sesiones o nuevos datasets de replicación, el BF se actualiza continuamente sin incurrir en inflación del error de tipo I. Esto permite un diseño de "muestreo hasta la evidencia suficiente" (Bayesian sequential testing) que es estadísticamente más eficiente que el diseño de tamaño muestral fijo y metodológicamente más transparente que las paradas anticipadas no planificadas.

En la práctica, esto significa que el programa puede definir tres zonas de decisión: BF > 10 (evidencia suficiente a favor de TICAM, continuar con replicación); BF < 1/10 (evidencia suficiente contra TICAM, revisar mecanismo); 1/10 ≤ BF ≤ 10 (evidencia insuficiente, continuar recolectando datos). 

Simulación Monte Carlo: cartografía del espacio nulo

Lógica del enfoque

La simulación Monte Carlo en el contexto TICAM-F5 cumple una función diferente a la que cumple en la Fase 4. Allí, el objetivo era generar datos sintéticos TICAM-compatibles para validar el pipeline. Aquí, el objetivo es construir la distribución nula empírica: el conjunto de valores que las métricas de coherencia, causalidad y topología tomarían si no existiera ningún acoplamiento real entre las variables geomagnéticas y las variables neurobiológicas.

Esta distribución nula empírica —generada mediante miles de realizaciones de modelos nulos apropiados— es más informativa que la distribución nula paramétrica estándar (gaussiana o chi-cuadrado) porque captura la estructura de dependencia real de las series temporales, incluyendo sus propiedades espectrales, su no estacionariedad y sus correlaciones de largo alcance.

Modelos nulos específicos para TICAM

Para cada hipótesis, se diseñan modelos nulos que preservan las propiedades estadísticas relevantes de los datos pero destruyen el acoplamiento específico que se quiere detectar:

Modelo nulo para H1 (precedencia geomagnética sobre EEG): Generación de series geomagnéticas sintéticas con el mismo espectro de potencia que las reales (mediante transformada de Fourier con fase aleatoria), pero sin relación causal con las series EEG. Esto preserva la estructura espectral de la señal geomagnética —incluyendo las resonancias Schumann y las modulaciones diurnas— pero destruye cualquier precedencia temporal respecto al EEG. Bajo este modelo nulo, la causalidad de Granger Bz → EEG debería ser estadísticamente nula.

Modelo nulo para H2 (criticalidad y sensibilidad): Generación de épocas "pseudo-críticas" seleccionadas aleatoriamente del dataset (sin criterio de criticalidad estadística), con el mismo número de épocas que las épocas críticas reales. Cualquier diferencia en el índice de coherencia EEG-geomagnético entre épocas críticas reales y pseudo-críticas aleatorias, si supera lo observable bajo este modelo nulo, constituye evidencia a favor de H2.

Modelo nulo para H3 (triángulo autonómico): Sustitución de las series HRV por series de HRV de otro sujeto registrado en condición geomagnética diferente, manteniendo la señal EEG y geomagnética originales. Esto preserva las propiedades individuales de la HRV pero destruye cualquier sincronización triádica real. El clustering espectral EEG-HRV-Bz observado en los datos reales se compara con la distribución de clustering bajo este modelo nulo.

Cada modelo nulo se simula con N ≥ 10.000 realizaciones, generando distribuciones nulas empíricas robustas. El estadístico observado en los datos reales se localiza en esa distribución y se extrae el p-valor empírico correspondiente. 

Surrogate data testing: el estándar de referencia

Fundamento teórico

Los surrogate data (datos sustitutos) representan el estándar metodológico más riguroso para distinguir estructura no lineal real de artefactos en series temporales. Desarrollados por Theiler et al. (1992) en el contexto del análisis de sistemas caóticos, los surrogates son series temporales artificiales que comparten con los datos originales todas sus propiedades lineales —media, varianza, autocorrelación, espectro de potencia— pero tienen sus propiedades no lineales (y por tanto cualquier acoplamiento de fase genuino) destruidas mediante aleatorización de fase.

La lógica es precisa. Si una métrica de acoplamiento no lineal (coherencia de fase, transferencia de entropía, correlación de Pearson sobre envolventes) toma un valor significativamente mayor en los datos reales que en sus surrogates, eso implica que la métrica está capturando estructura que no puede explicarse por las propiedades lineales de las series. En el contexto TICAM, eso equivale a evidencia de acoplamiento genuino, no de correlación espectral trivial.

Algoritmos de generación de surrogates

AAFT (Amplitude Adjusted Fourier Transform surrogates, Theiler et al., 1992): Surrogates que preservan exactamente el espectro de amplitud y la distribución de amplitudes de la serie original, aleatorizando únicamente las fases. Adecuados como primera línea de prueba para todas las hipótesis TICAM.

iAAFT (iterative AAFT, Schreiber & Schmitz, 1996): Versión iterativa que mejora la convergencia en series con distribuciones de amplitud no gaussianas, habitual en señales EEG y HRV. Preferible sobre AAFT estándar para datos biológicos.

Block bootstrap surrogates: Para datos no estacionarios (como las series de actividad geomagnética con tendencias lentas), el bootstrap por bloques preserva las correlaciones de corto alcance sin asumir estacionariedad. Necesario para las series geomagnéticas de largo período.

TISEAN surrogates: Suite de algoritmos implementados en el paquete TISEAN (Hegger et al., 1999), que incluye surrogates para datos con tendencias polinomiales y datos multivariados. Relevante para el módulo M4 (TDA-TICAM), donde el objeto de análisis es la nube de puntos multivariada, no las series univariadas.

Protocolo de aplicación

Para cada métrica de cada módulo (M1–M4), el protocolo de surrogate testing es:

  1. Calcular la métrica en los datos reales: valor observado Q_obs.
  2. Generar N = 1.000 surrogates iAAFT de la señal geomagnética (preservando las series neurobiológicas intactas).
  3. Calcular la métrica en cada surrogate: distribución {Q_s₁, Q_s₂, ..., Q_s₁₀₀₀}.
  4. Calcular el rango de Q_obs en la distribución surrogate: p_surrogate = rank(Q_obs) / (N+1).
  5. Criterio de significación: p_surrogate < 0.01 (umbral más conservador que el estándar de 0.05, justificado por la multiplicidad de métricas).

El umbral p < 0.01 —más conservador que el convencional 0.05— se justifica por el número de métricas que se calculan simultáneamente (al menos una por módulo, cuatro módulos, tres hipótesis = O(12) comparaciones). La corrección de Bonferroni convencional llevaría el umbral a p < 0.004, lo que se adopta como criterio de falsabilidad definitivo. 

Pruebas de permutación: robustez no paramétrica

Lógica y ventajas

Las pruebas de permutación constituyen el complemento natural del surrogate testing. Donde los surrogates preservan la estructura temporal de las series pero destruyen el acoplamiento entre ellas, las pruebas de permutación operan sobre los índices de clasificación de los sujetos o las condiciones.

La ventaja clave de las permutaciones es la ausencia de supuestos distribucionales. No asumen normalidad, homogeneidad de varianza ni independencia de observaciones más allá de lo especificado en el esquema de permutación. En conjuntos de datos pequeños —inevitables en la fase piloto de TICAM— donde los supuestos paramétricos son difícilmente verificables, las permutaciones son metodológicamente más defensibles que los test t o F clásicos.

Aplicaciones específicas en TICAM-F5

Permutación de etiquetas de condición geomagnética: Para comparar métricas de coherencia entre condiciones geomagnéticas contrastadas (Kp alto vs. Kp bajo), se permutan aleatoriamente las etiquetas de condición entre sesiones de registro. Esto genera la distribución de la diferencia de medias bajo la hipótesis nula de intercambiabilidad. Si la diferencia observada supera el percentil 99 de esa distribución, se rechaza la nula.

Permutación de sujeto: Para evaluar si el efecto es consistente entre individuos o está dominado por uno o dos sujetos con alta sensibilidad magnética, se construye la distribución permutada asignando aleatoriamente los datos geomagnéticos a sujetos distintos de los que los experimentaron. Una diferencia consistente en la dirección predicha en la mayoría de los sujetos, que supera la distribución de permutaciones, sugiere un efecto generalizable.

Permutación de retardo temporal: Para verificar que el retardo temporal encontrado en la causalidad de Granger (H1) no es un artefacto de la estructura autocorrelada de las series, se aplica permutación circular: la serie geomagnética se desplaza en el tiempo por una cantidad aleatoria (circular shift), destruyendo cualquier relación temporal genuina mientras se preserva el espectro de potencia. Si la causalidad observada supera la distribución bajo permutación circular, el retardo detectado es estructura real, no artifact de autocorrelación. 

Predicción fuera de muestra: el test definitivo

Ningún arsenal estadístico —por sofisticado que sea— es tan convincente como la predicción exitosa sobre datos no vistos. La predicción fuera de muestra es el criterio final de un modelo que dice algo genuino sobre el mundo, no uno sobreajustado a los datos con los que fue entrenado.

Diseño del esquema de predicción

TICAM-F5 implementa un esquema de predicción fuera de muestra en dos modalidades:

Cross-validation temporal (leave-one-session-out): El modelo de coherencia EEG-geomagnética entrenado sobre N-1 sesiones de registro se utiliza para predecir el estado de coherencia EEG en la sesión restante, dada solo la señal geomagnética de esa sesión. La métrica de evaluación es el coeficiente de correlación entre coherencia EEG predicha y observada, promediado sobre las N particiones.

Predicción prospectiva: Una vez entrenado el modelo sobre el conjunto completo de datos de la fase piloto, se realizan predicciones sobre nuevas sesiones de registro recogidas en los seis meses siguientes, sin ningún ajuste del modelo. Esta modalidad —la más exigente— elimina cualquier posibilidad de sobreajuste temporal o estratégico.

Métricas de evaluación predictiva

RMSE (Root Mean Square Error): Medida de error absoluto, sensible a predicciones muy erróneas.

R² fuera de muestra: Fracción de varianza de la coherencia EEG explicada por la predicción geomagnética. Un R² > 0 sobre datos no vistos ya descarta el sobreajuste; R² > 0.15 sobre datos fuera de muestra sería un resultado cualitativamente sustantivo para un acoplamiento de esta naturaleza.

Calibración probabilística: Si el modelo produce predicciones distribucionales (bayesianas), se evalúa la calibración: los intervalos de credibilidad del X% deben contener el valor observado en aproximadamente X% de las predicciones. Una calibración perfecta indica que las incertidumbres del modelo son realistas. 

Gestión de la multiplicidad: control del error de tipo I familiar

El conjunto de hipótesis y módulos TICAM genera inevitablemente múltiples comparaciones. Con tres hipótesis, cuatro módulos, múltiples bandas de frecuencia y múltiples métricas por módulo, el número de pruebas estadísticas es del orden de O(50–100). Sin control explícito, la probabilidad de al menos un falso positivo bajo la hipótesis nula global es cercana a 1.

TICAM-F5 adopta una jerarquía de corrección por multiplicidad:

Nivel 1 — Hipótesis primarias (H1, H2, H3): Corrección de Bonferroni sobre tres pruebas. Umbral efectivo: α = 0.0167. Estas son las pruebas que determinan si el marco TICAM recibe o no respaldo empírico.

Nivel 2 — Módulos de seguimiento (M1–M4): Corrección FDR (False Discovery Rate, Benjamini & Hochberg, 1995) dentro de cada módulo. Controla la proporción esperada de falsas detecciones entre los resultados declarados significativos, sin ser tan conservador como Bonferroni cuando el número de pruebas es grande.

Nivel 3 — Análisis exploratorio: Las comparaciones no prerregistradas —incluyendo análisis de subgrupos, efectos de interacción no anticipados y métricas alternativas— se reportan explícitamente como exploratorias, sin corrección, pero también sin interpretación confirmatoria. Son generadoras de hipótesis para un ciclo experimental posterior.

Esta jerarquía tripartita es la práctica estándar recomendada por la literatura de reformas estadísticas en neurociencia (Ioannidis, 2005; Nosek et al., 2015; Szucs & Ioannidis, 2017). 

Resumen

  • La Fase 5 es el dispositivo anti-confirmatorio del corpus TICAM, diseñado específicamente para que los resultados positivos sean difíciles de obtener de forma espuria y los negativos, imposibles de ignorar.
  • El prerregistro en OSF vincula previamente las hipótesis, métricas, umbrales y criterios de falsación antes de cualquier contacto con los datos, eliminando la flexibilidad analítica post-hoc.
  • Tres fuentes de datasets abiertos (NOAA/NGDC, INTERMAGNET, OpenNeuro/PhysioNet) permiten replicación independiente del pipeline TICAM sin necesidad de recolección adicional de datos propios.
  • La inferencia bayesiana con Factor de Bayes supera las limitaciones del p-valor, cuantificando la evidencia relativa a favor de la hipótesis alternativa sobre la nula, con priors explícitos y calibrados.
  • El diseño de muestreo secuencial bayesiano define tres zonas de decisión (BF > 10, BF < 1/10, zona ambigua) que permiten actualización continua de la evidencia sin inflación del error de tipo I.
  • La simulación Monte Carlo construye distribuciones nulas empíricas específicas para cada hipótesis, preservando la estructura espectral y de dependencia de los datos reales pero destruyendo el acoplamiento específico que se quiere detectar.
  • El surrogate data testing (iAAFT) con N = 1.000 realizaciones y umbral p < 0.004 (Bonferroni sobre O(12) métricas) es el estándar de significación para detectar acoplamiento genuino no explicable por propiedades lineales de las series.
  • Las pruebas de permutación (etiquetas de condición, sujeto, retardo circular) proporcionan validación no paramétrica robusta sin supuestos distribucionales, especialmente valiosa en la fase piloto de tamaño muestral reducido.
  • La predicción fuera de muestra —coherencia EEG predicha a partir solo de la señal geomagnética, sobre sesiones no vistas— es el criterio final de validez del modelo; R² > 0.15 en datos prospectivos sería un resultado cualitativamente sustantivo.
  • La jerarquía tripartita de corrección por multiplicidad (Bonferroni para hipótesis primarias, FDR para módulos, sin corrección pero explícitamente exploratorio para el resto) garantiza el control del error de tipo I familiar sin sacrificar potencia estadística innecesariamente.
  • La Fase 5 integra y cierra el ciclo TICAM-F4: los mismos cuatro módulos (M1–M4) diseñados en la Fase 4 son ahora sometidos al protocolo completo de validación estadística, convirtiendo el programa experimental en un ciclo hipótesis → diseño → validación formalmente cerrado. 

Referencias 

  1. Theiler, J., Eubank, S., Longtin, A., Galdrikian, B., & Farmer, J. D. (1992). Testing for nonlinearity in time series: the method of surrogate data. Physica D, 58(1–4), 77–94. → Artículo fundacional del surrogate data testing. Introduce la lógica de la aleatorización de fase como prueba de no linealidad. Referencia metodológica ineludible para el protocolo de Fase 5.
  2. Schreiber, T., & Schmitz, A. (1996). Improved surrogate data for nonlinearity tests. Physical Review Letters, 77(4), 635. → Introduce el algoritmo iAAFT, superior al AAFT original para datos con distribuciones de amplitud no gaussianas. Base del protocolo de surrogate testing en TICAM-F5.
  3. Rouder, J. N., Speckman, P. L., Sun, D., Morey, R. D., & Iverson, G. (2009). Bayesian t tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review, 16(2), 225–237. → Introduce el Factor de Bayes con prior de Cauchy escalado como alternativa principista al p-valor. Metodología adoptada para las pruebas de las hipótesis H1–H3.
  4. Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society B, 57(1), 289–300. → Artículo original del procedimiento FDR. Adoptado para el control de multiplicidad en los módulos M1–M4, como alternativa a Bonferroni menos conservadora cuando el número de pruebas es elevado.
  5. Ioannidis, J. P. A. (2005). Why most published research findings are false. PLOS Medicine, 2(8), e124. → Análisis formal de la tasa de falsos positivos en la literatura científica en función del poder estadístico, la multiplicidad de hipótesis y el sesgo confirmatorio. Justificación teórica del diseño anti-confirmatorio de Fase 5.
  6. Nosek, B. A., et al. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. → El estudio de reproducibilidad más influyente de la última década: replica 100 estudios psicológicos y encuentra que menos del 40% replican. Argumento empírico para el énfasis en prerregistro y replicación independiente.
  7. Hegger, R., Kantz, H., & Schreiber, T. (1999). Practical implementation of nonlinear time series methods: The TISEAN package. Chaos, 9(2), 413–435. → Suite de algoritmos de análisis de series temporales no lineales, incluyendo múltiples tipos de surrogates. Implementación de referencia para el módulo M4 (TDA-TICAM).
  8. Wagenmakers, E.-J., et al. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 25(1), 35–57. → Revisión exhaustiva de las ventajas de la inferencia bayesiana sobre la estadística frecuentista, con ejemplos de aplicación en neurociencia cognitiva. Base conceptual del apartado 3 de Fase 5.
  9. Szucs, D., & Ioannidis, J. P. A. (2017). Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. PLOS Biology, 15(3), e2000797. → Análisis empírico de la inflación de tamaño de efecto y baja potencia estadística en neurociencia publicada. Justifica la exigencia de análisis de potencia a priori y diseño de tamaño muestral basado en efectos esperables conservadores.
  10. Meinshausen, N., & Bühlmann, P. (2010). Stability selection. Journal of the Royal Statistical Society B, 72(4), 417–473. → Método de selección estable de variables mediante submuestreo, que garantiza control del error de selección falsa en modelos de alta dimensionalidad. Relevante para la selección de bandas de frecuencia y retardos temporales en los módulos M1 y M3 sin incurrir en sobreajuste. 

Documento TICAM-F5 · Corpus Papayaykware · Mayo 2026 Autor conceptual: Claude (Anthropic) · Director del corpus: Javi Ciborro (@papayaykware) github.com/papayaykware · papayaykware.blogspot.com

Comentarios

Entradas populares