Pulse aquí para volver atrás
Puede consultar la versión completa en inglés PULSANDO AQUÍ

Examen físico de la radiculopatía lumbar debida a herniación discal en pacientes con dolor lumbar
Daniëlle AWM van der Windt, Emmanuel Simons, Ingrid I Riphagen, Carlo Ammendolia, Arianne P Verhagen, Mark Laslett, Walter Devillé, Rick A Deyo, Lex M Bouter, Henrica CW de Vet, Bert Aertgeerts
Esta revisión debería citarse como: Daniëlle AWM van der Windt, Emmanuel Simons, Ingrid I Riphagen, Carlo Ammendolia, Arianne P Verhagen, Mark Laslett, Walter Devillé, Rick A Deyo, Lex M Bouter, Henrica CW de Vet, Bert Aertgeerts. Examen físico de la radiculopatía lumbar debida a herniación discal en pacientes con dolor lumbar (Revision Cochrane traducida). En: Biblioteca Cochrane Plus 2010 Número 2. Oxford: Update Software Ltd. Disponible en: http://www.update-software.com. (Traducida de The Cochrane Library, 2010 Issue 2 Art no. CD007431. Chichester, UK: John Wiley & Sons, Ltd.).

Resumen

Antecedentes

El dolor lumbar con dolor en la pierna (ciática) puede ser causado por una hernia de disco intervertebral que ejerce presión en la raíz nerviosa. La mayoría de los pacientes responderán al tratamiento conservador, pero, en pacientes cuidadosamente seleccionados, la disquectomía quirúrgica puede proporcionar alivio más rápido de los síntomas. Los médicos de atención primaria usan los antecedentes clínicos del paciente y el examen físico para evaluar la probabilidad de herniación discal y seleccionan pacientes para estudios por imágenes adicionales y posible cirugía.

Objetivos

(1) Evaluar la precisión de las pruebas realizadas durante el examen físico (solas o en combinación) para identificar la radiculopatía debida a herniación discal lumbar inferior en pacientes con dolor lumbar y ciática.

(2) Evaluar la influencia de las fuentes de heterogeneidad en la precisión del diagnóstico.

Estrategia de búsqueda

Se buscaron estudios primarios en las siguientes bases de datos electrónicas: PubMed (incluye MEDLINE), EMBASE y CINAHL y revisiones (sistemáticas): PubMed y Medion (todas anteriores al 30 de abril de 2008), y se verificaron las referencias de los artículos recuperados.

Criterios de selección

Se consideraron los estudios que compararon los resultados de las pruebas realizadas durante el examen físico en pacientes con dolor lumbar con los estudios de diagnóstico por imágenes (RM, TC, mielografía) o los hallazgos en una cirugía.

Obtención y análisis de los datos

Dos revisores evaluaron la calidad de cada publicación con la herramienta QUADAS y extrajeron los detalles sobre las características de los pacientes y el diseño del estudio, las pruebas índice y el estándar de referencia, y la tabla de diagnóstico de dos por dos. Se presentó información sobre las sensibilidades y las especificidades con intervalos de confianza del 95% (IC del 95%) para todos los aspectos del examen físico. Se calcularon las estimaciones agrupadas de sensibilidad y especificidad para los subconjuntos de estudios que mostraron suficiente homogeneidad clínica y estadística.

Resultados principales

Se incluyeron 16 estudios de cohorte (mediana de N = 126; rango 71 a 2 504) y tres estudios de casos y controles (38 a 100 casos). Sólo se realizó un estudio en una población de atención primaria. Cuando se usó en forma aislada, la precisión del diagnóstico de la mayoría de las pruebas físicas (escoliosis, paresia o debilidad muscular, atrofia muscular, alteración de los reflejos, déficits sensitivos) fue deficiente. Algunas pruebas (flexión anterógrada, prueba de hiperextensión y prueba de posición de desplome o slump test) tuvieron resultados ligeramente superiores, sin embargo, el número de estudios fue pequeño. En el un estudio de atención primaria, la mayoría de las pruebas mostraron una mayor especificidad y una menor sensibilidad en comparación con otros ámbitos.

La mayoría de los estudios evaluó la prueba de elevación de la pierna derecha. En las poblaciones quirúrgicas, caracterizadas por una alta prevalencia de herniación discal (58% a 98%), la prueba de elevación de la pierna derecha mostró sensibilidad alta (estimación agrupada 0,92; IC del 95%: 0,87 a 0,95) con especificidad ampliamente variable (0,10 a 1,00; estimación agrupada 0,28; IC del 95%: 0,18 a 0,40). Los resultados de los estudios que evaluaron los estudios por imágenes mostraron más heterogeneidad y sensibilidad deficiente. La prueba de elevación de la pierna derecha mostró especificidad alta (estimación agrupada 0,90; IC del 95%: 0,85 a 0,94) con sensibilidad sistemáticamente baja (estimación agrupada 0,28; IC del 95%: 0,22 a 0,35).

La combinación de los resultados positivos de la prueba aumentó la especificidad de las pruebas físicas; sin embargo, pocos estudios presentaron datos sobre las combinaciones de pruebas.

Conclusiones de los autores

Cuando se usaron en forma aislada, las pruebas actuales indican una precisión del diagnóstico deficiente de la mayoría de las pruebas físicas usadas para identificar la herniación discal lumbar. Sin embargo, la mayoría de los resultados proviene de poblaciones quirúrgicas y quizá no se apliquen a la atención primaria o las poblaciones no seleccionadas. Puede obtenerse una mejor precisión cuando se combinan las pruebas.

Antecedentes

Enfermedad de interés diagnosticada

El dolor lumbar es una causa común de discapacidad en los países industrializados occidentales. Aunque muchas personas presentan al menos un episodio de dolor lumbar en su vida, en hasta 85% de los pacientes, no se identifica ninguna patología específica (Deyo 1992). En los pacientes que informan síntomas que se irradian hacia a la pierna (ciática), los médicos evalúan las posibles causas de radiculopatía (compresión de la raíz nerviosa) a través de los antecedentes clínicos del paciente y el examen físico. Una de las causas puede ser una hernia de disco intervertebral (protuberancia, extrusión o secuestro de disco) que ejerce presión en la raíz nerviosa. Las hernias de disco en general se presentan sin síntomas, y se detectan por estudios por imágenes de resonancia magnética en las personas asintomáticas. Son sólo clínicamente pertinentes cuando se produce pinzamiento de una raíz nerviosa, lo que provoca radiculopatía (ciática, si las raíces lumbares inferiores se ven afectadas). La gran mayoría de estos pacientes (aproximadamente 90% a 95%) responderá al tratamiento conservador (Deyo 1990), sin embargo, en pacientes cuidadosamente seleccionados la disquectomía quirúrgica puede otorgar alivio más rápido del ataque agudo que el tratamiento conservador (Gibson 2007). Sin embargo, se desconocen sus efectos positivos o negativos en la evolución natural a largo plazo de la enfermedad discal subyacente (Gibson 2007; Peul 2007; Weinstein 2006), y al tomar decisiones para la cirugía, en general, se tienen en cuenta las preferencias de los pacientes además del criterio clínico.

Esta revisión sistemática estudia el diagnóstico de radiculopatía como resultado de la herniación discal lumbar. Un diagnóstico de herniación discal lumbar a menudo está basado en los resultados de estudios por imágenes, entre ellos, resonancia magnética (RM), tomografía computadorizada (TC) o mielografía. Se ha discutido la calidad de los estudios de diagnóstico por imágenes como prueba de referencia, ya que las hernias de disco pueden aparecer en los estudios por imágenes en un 20% a un 30% de personas sin síntomas (Boden 1990). Por lo tanto, a menudo se usan los hallazgos quirúrgicos para confirmar el diagnóstico. La desventaja de usar los hallazgos quirúrgicos como estándar de referencia es que estos estudios incluyen una muestra sumamente selectiva de pacientes que recibieron cirugía y que tienen mucho más probabilidades de mostrar signos positivos durante el examen físico. Lo anterior da como resultado un riesgo alto de sesgo de verificación, que se presenta cuando los pacientes con resultados negativos en las pruebas no se evalúan con el estándar de referencia  

Pruebas índice

En los pacientes con dolor lumbar, los médicos o los terapeutas usan la información obtenida de los antecedentes clínicos y el examen físico para decidir un plan de tratamiento. Las pruebas físicas usadas más comúnmente incluyen la prueba de elevación de la pierna derecha, la prueba de Lasègue de elevación de la pierna derecha cruzada, los reflejos tendinosos y los signos de debilidad, atrofia o déficits sensitivos (Deyo 1992; Rebain 2002; Rebain 2003; van den Hoogen 1995). Parte de este plan de tratamiento incluye tomar decisiones acerca de la derivación para estudios por imágenes, o el valor potencial de la cirugía. Por lo tanto, la investigación de la precisión del diagnóstico es especialmente importante en los ámbitos de atención primaria. Una estrategia de diagnóstico precisa es importante porque no todas las radiculopatías son provocadas por herniación discal y, en consecuencia, no todos los pacientes que se someten a cirugía por presunta herniación discal tienen alivio del dolor después de la cirugía. Algunos estudios indican que ciertos resultados del examen físico (p.ej., resultados positivos en la prueba de elevación de la pierna derecha) pueden predecir mejores resultados de la cirugía y la quimionucleosis (Kim 2002; Kohlboeck 2004). Por consiguiente, los pacientes que, en función de los resultados del examen físico, tienen una probabilidad alta de radiculopatía debida a herniación discal pueden ser mejores candidatos a cirugía. Si no hay mejorías después de unas pocas semanas de atención no quirúrgica, estos pacientes generalmente son derivados para estudios por imágenes para obtener más información sobre la ubicación y la gravedad de la lesión.

Justificación

Hay muchas circunstancias que pueden influir en la precisión del diagnóstico del examen físico en el diagnóstico de radiculopatía, que incluyen el ámbito en el cual se realiza el examen físico (atención primaria o secundaria), las características de la población de estudio, la reproducibilidad (variación de las pruebas entre los observadores) y el estándar de referencia con el que se comparan las pruebas (estudios de diagnóstico por imágenes o hallazgos quirúrgicos).

Varias revisiones sistemáticas han resumido los resultados de los estudios disponibles sobre la precisión del diagnóstico del examen físico para la identificación de radiculopatía lumbar en estos pacientes (Devillé 2000; Deyo 1992; van den Hoogen 1995; Vroomen 1999). Tres de estas revisiones incluían una evaluación del riesgo de sesgo en los estudios de diagnóstico primarios (Devillé 2000; Deyo 1992; Vroomen 1999) y dos ofrecieron un resumen cuantitativo de los hallazgos (Devillé 2000; Vroomen 1999). Estas revisiones sistemáticas muestran que la mayoría de las pruebas físicas tienen sensibilidad adecuada, pero especificidad deficiente en la identificación de la herniación discal, mientras que algunas pruebas tienen especificidad alta y sensibilidad baja. La exactitud del diagnóstico varió considerablemente en los estudios incluidos en estas revisiones. Dadas las fechas de publicación de estas revisiones (entre 1992 y 2000), no han usado los métodos actuales para la evaluación de la calidad y la síntesis de datos, y los resultados no están actualizados. Esta revisión sistemática actual aporta pruebas actualizadas sobre la precisión del diagnóstico de varias pruebas realizadas durante el examen físico, incluye una evaluación de la calidad y evalúa la influencia de posibles fuentes de heterogeneidad.

Objetivos

Determinar la exactitud de diagnóstico de las pruebas realizadas durante el examen físico (individuales o en combinación) para el diagnóstico de radiculopatía debida a herniación discal lumbar según lo identificado durante los estudios por imágenes o la cirugía en los pacientes con dolor lumbar y ciática.

Investigación de fuentes de heterogeneidad

Un objetivo adicional fue evaluar la influencia de las fuentes de heterogeneidad en la exactitud de diagnóstico de las pruebas realizadas durante el examen físico, en particular, el tipo de estándar de referencia, el ámbito de asistencia sanitaria, el espectro de la enfermedad y el diseño del estudio.

Métodos

Criterios para la valoración de los estudios para esta revisión

Tipos de estudios

Se consideraron los estudios de diagnóstico primarios si compararon los resultados de las pruebas realizadas durante el examen físico en la identificación de radiculopatía debida a herniación discal lumbar con los resultados del estándar de referencia. Se encontraron estudios de cohortes y estudios de casos y controles y se incluyeron en la revisión. Sólo se incluyeron resultados de los informes completos.

Participantes

Se incluyeron estudios que evaluaron la exactitud de diagnóstico del examen físico en los pacientes con dolor lumbar que se irradia hacia la pierna (ciática) y con supuesta radiculopatía debida a herniación discal. Se incluyeron estudios realizados en la atención primaria y secundaria, y se estudió la influencia potencial del ámbito en la precisión del diagnóstico. Los resultados de los estudios realizados en la atención primaria se indicarán claramente en el texto y las tablas.

Pruebas índice

Los estudios sobre todas las pruebas relevantes del examen físico fueron elegibles para su inclusión, incluida la prueba de elevación de la pierna derecha (y la prueba de Lasègue), la prueba de elevación de la pierna derecha cruzada, paresia o debilidad muscular, déficits sensitivos, alteración de los reflejos y otros aspectos del examen físico que se propusieron como prueba de diagnóstico para identificar radiculopatía debida a herniación discal. Se incluyeron estudios en los que la precisión del diagnóstico de los aspectos individuales del examen físico se evaluó por separado, o en combinación. En el caso de una combinación, el estudio claramente debe describir qué pruebas están incluidas en la combinación, y cómo. Se excluyeron los estudios en lo que solamente un único diagnóstico clínico (una combinación desconocida de antecedentes clínicos y examen físico) se comparó con los resultados de un estándar de referencia.

Enfermedades de interés

Se seleccionaron los estudios de diagnóstico si el objetivo de la prueba de diagnóstico era investigar las causas de radiculopatía, y los resultados incluían casos de herniación discal lumbar inferior. Se excluyeron los estudios que sólo informaron otras causas de dolor lumbar o radiculopatía (p.ej., infección, tumor, artrosis grave o fracturas) y la prueba de diagnóstico tuvo como finalidad identificar estas afecciones.

Estándares de referencia

Se incluyeron los estudios si los resultados de un examen físico se compararon con 1) estudios de diagnóstico por imágenes: resonancia magnética (RM), tomografía computadorizada (TC), mielografía; o 2) hallazgos quirúrgicos. Se realizaron análisis separados (estratificados) para estos dos estándares de referencia diferentes, o los datos se presentaron claramente por separado. La definición exacta de un resultado positivo del estándar de referencia varió entre los estudios, entre ellos, abultamiento, protuberancia o extrusión de disco.

Métodos de búsqueda para la identificación de los estudios

Búsquedas electrónicas

La estrategia de búsqueda se desarrolló en colaboración con un especialista en información médica. Se efectuaron búsquedas en las bases de datos electrónicas pertinentes para los estudios de diagnóstico elegibles a partir del 30 abril de 2008: PubMed (incluye MEDLINE), EMBASE (mediante EMBASE.com) y CINAHL (mediante EBSCO host). La estrategia de búsqueda para MEDLINE se presenta en el Apéndice 1, y se adaptó para EMBASE (Apéndice 2) y CINAHL (Apéndice 3). Una revisión sistemática anterior sobre la precisión del diagnóstico de la prueba de elevación de la pierna derecha se usó como punto de referencia (Devillé 2000). Todas las publicaciones incluidas en esa revisión están indexadas en MEDLINE. La búsqueda se perfeccionó hasta que se identificaron las publicaciones en la revisión mediante la búsqueda. La estrategia usó varias combinaciones de las búsquedas relacionadas con la población de pacientes, los aspectos del examen físico y la enfermedad de estudio. Se agregó un filtro metodológico para la identificación de los estudios de diagnóstico primarios (búsqueda 4c) a algunos ítems de las búsquedas en PubMed y EMBASE para aumentar la especificidad de la búsqueda y para limitar la obtención a menos de 2 000 entradas. Este filtro es sumamente sensible y estuvo basado en parte en los resultados propuestos por Devillé y cols. (Devillé 2000a), y Bachman y cols. (Bachmann 2002; Bachmann 2003). Sin embargo, debido a que varios autores han recomendado un filtro metodológico para recuperar los estudios de la exactitud de diagnóstico (Doust 2005; Leeflang 2006), se realizaron análisis de sensibilidad, y se analizaron todas las citas adicionales de PubMed y EMBASE en función de la misma búsqueda, pero sin el uso de un filtro metodológico. Todas las referencias fueron administradas por el software Reference Manager, y se extrajeron los duplicados.

Búsqueda de otros recursos

Se revisaron las listas de referencias de todas las publicaciones relevantes recuperadas (estudios de diagnóstico primario). Si los estudios se informaron en los resúmenes o las actas de congresos, se buscaron las publicaciones completas. Se realizó una búsqueda electrónica adicional para identificar las revisiones pertinentes (sistemáticas) en MEDLINE y Medion (Se realizó una búsqueda electrónica adicional para identificar las revisiones pertinentes (sistemáticas) en MEDLINE y Medion (), y se verificaron sus referencias. Además, se estableció contacto con los investigadores en el campo de la investigación sobre dolor lumbar para identificar los estudios de diagnóstico adicionales. No se aplicó ninguna restricción en cuanto al idioma.

Obtención y análisis de los datos

Selección de los estudios

Dos revisores (BA y ES) aplicaron de forma independiente los criterios de selección a todas las citas (títulos y resúmenes) identificados por la estrategia de búsqueda descrita anteriormente. Las reuniones de consenso se organizaron para discutir cualquier desacuerdo con respecto a la selección. La selección final estuvo basada en una revisión de las publicaciones completas, que se recuperaron para todos los estudios que cumplieron con los criterios de selección, o para los que hubo incertidumbre con respecto a la selección. En los casos de desacuerdo continuo, se consultó a un tercer autor de la revisión (DvdW).

Extracción y manejo de los datos

Para cada estudio incluido, se usó un formulario estandarizado para extraer las características de los participantes, las pruebas índice y el estándar de referencia, y los aspectos de los métodos de los estudios.

  • Características de los participantes, incluido el ámbito (atención primaria/secundaria); criterios de inclusión y exclusión; la inclusión (consecutiva o no consecutiva); el número de sujetos (incluido el número elegible para el estudio, el número incluido en el estudio, el número de pacientes que recibieron la prueba índice y el estándar de referencia, el número para los cuales se informan los resultados en la tabla de dos por dos, los motivos de los retiros); la duración y los antecedentes de dolor lumbar y la presencia de la ciática.

  • Las características de la prueba incluían el tipo de prueba, los métodos de ejecución, la experiencia y los conocimientos especializados de los asesores, el tipo de estándar de referencia y los valores límite para diagnosticar radiculopatía debida a herniación discal lumbar. Los umbrales de positividad (interpretaciones de resultados “positivos”) pueden variar en los estudios, y algunos estudios pueden presentar precisión del diagnóstico de una prueba índice en varios puntos de corte diferentes. Se extrajeron los datos con respecto a los puntos de corte más usados en los estudios de la revisión.

  • Los aspectos de los métodos de estudio incluyeron el diseño básico del estudio (casos y controles, cohorte anticipada, o cohorte histórica con obtención de datos en función de los antecedentes clínicos), el tiempo y el tratamiento entre la prueba índice y el estándar de referencia, y la evaluación de calidad (ver la sección de evaluación de la calidad metodológica y Apéndice 4).

Se extrajo la tabla de diagnóstico de dos por dos (resultados verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos de la prueba índice) de las publicaciones o, de no estar disponibles, se reconstruyó la tabla de dos por dos con información sobre parámetros pertinentes (sensibilidad, especificidad o valores de predicción). Los estudios elegibles para los que la tabla de diagnóstico de dos por dos no pudo reconstruirse se presentaron en la revisión, pero no se incluyeron en los análisis cuantitativos. Dos revisores extrajeron de forma independiente los datos (ML y DvdW) para garantizar la confiabilidad adecuada de los datos obtenidos. Las discrepancias se resolvieron mediante consenso. Para cada estudio, se presentan aspectos del diseño del estudio, las características de los parámetros de población, la prueba índice, el estándar de referencia y los parámetros de diagnóstico (sensibilidad y especificidad) en las tablas. Para los estudios de cohorte solamente, se calculó la probabilidad anterior (prevalencia) de la herniación de disco como la proporción de pacientes en la cohorte diagnosticada con herniación discal lumbar según el estándar de referencia. Se usaron dos estudios de exactitud de diagnóstico no incluidos en la revisión (sobre la exactitud de diagnóstico del examen físico en pacientes con dolor de hombro) para realizar una prueba piloto del formulario de extracción de datos. Las discrepancias se resolvieron mediante consenso.

Evaluación de la calidad metodológica

Tres revisores (AV, CA, DvdW) evaluaron la calidad metodológica en cada estudio, mediante la lista de evaluación de la calidad de los estudios de exactitud de diagnóstico (QUADAS) (Whiting 2004). El Grupo de Trabajo Cochrane de Exactitud del Examen de Diagnóstico (Cochrane Diagnostic Test Accuracy Working Group) recomienda esta lista de verificación (Handbook 2005). La lista de verificación QUADAS consta de 11 ítems que se refieren a la validez interna (p.ej., evaluación cegada de la prueba índice y de referencia, o evitación de sesgo de verificación). Tres ítems adicionales descritos en el Manual de Revisores Cochrane de Diagnósticos (Handbook 2005) son de relevancia para esta revisión y también se calificaron. Estos ítems adicionales se refieren a la definición del umbral de positividad de la prueba índice, el tratamiento administrado entre la prueba índice y el estándar de referencia y la variación del observador.

Los autores calificaron cada elemento como “sí” (evaluación positiva, calidad superior), “no” (evaluación negativa, calidad inferior), o “incierto” (información insuficiente). Los revisores dispusieron de guías para la evaluación de cada criterio (Apéndice 4). Nuevamente, se evaluó previamente la evaluación de la calidad mediante dos estudios no incluidos en la revisión. Se cuantificó el acuerdo entre observadores al calcular el acuerdo de porcentaje para cada elemento de la lista de verificación. Las discrepancias se resolvieron por consenso, y de ser necesario, por opinión de un tercero (HdV).

No se aplicaron ponderaciones a los diferentes ítems de la lista de verificación y no se usó una puntuación resumida para incorporar los estudios con ciertos niveles de calidad en el análisis. Se exploró la influencia de las puntuaciones negativas en los ítems importantes mediante análisis de subgrupos o análisis de metarregresión (ver abajo). Los siguientes ítems, que mostraron afectar la precisión del diagnóstico en la investigación anterior (Lijmer 1999; Rutjes 2006) se consideraron para estos análisis: ítem 1 (variación de espectros/muestra selectiva), ítem 4 (sesgo de verificación), ítems 7 y 8 (interpretación cegada de la prueba de índice y el estándar de referencia) e ítem 11 (explicación de los retiros).

Análisis estadístico y síntesis de los datos

Los dos parámetros clave y comúnmente informados de la exactitud de la prueba de diagnóstico son la sensibilidad y la especificidad. Dado que puede existir una compensación entre estos dos parámetros, deben analizarse conjuntamente. Las sensibilidades y especificidades para cada prueba índice con intervalos de confianza del 95% se presentan en los diagramas de bosque. Además, se usó un gráfico de dispersión de estimaciones específicas del estudio de sensibilidad y especificidad para mostrar los datos en el espacio de la Característica operativa del receptor (ROC).

Para el agrupamiento de los resultados de sensibilidad y especificidad, se usó el análisis con dos variables (Reitsma 2005), que representa la variación dentro de cada estudio, la variación entre los estudios y cualquier correlación negativa que pudiera existir entre la sensibilidad y la especificidad.

El modelo de dos variables conserva la naturaleza bidimensional de los datos de diagnóstico al analizar directamente la sensibilidad y especificidad logit transformadas de cada estudio en un único modelo. El modelo produce los siguientes resultados: una estimación de efectos aleatorios de la sensibilidad media y la especificidad con los IC del 95% correspondientes, la cantidad de variación entre los estudios para la sensibilidad y la especificidad por separado, y la fuerza y la forma de la correlación entre la sensibilidad y la especificidad. Con el uso de estos resultados, se calculó una elipse de confianza del 95% (es decir, intervalo de confianza bifactorial) en cuanto a la estimación general de sensibilidad y especificidad. Todos los resultados se transformaron a la escala original, y se graficaron en el espacio ROC (Reitsma 2005). Se presentaron las estimaciones agrupadas de la sensibilidad y la especificidad si los estudios mostraron homogeneidad clínica (mismo estándar de referencia, definición similar de herniación discal) y los resultados de la sensibilidad y la especificidad mostraron homogeneidad estadística suficiente (inspección visual de estimaciones puntuales e intervalos de confianza). Se realizaron análisis bifactoriales con el programa informático STATA. Se usaron las estimaciones agrupadas de la sensibilidad y la especificidad para calcular el cociente de probabilidades de un resultado positivo de la prueba como sensibilidad/(1-especificidad), y un cociente de probabilidades de un resultado negativo de la prueba como (1-sensibilidad)/especificidad.

Investigaciones de la heterogeneidad

Varios factores (junto a la variabilidad en el umbral de positividad) pueden contribuir a la heterogeneidad en la precisión del diagnóstico en los estudios. Se usaron los análisis de subgrupos para investigar la influencia potencial de las diferencias del tipo de estándar de referencia (cirugía versus estudios por imágenes); la población de estudio (primaria versus atención secundaria, cirugía discal lumbar anterior), y el diseño del estudio (cohorte anticipada u otros diseños, puntuaciones en los ítems 1, 4, 7, 8 y 11 de la lista de verificación QUADAS). Dado el número pequeño de estudios por prueba, se estudió la influencia de no más de una covariable del nivel de estudio a la vez.

Finalmente, se resumieron los resultados de la revisión en una tabla resumida (Handbook 2005), que incluye un estimación general de la sensibilidad, la especificidad y los cocientes de probabilidades para las pruebas y los subgrupos pertinentes de los estudios (p.ej., estudios sobre pacientes de atención primaria o secundaria y estudios que usaron diferentes estándares de referencia). Si no se podía calcular la estimación agrupada, se presentó el rango de sensibilidad y especificidad para cada prueba índice. La prevalencia de la enfermedad de estudio (herniación discal lumbar) en las poblaciones del estudio se presenta junto con las medidas de precisión del diagnóstico.

Resultados

Resultados de la búsqueda

Se identificaron 1529 citas a partir de las búsquedas electrónicas en PubMed, 793 citas adicionales en EMBASE y 321 en CINAHL. Una búsqueda que se dirigió a la identificación de las revisiones identificó 20 citas de la base de datos Medion y 226 de PubMed. Se verificaron las referencias de las revisiones pertinentes y los estudios de diagnóstico primarios. Después de la evaluación inicial, se recuperaron 134 artículos completos, 20 de los cuales finalmente se consideraron elegibles para la revisión. Dos artículos parecieron informar sobre la misma cohorte (Vucetic 1996; Vucetic 1999) y la información de ambas publicaciones se usó durante la evaluación de la calidad. Sin embargo, como el número de pacientes fue bastante diferente entre las publicaciones, se han presentado por separado en la tabla Características de los estudios. Por lo tanto, se incluyó un total de 19 estudios en la revisión. Un resumen de los resultados de la búsqueda, incluido el motivo principal para excluir los artículos se presenta en Figura 1. Tres de los cuatro estudios que no se identificaron a través de las búsquedas electrónicas se publicaron en 1961 o antes. Las exclusiones principalmente estaban relacionadas con el diseño del estudio (no un estudio de exactitud de diagnóstico), o la relevancia de la prueba índice (estudios que investigaron las técnicas de estudios por imágenes o electromiografía). Quince estudios fueron excluidos porque analizaron el valor del examen físico para determinar el nivel de herniación discal (L5-S1 versus L4-L5) en los pacientes con hernias discales, en lugar de la presencia de una herniación discal.

Resultados adicionales de la búsqueda sin el uso de un filtro metodológico

Cuando el filtro metodológico se extrajo de la estrategia de búsqueda, la búsqueda produjo 329 citas adicionales de PubMed y 125 de EMBASE. La mayoría de estos artículos no estuvieron relacionados con los estudios de exactitud de diagnóstico, no incluían pacientes con dolor lumbar ni informaron acerca de las pruebas índice irrelevantes o las enfermedades de estudio. Se recuperaron veinte artículos completos, pero ninguno cumplió con los criterios de selección para esta revisión: siete eran editoriales o revisiones narrativas; siete no incluyeron una prueba índice pertinente; cinco no eran estudios de la exactitud de diagnóstico, y uno no abordó la herniación discal como una enfermedad de interés.

Descripción de los estudios

Los detalles sobre el diseño, el ámbito, la población, el estándar de referencia y la definición de la enfermedad de estudio se proporcionan en la tabla Características de los estudios incluidos. Los 19 estudios seleccionados incluyeron tres estudios de casos y controles (Demircan 2002; Kerr 1988; Majlesi 2008), y 16 estudios de cohorte, cinco de los cuales usaron un diseño retrospectivo, y obtuvieron información sobre los antecedentes clínicos (Charnley 1951; Gurdjian 1961; Hakelius 1972; Knutsson 1961; Spangfort 1972). Sólo un estudio se llevó a cabo claramente en un ámbito de atención primaria (Vroomen 2002 (atención primaria). La prevalencia (probabilidad anterior de herniación discal lumbar) varió mucho en 26% (Haldeman 1988) y 98% (Gurdjian 1961). La definición de herniación discal lumbar varió entre los estudios: en la mayoría de los estudios, los criterios de diagnóstico incluían abultamiento o protuberancia de disco, mientras que en otros estudios sólo la extrusión o el secuestro de disco se definió como hernia de disco (Albeck 1996). No todos los estudios explicaron claramente si la definición incluyó compresión o pinzamiento de las raíces nerviosas. De ser posible, se presentaron los resultados de la precisión del diagnóstico del examen físico por separado para diferentes definiciones de herniación discal.

Los hallazgos quirúrgicos se usaron como el estándar de referencia en nueve estudios, las técnicas estudios por imágenes (TC o RM) se usaron en seis estudios. Dos de los tres diseños de casos y controles usaron cirugía para confirmar la herniación discal en los casos, y las técnicas de estudios por imágenes (RM o mielografía) para excluir la comprensión de la raíz nerviosa en los controles (Demircan 2002; Kerr 1988). El tercer estudio de casos y controles usó la RM en todos los pacientes, pero, usó diferentes conjuntos de criterios de selección para identificar a los pacientes con hernia de disco o abultamiento de disco y a los controles con resultados normales en la RM (Majlesi 2008). Un estudio de cohortes adicional (Hudgins 1979) usó cirugía y seguimiento clínico según la gravedad de los síntomas; sólo los pacientes que no respondían al tratamiento conservador recibieron cirugía.

Se analizó una gran variedad de pruebas. La precisión del diagnóstico de la prueba de elevación de la pierna derecha o la prueba de Lasègue se evaluó con más frecuencia (15 estudios), seguida de la alteración de los reflejos (nueve estudios); paresia o debilidad muscular (siete estudios); déficits sensitivos (seis estudios), y la prueba de elevación de la pierna derecha cruzada o la prueba cruzada de Lasègue (seis estudios). Cuatro estudios o menos evaluaron la escoliosis, la atrofia muscular, la flexión anterógrada, la prueba de posición de desplome o slump test, la prueba de hiperextensión, el espasmo segmentario y la prueba de Bell. Seis estudios informaron los hallazgos sobre la precisión del diagnóstico de combinaciones de los resultados de las pruebas.

Calidad metodológica de los estudios incluidos

Los resultados de la evaluación de la calidad se presentan en la Figura 2 (resultados para los estudios individuales). Muchos estudios, principalmente los publicados antes de 1990, aportaron detalles sobre los métodos de investigación, por lo que varios ítems se consideraron inciertos. La mayoría de las publicaciones describió de forma deficiente los siguientes aspectos: el período y el tratamiento entre la prueba índice y el estándar de referencia (ítems 3 y 13), el sesgo de revisión (ítems 7 y 8) y la información sobre la variación debida al observador (ítem 14). La mayoría de los estudios tuvo una buena puntuación en el uso del estándar de referencia adecuado (ítem 2), la evitación del sesgo de verificación parcial (ítem 4), la disponibilidad de información clínica (ítem 9), resultados de la prueba que no pudieron interpretarse (ítem 10) y las razones de los retiros (ítem 11). Sólo 40% de los estudios otorgaron una descripción adecuada de los métodos usados para realizar e interpretar la prueba índice. Cinco estudios fueron bien realizados, y recibieron una evaluación positiva de al menos diez de los 14 ítems de QUADAS, incluido el estudio de atención primaria (Poiraudeau 2001; Stankovic 1999; Vroomen 1998; Vroomen 2002 (atención primaria); Vucetic 1996). La evaluación no fue fácil para algunos ítems o publicaciones, lo que provocó desacuerdo entre los revisores. En promedio, los revisores difirieron en cuatro de los 14 ítems (rango 1 a 7 a través de las publicaciones). Los desacuerdos principalmente estaban relacionados con el sesgo de revisión, la disponibilidad de la información clínica, resultados de la prueba que no pudieron interpretarse y la definición de un resultado positivo de la prueba índice. Los desacuerdos se resolvieron en reuniones de consenso.

Hallazgos

Los datos extraídos (tablas de dos por dos) y la sensibilidad y especificidad para todas las pruebas índice para cada estudio, se presentan en Apéndice 4hasta el Apéndice 15, incluidos todos los puntos de corte usados para la positividad de la prueba, y las definiciones de herniación discal lumbar. Los resultados del único estudio de atención primaria (Vroomen 2002 (atención primaria) se presentan primero y, luego, se presentan los resultados de los estudios de atención secundaria. El estudio de atención primaria se indica claramente en todos los diagramas de bosque (forest plots). Para la presentación de los resultados en los diagramas de bosque (forest plots) o los diagramas ROC y para los análisis agrupados, se intentaron generar subgrupos clínicamente homogéneos en lo que respecta a los puntos de corte y a la definición de herniación discal y los resultados usados para los análisis adicionales están sombreados en color gris en Apéndice 4hasta el Apéndice 15. Los hallazgos del estudio para una prueba índice específica se ingresaron sólo una vez en un análisis (agrupado). La mayoría de los estudios usaron una definición amplia de herniación discal, incluido secuestro, extrusión y protuberancia o abultamiento de disco. Por lo tanto, cuando los estudios informaron hallazgos en diferentes puntos de corte, se usó una definición más amplia para agrupar los resultados y presentarlos en diagramas de bosque (forest plots) o gráficos ROC. Además, cuando los estudios informaron sobre los resultados por separado para los subgrupos de pacientes tratados con cirugía por primera vez, éstos fueron seleccionados para los análisis agrupados o la presentación en los diagramas.

Prueba de elevación de la pierna derecha o prueba de Lasègue

La prueba de elevación de la pierna derecha o la prueba de Lasègue se evaluó en 15 estudios (Apéndice 5). La mayoría de los estudios realizó la prueba de elevación de la pierna derecha en el lado sintomático con el paciente en posición supina. La prueba de Lasègue es una extensión de la prueba de elevación de la pierna derecha que consiste en descender la pierna cinco a diez grados y doblar el pie hacia arriba (dorsiflexión). Si el paciente tiene dolor, la prueba de Lasègue se considera positiva. Sin embargo, hubo inconsistencia con respecto al uso de estos términos. Varios de los estudios se refirieron a la prueba de elevación de la pierna derecha como el signo de Lasègue (ver Características de los estudios incluidos). Un estudio describió el procedimiento de la prueba de Lasègue, pero usó el término prueba de elevación de la pierna derecha (Haldeman 1988); un estudio usó una maniobra algo diferente (flexión pasiva de la cadera con la rodilla extendida seguida de flexión pasiva de la cadera con la rodilla flexionada) y la denominó signo de Lasègue (Vucetic 1996). Un estudio (Knutsson 1961) indicó haber usado la prueba de Lasègue, pero no dio una descripción de la precisión de la prueba. Debido a que casi todos los estudios usaron elevación pasiva de la pierna (rodilla extendida); en esta revisión, se usó el término prueba de elevación de la pierna derecha.

La prueba se considera positiva cuando el dolor debajo de la rodilla (ciática) se presenta con la elevación, sin embargo, el punto de corte usado, que es el ángulo en el que se produce dolor, varió considerablemente en los estudios. La mayoría de los estudios usó dolor de la pierna ipsilateral que se presenta en cualquier ángulo para definir un resultado positivo de la prueba. Se extrajeron estos datos para el análisis adicional de la precisión del diagnóstico de la prueba de elevación de la pierna derecha en los estudios de casos que presentaron los hallazgos para diferentes puntos de corte. Los resultados mostraron heterogeneidad con sensibilidades que oscilaban entre 0,35 y 0,97 y especificidades que oscilaban entre 0,10 y 1,00 (Apéndice 5).

Figura 3 (diagrama de bosque) presenta los resultados de la prueba de elevación de la pierna derecha para el subgrupo de cinco estudios que usaron estudios por imágenes como el estándar de referencia (Haldeman 1988; Majlesi 2008; Meylemans 1988; Poiraudeau 2001; Vroomen 2002 (atención primaria). La prevalencia de la herniación discal (probabilidad anterior) en estos estudios fue inferior en comparación con los diez estudios de cirugía (rango 26% a 55% versus 58% a 98%). El diagrama muestra que los resultados de los estudios por imágenes, incluido el único estudio de atención primaria (Vroomen 2002 (atención primaria) se aproximan a la línea de 45°, lo que indica una precisión deficiente del diagnóstico de la prueba de elevación de la pierna derecha. La especificidad de la prueba de elevación de la pierna derecha en el estudio de Meylemans 1988 fue 100%, pero fue el único estudio en el que no estaba totalmente claro si la enfermedad de estudio fue realmente radiculopatía debida a herniación discal (o radiculopatía como una afección más general). El único estudio de casos y controles (Majlesi 2008) mostró resultados ligeramente más favorables que los cuatro estudios de cohorte. Las estimaciones agrupadas no se calcularon debido a la amplia heterogeneidad estadística.

En el subgrupo de los estudios quirúrgicos (En el subgrupo de estudios de cirugía ( - diagrama de bosque (forest plots); y Figura 5 - diagrama ROC), la sensibilidad en general fue alta, mientras que la especificidad aún mostró heterogeneidad estadística amplia. La evaluación indicó sesgo de revisión para uno de los dos estudios de casos y controles (Demircan 2002). La especificidad informada en este estudio fue mayor en comparación con todos los otros estudios de cirugía (0,82). La exclusión de este estudio del análisis resultó en una estimación agrupada (análisis con dos variables) de 0,92 (IC del 95%: 0,87 a 0,95) para la sensibilidad y 0,28 (IC del 95%: 0,18 a 0,40) para la especificidad (Figura 5). Debe señalarse que todavía hay considerable heterogeneidad de los resultados para la especificidad en esta estimación agrupada. No hubo ninguna explicación para esta heterogeneidad pero hubo variación en los puntos de corte usados para definir un resultado positivo en la prueba de elevación de la pierna derecha (ver Apéndice 5), y los criterios para definir la herniación discal (protuberancia, extrusión, prolapso y secuestro de disco). La influencia de otras posibles fuentes de heterogeneidad se estudió a través de análisis de subgrupos. En el subconjunto de estudios que usaron resultados de la cirugía como el estándar de referencia, estos análisis exploratorios demostraron que la especificidad de la prueba de elevación de la pierna derecha puede ser más deficiente en los estudios en los que se excluyeron los pacientes con cirugía discal lumbar anterior (estimación agrupada para especificidad 0,24; IC del 95%: 0,14 a 0,37 versus especificidad 0,45; IC del 95%: 0,22 a 0,70 para otros estudios), con estimaciones similares para la sensibilidad (0,91; IC del 95%: 0,84 a 0,96 versus 0,94; IC del 95%: 0,86 a 0,98). Otras fuentes posibles de heterogeneidad predefinidas (sesgo de selección, sesgo de verificación, sesgo de prueba, retiros) no influyeron en la precisión del diagnóstico de la prueba de elevación de la pierna derecha o el número de estudios en los subgrupos fue demasiado pequeño para realizar un análisis agrupado.

Prueba de elevación de la pierna derecha cruzada o prueba de Lasègue cruzada

La prueba de elevación de la pierna derecha cruzada (reproducción de ciática con la extensión pasiva de la pierna contra lateral) se evaluó en cinco estudios (Apéndice 6 y Figura 6), sólo uno de éstos usó estudios por imágenes como el estándar de referencia (Poiraudeau 2001). Figura 7 muestra que la mayoría de los resultados del estudio se agrupan en el extremo inferior izquierdo del espacio de la ROC, lo que indica sensibilidad deficiente (rango 0,23 a 0,43) junto con alta especificidad (0,83 a 1,00). Kerr 1988 informó mayor sensibilidad en comparación con otros estudios, pero, debe observarse que el sesgo de verificación pudo haber influido los resultados en este estudio de casos y controles: los controles constaban de pacientes con dolor lumbar y ciática, pero que tuvieron mielogramas normales. Como los resultados del estudio de imagen (Poiraudeau 2001) fueron muy compatibles con los de los estudios quirúrgicos, estos resultados se combinaron en el epanalepsis (Figura 7). Las estimaciones agrupadas de la sensibilidad y la especificidad fueron 0,28 (IC del 95%: 0,22 a 0,35) y 0,90 (IC del 95%: 0,85 a 0,94), respectivamente. 

Escoliosis

Cuatro estudios investigaron la escoliosis (mediante inspección visual) como un posible indicador de la herniación discal lumbar. Los resultados de tres estudios indican precisión deficiente del diagnóstico de esta prueba índice, con tasas bajas de sensibilidad y especificidad (ver Apéndice 7 y Figura 8) (Albeck 1996, Kerr 1988; Kosteljanetz 1988, Vucetic 1996). De nuevo, los resultados de Kerr 1988 parecen ser más favorables, pero, hubo un alto riesgo de sesgo de verificación en este estudio de casos y controles. Debido a la heterogeneidad amplia, las estimaciones agrupadas no se presentan para la escoliosis.

Paresia o debilidad muscular

Se evaluó la debilidad muscular o paresia en siete estudios, generalmente al evaluar la fuerza muscular durante la dorsiflexión del tobillo (radiculopatía L4) o la extensión del dedo gordo del pie (radiculopatía L5) ya sea con (Kerr 1988) o sin resistencia (Vucetic 1996). Con el método anterior, las pruebas se consideraron positivas si el paciente no podía extender el tobillo o el dedo gordo del pie en la misma amplitud que en el lado no sintomático. Todos los estudios, excepto uno,Vroomen 2002 (atención primaria) compararon los resultados con hallazgos quirúrgicos como el estándar de referencia. Knutsson 1961 presentó por separado los resultados a los pacientes que recibieron una cirugía por primera vez, y para un subgrupo pequeño de pacientes que recibieron cirugía anteriormente (Apéndice 8). Para el análisis adicional, se usaron los resultados del subgrupo que recibió cirugía lumbar por primera vez. Figura 9 muestra una precisión deficiente del diagnóstico de paresia o debilidad muscular al identificar herniación discal lumbar. Hubo heterogeneidad significativa que impidió la agrupación de las sensibilidad y las especificidades, pero, los resultados de la mayoría de los estudios se aproximan a la diagonal en el espacio de la ROC. De nuevo, el estudio de casos y controles de Kerr 1988 informó resultados más favorables en comparación con los estudios de cohorte. En una población de atención primaria Vroomen 2002 (atención primaria) informó una especificidad mayor (0,93; IC del 95%: 0,88 a 0,97) y sensibilidad baja (0,27; IC del 95%: 0,20 a 0,37) de paresia en comparación con los estudios de cirugía. Este estudio fue el único que usó estudios por imágenes para identificar los pacientes con herniación discal lumbar.

Atrofia muscular

Tres estudios evaluaron la atrofia muscular con resultados similares a los de debilidad muscular (Apéndice 9 y Figura 10). Solamente Kerr 1988explicó que la atrofia muscular se evaluó al medir la circunferencia de la pantorrilla, y proporcionó un punto de corte para un resultado positivo de la prueba (diferencia de 1 cm con el lado sin síntomas). La sensibilidad osciló entre 0,15 (Albeck 1996) y 0.38 (Kerr 1988), la especificidad, entre 0,50 (Knutsson 1961) and 0.94 (Kerr 1988). El único estudio de casos y controles informó especificidad muy alta (Kerr 1988). Debido al número pequeño de estudios y la heterogeneidad amplia, se decidió no realizar un agrupamiento estadístico de los resultados.

Alteración de los reflejos

Siete estudios evaluaron la ausencia o debilidad de los reflejos tendinosos. La mayoría de ellos incluyó una evaluación del reflejo aquíleo (radiculopatía S1). Las pruebas no se describieron en la mayoría de los estudios. En el estudio de atención primaria de Vroomen 2000, el observador evaluó el reflejo tendinoso del tobillo del paciente; para ello, se ubicó de espaldas al paciente y sostuvo la pierna de éste (flexión de 90° de la cadera y la rodilla) con su axila. Knutsson 1961 y Gurdjian 1961también evaluaron el reflejo rotuliano (radiculopatía L4), cuyos resultados sólo se presentan en Apéndice 10. Los resultados para la alteración de los reflejos se distribuyeron cerca de la línea de 45° y principalmente en el extremo inferior izquierdo del espacio de la ROC (excepto para Kerr 1988), lo que indica precisión deficiente del diagnóstico, especialmente en cuanto a la sensibilidad (Figura 11). Nuevamente, el estudio de atención primaria Vroomen 2002 (atención primaria) mostró mayor especificidad (0,93; IC del 95%: 0,88 a 0,97) y sensibilidad inferior (0,15; IC del 95%: 0,09 a 0,21) en comparación con los estudios de cirugía. No se agruparon los resultados de alteración de los reflejos debido a la gran heterogeneidad de los resultados.

Déficits sensitivos

En seis estudios se evaluó la precisión del diagnóstico de los déficits sensitivos; entre ellos, hipoestesia, hipoalgesia, hormigueo o insensibilidad. (Albeck 1996; Kerr 1988; Knutsson 1961; Kosteljanetz 1984; Kosteljanetz 1988; Vroomen 2002 (atención primaria); Vucetic 1996). Pocos estudios describieron los métodos de las pruebas o los criterios de positividad. Albeck 1996mencionó que la hipoestesia debía tener una distribución de dermatómeros para considerarse positiva. Vroomen y cols. proporcionaron una descripción más extensa de las pruebas sensitivas en un artículo adicional (Vroomen 2000). Los dermatómeros se evaluaron de forma bilateral y simultánea al dar golpes suaves sobre la piel. Se le preguntó al paciente (que tenía los ojos cerrados) si la sensación difería claramente entre el lado izquierdo y el derecho. La pérdida sensitiva y el dolor (con o sin molestia) se evaluaron al preguntarle al paciente (que tenía los ojos cerrados) si la presión leve ejercida por el observador con una varilla de plástico era acentuada o contusa. El orden de la aplicación de presión acentuada y contusa fue aleatorio (Vroomen 2000). El diagrama de bosque (forest plots)(Figura 12) muestra una precisión del diagnóstico deficiente de la sensibilidad y la especificidad. No se realizó un agrupamiento estadístico y Apéndice 11presenta resultados para la sensibilidad y la especificidad en cada estudio individual. En el estudio de atención primaria (Vroomen 2002 (atención primaria) la sensibilidad de los déficits sensitivos fue baja en comparación con la mayoría de los otros estudios (pero no todos) (0,28; IC del 95%: 0,21 a 0,36).

Prueba de flexión anterógrada y extensión

La flexión anterógrada (elevación hacia delante en posición de pie) se evaluó en tres estudios, todos usaron diferentes métodos para definir un resultado positivo de la prueba. Ninguno de los estudios indicó si un resultado positivo de la prueba se definió según la limitación de la flexión anterógrada debida a dolor lumbar/de pierna o debida a movilidad restringida. Dos estudios de poblaciones que recibieron cirugía (Albeck 1996; Charnley 1951) mostraron sensibilidad alta (0,90 y 0,85; respectivamente) y especificidad deficiente (0,16 y 0,29; respectivamente Apéndice 12 y Figura 13. Por el contrario, Vroomen 2002 (atención primaria), que incluyó una población de atención primaria y usó RM como el estándar de referencia, informó sensibilidad inferior (0,45; IC del 95%: 0,37 a 0,53) y mayor especificidad 0,74 (IC del 95%: 0,65 a 0,81). No se realizó agrupamiento de las estimaciones debido a la alta heterogeneidad y el número pequeño de estudios.

La prueba de extensión o hiperextensión sólo fue investigada por dos estudios (Poiraudeau 2001; Stankovic 1999; Tabla 9). Poiraudeau 2001 realizó una prueba en la que el paciente se encontraba de pie y movía el tronco de forma pasiva con amplitud de flexión total y las rodillas extendidas. La prueba se consideraba positiva si la ciática se reproducía o empeoraba durante la extensión. Stankovic 1999presenta los resultados de esta prueba en tres puntos de corte diferentes (pérdida de extensión significativa, moderada o general, medida en posición prona por el % de extensión de los codos con la pelvis, las caderas y las piernas relajadas sobre la mesa) y usó dos definiciones de herniación discal lumbar. Como era de esperar, la especificidad aumentó con el uso de un punto de corte más estricto, pero con considerable pérdida de la sensibilidad. La inclusión de abultamiento de disco en la definición de herniación discal no afectó significativamente la precisión del diagnóstico de la prueba de extensión (Apéndice 13).

Otras pruebas

Dos estudios (Majlesi 2008; Stankovic 1999) informaron los resultados de la prueba de posición de desplome o slump test (Tabla 10). Durante la prueba de posición de desplome o slump test, el paciente se sienta con la cabeza inclinada hacia adelante, la pierna extendida, y los dedos del pie apuntando hacia arriba. El examinador empuja suavemente al paciente hacia delante para aumentar la elasticidad del nervio ciático. En la prueba de posición de desplome o slump test (Maitland 1985) se estiran al máximo las estructuras neurales dentro del canal vertebral y el agujero intervertebral. Stankovic 1999presenta los resultados de la prueba de posición de desplome o slump test en diferentes puntos de corte (ángulos en los que se presenta el dolor), lo que muestra que la sensibilidad de esta prueba fue deficiente (0,44; IC del 95%: 0,34 a 0,55) y especificidad ligeramente mayor (0,58; IC del 95%: 0,28 a 0,85) al usar un punto de corte estricto (dolor que se irradia hacia la rodilla). La sensibilidad aumentó (y la especificidad disminuyó) al usar un punto de corte más general (dolor en cualquier parte del cuerpo). Majlesi 2008informó sensibilidad similar (0,84), pero mayor especificidad (0.83), con el uso de un punto de corte desconocido para un resultado positivo de una prueba. El aumento de la especificidad quizá se deba en parte al resultado del diseño de casos y controles de este estudio: los pacientes con dolor lumbar se seleccionaban como controles si los resultados de la RM eran completamente normales.

La precisión deficiente del diagnóstico () también se informó para la prueba de Bell. ) también se informó para la prueba Bell. La prueba de Bell es positiva cuando el examinador puede reproducir o exacerbar el dolor habitual de la pierna al aplicar presión con el pulgar entre las vértebras L4/L5 o L5/S1 o en el área paraespinal cercana (Poiraudeau 2001).

Combinación de las pruebas

Cuatro estudios investigaron la precisión del uso de diversas combinaciones de pruebas de examen físico (Apéndice 15). Poiraudeau 2001 presentaron los resultados de varias combinaciones de pruebas que mostraron especificidad alta (rango 0,74 a 0,94) y sensibilidad baja (rango 0,16 a 0,28) al combinar una prueba de elevación de la pierna derecha cruzada positiva con resultados positivos en la prueba Bell, la prueba de hiperextensión o la prueba de elevación de la pierna derecha. Otros dos estudios presentaron resultados similares al combinar la prueba de elevación de la pierna derecha con resultado positivo con los signos neurológicos positivos (Majlesi 2008) o con una prueba de elevación de la pierna derecha cruzada positiva (Hudgins 1979). Charnley 1951)analizó la precisión del diagnóstico al combinar una prueba de elevación de la pierna derecha positiva con movilidad limitada de la columna lumbar. También informó especificidad mayor y sensibilidad inferior en comparación con el uso de la prueba de elevación de la pierna derecha de forma aislada, pero, en este estudio de cirugía la sensibilidad fue relativamente alta (0,73 a 0,77) y la especificidad baja (0,57 a 0,64).

Dos estudios adicionales (Vroomen 2002 (atención primaria); Vucetic 1999) usaron un modelo multivariable para identificar la combinación de las pruebas de diagnóstico que mejor predijera la presencia de herniación discal lumbar. Ambos modelos incluían aspectos de los antecedentes clínicos del paciente y el examen físico. En el estudio de atención primaria de Vroomen 2002 (atención primaria)la siguiente combinación mostró una asociación más sólida con compresión de la raíz nerviosa en la RM: edad; duración de la enfermedad 15 a 30 días; dolor paroxístico; dolor más intenso en la pierna que en la espalda; distribución de dermatómeros característica del dolor; dolor más intenso al toser, estornudar o hacer un esfuerzo; distancia entre la yema de los dedos y el piso; y paresia (área debajo la curva de ROC de 0,80 para los antecedentes clínicos solamente y 0,83 para los antecedentes clínicos y el examen físico) (Vroomen 2002 (atención primaria). La precisión máxima del diagnóstico del modelo se presentó en una probabilidad prevista de 62,5% (la probabilidad anterior de herniación discal lumbar en esta cohorte fue 55,4%), con una sensibilidad de 0,72 y especificidad de 0,80 (Vroomen 2002 (atención primaria). El modelo desarrollado por Vucetic 1999incluyó los siguientes factores: nivel alto de educación; ninguna comorbilidad; ninguna cirugía anterior; dolor invalidante; amplitud de movimiento lumbar restringida; prueba de elevación de la pierna derecha cruzada positiva; y duramadre o raíz dislocada en la mielografía (sólo se explicó la varianza presentada: 0.495). Ambos estudios presentaron modelos multivariables, pero no propusieron una regla de la decisión que indicara qué pruebas o cuántas deberían ser positivas para identificar a los pacientes con una probabilidad alta de radiculopatía debida a herniación discal lumbar.

Resumen de los resultados

Resumen de los resultados.Tabla de resumen: precisión de los aspectos del examen físico en el diagnóstico de radiculopatía lumbar debida a herniación discal en los pacientes con dolor lumbar

¿Cuál es la precisión de las pruebas realizadas durante el examen físico para identificar radiculopatía debida a herniación discal lumbar en los pacientes con dolor y ciática en la región lumbar?

Población: Pacientes con dolor lumbar y ciática de la atención primaria o secundaria

Prueba anterior: variable o no descrita, estudios por imágenes (se informó radiografía o mielografía para algunas poblaciones que recibieron cirugía

Pruebas índice Todas las pruebas relevantes del examen físico, entre ellas, la prueba de elevación de la pierna derecha, la prueba de elevación de la pierna derecha cruzada, paresia o debilidad muscular, déficits sensitivos y alteración de los reflejos

Enfermedad de estudio: radiculopatía debida a herniación discal lumbar

Estándar de referencia: Estudios de diagnóstico por imágenes (RM, TC, mielografía) o hallazgos quirúrgicos.

Estudios: Estudios de cohorte (16) o estudios de casos y controles (n = 3)

Prueba de diagnóstico

Ámbito/estándar de referencia

Estimación agrupada para la sensibilidad (IC del 95%)

o rango de las estimaciones

Estimación agrupada para la especificidad (IC del 95%)

o rango de las estimaciones

Prevalencia media de la herniación discal (rango)**

Estimación general

Cociente de probabilidades del resultado positivo de la prueba (IC del 95%)

Estimación general

Cociente de probabilidades del resultado negativo de la prueba (IC del 95%)

Población: pacientes con dolor lumbar de la atención primaria o secundaria

Prueba índice: Prueba de elevación de la pierna derecha

5 estudios, ningún análisis agrupado

Diagnóstico por imágenes:

1 Atención primaria/ RM:

4 Atención secundaria/ TC-MTI:

0,64 (0,56 a 0,71)*

rango 0,35 a 0,81

0,57 (0,47 a 0,66)*

rango 0,37 a 1.00

55%

40% (26 a 55%)

Población: pacientes con dolor lumbar derivados para cirugía

Prueba índice: Prueba de elevación de la pierna derecha

estimación agrupada de nueve estudios

Hallazgos quirúrgicos

0,92 (0,87 a 0,95)

0,28 (0,18 a 0,40)

82% (58 a 98%)

1,3 (1,1 a 1,4)

0,30 (0,24 a 0,39)

Población: pacientes con dolor lumbar derivados para cirugía

Prueba índice: Prueba de elevación de la pierna derecha cruzada

estimación agrupada de cinco estudios

Hallazgos quirúrgicos

0,28 (0,22 a 0,35)

0,90 (0,85 a 0,94)

77% (55 a 89%)

2,1 (1,6 a 2,8)

0,86 (0,83 a 0,89)

Población: pacientes con dolor lumbar derivados para cirugía

Prueba índice: Escoliosis

5 estudios, ningún análisis agrupado

Hallazgos quirúrgicos

rango 0,39 a 0,68

rango 0,62 a 0,89

66% (58 a 76%)

 

 

Población: pacientes con dolor lumbar de la atención primaria o derivados para cirugía

Prueba índice: Paresia o debilidad muscular

7 estudios, ningún análisis agrupado

1 Atención primaria/ RM:

6 hallazgos quirúrgicos:

0,27 (0,20 a 0,37)*

rango 0,29 a 0,62

0,93 (0,88 a 0,97)*

rango 0,50 a 0,89

55%

74% (58 a 89%)

 

 

Población: pacientes con dolor lumbar derivados para cirugía

Prueba índice: Atrofia muscular

3 estudios, ningún análisis agrupado

hallazgos quirúrgicos

rango 0,15 a 0,38

rango 0,50 a 0,94

83% (76 a 89%)

 

 

Población: pacientes con dolor lumbar de la atención primaria o derivados para cirugía

Prueba índice: Alteración de los reflejos

7 estudios, ningún análisis agrupado

1 Atención primaria/ RM:

6 hallazgos quirúrgicos:

0,15 (0,09 a 0,21)*

rango 0,31 a 0,62

0,93 (0,88 a 0,97)*

rango 0.60 ? 0.89

55%

82% (63 a 98%)

 

 

Población: pacientes con dolor lumbar de la atención primaria o derivados para cirugía

Prueba índice: Déficits sensitivos

6 estudios, ningún análisis agrupado

1 Atención primaria/ RM:

5 hallazgos quirúrgicos:

0,28 (0,21 a 0,36)*

rango 0,26 a 0,67

0,66 (0,56 a 0,74)*

rango 0,42 a 0,69

55%

72% (58 a 89%)

 

 

Población: pacientes con dolor lumbar de la atención primaria o derivados para cirugía

Prueba índice: Flexión anterógrada

3 estudios, ningún análisis agrupado

1 Atención primaria/ RM:

2 hallazgos quirúrgicos:

0,45 (0,37 a 0,53)*

rango 0,85 y 0,90

0,74 (0,65 a 0,81)*

rango 0,16 y 0,29

55%

rango 76% y 84%

 

 

Población: pacientes con dolor lumbar de la atención secundaria

Prueba índice: Prueba de extensión

2 estudios, ningún análisis agrupado

atención secundaria/ RM-TC

rango 0,13 a 0,90; según el punto de corte

rango 0,17 a 0,94; según el punto de corte

rango 55% y 88%

 

 

Población: pacientes con dolor lumbar de la atención secundaria

Prueba índice: Prueba de posición de desplome o slump test

2 estudios, ningún análisis agrupado

atención secundaria/ RM-TC

rango 0,44 a 0,87; según el punto de corte

rango 0,23 a 0,63; según el punto de corte

88% e incierto (estudio de casos y controles)

 

 

Población: pacientes con dolor lumbar de la atención secundaria

Prueba índice: Prueba de Bell

1 estudio

atención secundaria/ RM-TC

0,49 (0,33 a 0,65)

0,63 (0,45 a 0,79)

55%

 

 

* Los resultados del único estudio de atención primaria se presentan por separado. Para los estudios de cirugía, se proporciona el rango de las estimaciones (ningún análisis agrupado debido a la heterogeneidad)

** Ninguno sopesado para el tamaño de muestra



Discusión

Resumen de los resultados principales

Esta revisión se dirigió a resumir las pruebas para la precisión del examen físico en la identificación de radiculopatía debida a herniación discal lumbar. Un resultado importante es que sólo uno de los estudios se realizó en un ámbito de atención primaria, y que la mayoría de los estudios se realizó en poblaciones con prevalencia muy alta (probabilidades anteriores) de herniación discal. Los resultados indican que la precisión del diagnóstico de la mayoría de las pruebas físicas (en particular, escoliosis, paresia o debilidad muscular, atrofia muscular, alteración de los reflejos y déficits sensitivos) fue baja, especialmente cuando se usaron de forma aislada. Para otras pocas pruebas (flexión anterógrada, prueba de hiperextensión, prueba de posición de desplome o slump test), los resultados fueron ligeramente más favorables con mayor sensibilidad o especificidad, pero el número de estudios que evaluó la precisión del diagnóstico de estas pruebas fue pequeño (tres o menos). En la mayoría de los estudios se evaluó la precisión de los resultados de la prueba de elevación de la pierna derecha. En las poblaciones que recibieron cirugía, la prueba de elevación de la pierna derecha mostró alta sensibilidad, con resultados muy variados para la especificidad. La prueba de elevación de la pierna derecha cruzada generalmente sólo es positiva en los pacientes con pinzamiento importante de las raíces nerviosas, y manifestó especificidad sistemáticamente alta en los estudios de cirugía (y baja sensibilidad). Sin embargo, es importante señalar que estos resultados se obtuvieron en poblaciones caracterizadas por una prevalencia muy alta de 75% de (> 75% de herniación discal en casi todos los estudios) y un espectro grave de la enfermedad, y no puede generalizarse a las poblaciones con una prevalencia inferior de la enfermedad en estudio. Esto significa que todavía no hay pruebas suficientes para la utilidad clínica de la prueba de elevación de la pierna derecha y la prueba de elevación de la pierna derecha cruzada en el diagnóstico de la herniación discal en las poblaciones de atención primaria y otras poblaciones de pacientes que aún no fueron derivados para cirugía.

Sólo hubo posibilidades limitadas para estudiar las influencias de las fuentes de heterogeneidad en esta revisión. El número de estudios por prueba índice fue pequeño, y los estudios no siempre proporcionaron información suficiente acerca de las características importantes de estudio. Los análisis, por consiguiente, se centraron en las diferencias de la precisión del diagnóstico entre los estudios realizados en diferentes ámbitos (atención primaria versus atención secundaria) y los estudios que usaron diferentes estándares de referencia (estudios por imágenes versus cirugía).

Factores que afectan la interpretación

Población y ámbito

La mayoría de los estudios se realizó en un ámbito de atención secundaria, a menudo con un diseño histórico en el que los antecedentes clínicos se analizaron para investigar la asociación entre los resultados de la prueba de diagnóstico y la herniación discal. Los resultados parecieron indicar una sobrestimación de la precisión del diagnóstico en los diseños históricos y de casos y controles. Estos estudios son más susceptibles al sesgo de selección y verificación, lo que implica que no todos los pacientes que recibieron la prueba índice fueron seleccionados para el estudio o continuaron recibiendo el estándar de referencia. En la mayoría de las poblaciones que recibieron cirugía, los pacientes habían recibido alguna forma de estudios por imágenes antes de la cirugía, aunque generalmente sólo los pacientes con resultados positivos en los estudios por imágenes son derivados para la cirugía. En particular, los pacientes con resultados negativos en el examen físico en general no se someterán a cirugía y posiblemente se excluyeron de los estudios de diagnóstico. El riesgo de sesgo es particularmente alto en los estudios con un diseño retrospectivo o de casos y controles (Leeflang 2006; Lijmer 1999; Rutjes 2006), que también parecía ser el caso de esta revisión.

La mayoría de los estudios de cirugía excluyó a los pacientes con cirugía discal lumbar anterior. Los estudios que incluyeron a pacientes con cirugía anterior mostraron mejores resultados para la especificidad en cuanto a la prueba de elevación de la pierna derecha, que puede explicarse por el hecho de que es muy probable que sólo los pacientes con resultados positivos del examen físico hayan sido derivados para cirugía, y que estos pacientes tengan enfermedad discal más grave. De ser posible, sólo se analizarán los resultados de los pacientes que recibieron cirugía por primera vez.

Estándar de referencia

Varias características importantes de los estudios se agruparon claramente; los estudios de cirugía se realizaron en poblaciones de atención secundaria y a menudo mostraron una alta prevalencia (probabilidad anterior) de herniación discal lumbar con un espectro grave de la enfermedad, mientras que ambos factores probablemente afectaron los resultados de especificidad y sensibilidad. Una probabilidad anterior mayor de herniación discal se encontró en las poblaciones de pacientes tratados con cirugía, y los resultados de la prueba a menudo mostraron sensibilidad mayor (p.ej., para la prueba de elevación de la pierna derecha). Estos estudios tienen probabilidad de incluir a una población altamente seleccionada, y representar casos extremos en cuanto a la gravedad y la duración de los síntomas, aunque tienen la virtud de incluir sólo a los pacientes con herniaciones discales clínicamente importantes y no a los pacientes con hallazgos de estudios por imágenes irrelevantes.

Los estudios por imágenes se realizaron en poblaciones con una probabilidad anterior generalmente inferior de herniación discal, y quizá reflejen mejor el valor de diagnóstico del examen físico en ámbitos de atención primaria, o en pacientes con síntomas menos graves. Sin embargo, los estudios por imágenes tienen probabilidades de incluir más hallazgos falsos positivos. Se sabe que los estudios por imágenes con RM y TC muestran hernias de disco en una fracción importante de las personas asintomáticas y quizá no siempre sean relevantes para predecir los problemas lumbares (Boden 1990; Boden 1996; Borenstein 2001; Jarvik 2005). Según la edad, 20% a 35% de personas asintomáticas tienen protuberancia o extrusión de disco, 25% son menores de 40 años de edad y casi todas las personas mayores de 60 años tiene abultamiento de disco. Los estudios de esta revisión incluyeron sólo a pacientes sintomáticos, pero los resultados falsos positivos de los estudios por imágenes pueden explicar parte de la reducción de la sensibilidad en los estudios de estudios por imágenes. Una definición significativa de un resultado positivo de los estudios por imágenes puede ser la presencia de hernia discal con pinzamiento claro de las raíces nerviosas. Ninguno de los estudios de esta revisión usó específicamente esta definición, aunque unos pocos estudios proporcionaron información sobre la medida en que la compresión de las raíces nerviosas se consideró probable, en función de los resultados de estudios por imágenes (Poiraudeau 2001; Stankovic 1999; Vroomen 1998; Vroomen 2002 (atención primaria). Los estudios también suministraron poca información acerca del grado en que los hallazgos de los estudios por imágenes o la cirugía coincidieron con los resultados clínicos pertinentes (p.ej., en lo que respecta al presunto nivel o lado de herniación).

Se ha sugerido que el seguimiento clínico después de la cirugía es el estándar de de referencia óptimo: si los síntomas desaparecen después de la cirugía adecuada, la causa del problema pudo haber sido la herniación discal con compresión de las raíces nerviosas. Sin embargo, los resultados con respecto a los beneficios de la cirugía no son inequívocos (Gibson 2007; Peul 2007). Puede haber un afecto placebo sólido, y es posible que se produzca recuperación espontánea, lo que arroja dudas en la validez del seguimiento después de la cirugía como estándar de referencia. La herniación discal detectada en la cirugía más el alivio del dolor de la pierna inmediatamente después de la cirugía pueden constituir el estándar de referencia óptimo para identificar la herniación discal lumbar, pero, sólo es confiable en la población selectiva de pacientes que recibieron cirugía. Otros procedimientos de diagnóstico menos invasivos que no se abordaron en esta revisión (p.ej., estudios de conducción nerviosa (Yagci 2009)), podrían formar parte de la revisión de diagnóstico y ayudar en el diagnóstico de herniación discal como una causa de radiculopatía. Tales procedimientos pueden ser estándar de referencia en la investigación de diagnóstico primaria, pero la precisión del diagnóstico de estos métodos aún debe establecerse firmemente.

Pruebas índice

La precisión limitada (en particular, la sensibilidad) de algunas pruebas comúnmente usadas, como las deficiencias de reflejos, puede, en parte, deberse a los efectos del envejecimiento. La mayoría de los estudios incluyeron poblaciones en edad laboral, pero el efecto de la edad en los resultados de la prueba neurológica es importante para la práctica clínica. No es poco común que los adultos mayores pierdan el reflejo aquíleo, aunque generalmente se trata de un cambio bilateral. La ausencia de reflejos es frecuente en 30% de las personas de 61 a 70 años de edad, y es aún más frecuente en las personas más grandes (Bowditch 1996). Spangfort también demostró una mayor incidencia de la alteración de los reflejos con la edad (Spangfort 1972). En consecuencia, en los pacientes mayores, la ausencia del reflejo del tobillo no necesariamente indica la presencia de hernia de disco (falsos positivos), lo que reduce la especificidad de esta prueba. La pérdida asimétrica de los reflejos tendinosos es una definición más significativa de una prueba con resultados positivos, pero la asimetría del reflejo se describió sólo en dos estudios (Albeck 1996; Gurdjian 1961).

Confiabilidad

Esta revisión se centró en la precisión del diagnóstico (es decir, la validez) del examen físico en los pacientes con dolor lumbar, y una búsqueda y síntesis sistemática de las pruebas sobre la confiabilidad estuvo más allá del alcance de esta revisión. Sin embargo, la fiabilidad adecuada (acuerdo en los observadores y entre ellos) es un requisito previo para la precisión adecuada de las pruebas de diagnóstico. Esta revisión mostró que los procedimientos para el examen físico a menudo se describieron mal y, en general, no quedó claro si las pruebas fueron estandarizadas o no, si los observadores estaban capacitados o qué umbrales se usaron para definir resultados positivos de las pruebas. Sólo cuatro estudios proporcionaron cierta información sobre la fiabilidad. Vucetic 1996sólo aportó datos sobre la variación entre los observadores al medir la movilidad espinal, con coeficientes de varianza que oscilaban entre 5% y 7%. Poiraudeau 2001informó una buena fiabilidad entre los observadores para la prueba de Bell, la prueba de hiperextensión, la prueba de elevación de la pierna derecha y la prueba de elevación de la pierna derecha cruzada, y el valor kappa osciló entre 0,76 y 0,96. Sin embargo, el acuerdo entre los observadores varió entre pares de observadores y entre las pruebas, y fue regular para la prueba de Bell (kappa 0,58 a 0,64) y regular a deficiente para la hiperextensión, la prueba de elevación de la pierna derecha y la prueba de elevación de la pierna derecha cruzada (en general, el valor kappa fue inferior a 0,5). Vroomen y cols. publicaron otro estudio sobre la confiabilidad de las pruebas del examen físico en su cohorte (Vroomen 2000), informó un acuerdo adecuado entre los observadores para la debilidad muscular y los déficits sensitivos (kappa 0,57 a 0,82), y un acuerdo regular para la alteración de los reflejos (kappa 0,42 a 0,53). Se encontró que las evaluaciones de la prueba de elevación de la pierna derecha y la prueba de elevación de la pierna derecha cruzada fueron más consistentes (kappa total > 0,66), lo que parece estar concordar con los resultados informados de Kosteljanetz 1988, que indicó que las diferencias entre los observadores en el ángulo en el que se informó el dolor durante la elevación de la pierna derecha fueron más pequeñas que 10° en la mayoría de los pacientes. Otros estudios, que informaron el acuerdo en los observadores en otras poblaciones, también informaron resultados variables, por ejemplo, la confiabilidad de la inspección visual de la escoliosis (Clare 2005; Donahue 1996). Los resultados de estos estudios indican que la fiabilidad de las pruebas realizadas durante el examen físico está lejos de ser óptima, lo que explicará en parte la precisión deficiente del diagnóstico de la mayoría de las pruebas incluidas en esta revisión.

La importancia de la fiabilidad en la evaluación de las pruebas de diagnóstico se mantiene no sólo para las pruebas índice, sino también para el estándar de referencia. Se ha informado fiabilidad moderada a buena de las técnicas de estudios por imágenes en la identificación de la herniación discal lumbar (Lurie 2008; Vroomen 2002 (atención primaria), pero las pruebas sobre la confiabilidad de los resultados quirúrgicos son escasas. En muchos estudios, la información sobre los hallazgos quirúrgicos posiblemente se haya obtenido a partir de las notas quirúrgicas de los cirujanos, y no se hallaron estándares ni criterios al documentar los hallazgos quirúrgicos. La fiabilidad deficiente de los resultados quirúrgicos puede haber afectado los resultados de la precisión del diagnóstico de las pruebas del examen físico informadas en esta revisión, pero dada la ausencia de pruebas, el grado de este efecto es difícil de estimar.

Fortalezas y limitaciones de la revisión

Aunque los estudios recientes no recomiendan el uso de un filtro metodológico (Doust 2005; Leeflang 2006) se decidió emplear un filtro general, sensible para identificar los estudios de exactitud del diagnóstico. La búsqueda de publicaciones elegibles no fue fácil. muchos estudios pertinentes se publicaron antes de 1985, estaban mal indizados en las bases de datos electrónicas y a menudo no tenían el diseño específico de un estudio de exactitud del diagnóstico. Varias de las publicaciones (anteriores) finalmente se identificaron a través de la verificación de referencias. Para estudiar las consecuencias de esta decisión, se realizó un análisis de sensibilidad, se repitió la búsqueda sin el uso de un filtro metodológico, y se estudiaron todas las citas adicionales de PubMed y EMBASE. Como el filtro metodológico sólo se había aplicado a algunos ítems de la búsqueda electrónica (ver Apéndice 1), el número de citas adicionales se limitó a aproximadamente 450. Sin embargo, ninguna de estas citas fue relevante a la revisión. En aproximadamente la mitad de las citas, el estudio claramente no era un estudio de exactitud del diagnóstico, pero la mayoría de los estudios también fueron excluidos, por otras razones. Por lo tanto, en esta revisión y para este tema particular, la aplicación de un filtro metodológico sensible en ciertas partes de la estrategia de búsqueda no tenía ninguna implicación para la identificación de los estudios pertinentes.

El informe deficiente en las publicaciones originales afectó la evaluación de la calidad (riesgo de sesgo) y fue uno de los motivos de los desacuerdos en algunos ítems de QUADAS. Los estudios anteriores en particular, y los estudios que no fueron específicamente diseñados como estudios de exactitud de diagnóstico, aportaron poca información sobre los aspectos importantes del diseño del estudio. La introducción y la implementación de los estándares STARD pueden mejorar el informe de los estudios de diagnóstico en el futuro (Bossuyt 2003; Bossuyt 2003a; Smidt 2006). La evaluación de la calidad en las revisiones de diagnóstico es aún más sencilla si se definen los estándares claros para los revisores sobre cómo estimar los ítems individuales y se ponen a prueba los procedimientos.

El número de estudios para cada prueba índice en general fue pequeño y, por consiguiente, un análisis minucioso de la influencia de posibles fuentes de heterogeneidad fue sólo posible para la prueba de elevación de la pierna derecha. Sin embargo, los resultados para la mayoría de las restantes pruebas se agruparon alrededor de la diagonal en el espacio de la ROC, lo que indica precisión deficiente del diagnóstico. Es poco probable que el análisis adicional de la heterogeneidad en estos subconjuntos de estudios afecte a estos resultados.

Aplicabilidad de los resultados en la práctica clínica y las políticas

Especialmente en la atención primaria, el examen físico a menudo se usa para distinguir entre los pacientes con probabilidad baja o alta de herniación discal lumbar y para decidir qué pacientes deben ser derivados para estudios por imágenes o son candidatos probables para cirugía. Por lo tanto, la aplicabilidad de los resultados de esta revisión es limitada debido al hecho de que la mayoría de los estudios que incluyeron poblaciones que recibieron cirugía y no representan de forma adecuada pacientes con dolor lumbar y ciática en otros ámbitos de atención de salud.

Igualmente importante es el hecho de que la mayoría de los estudios sólo presentaron el valor de diagnóstico de los aspectos individuales del examen físico. Cuando se realizaron en forma aislada, la precisión del diagnóstico de la mayoría de las pruebas fue baja, pero en la práctica clínica, la combinación de varios ítems de información de diagnóstico, incluidos los datos demográficos y la información de los antecedentes clínicos del paciente ayudarán a estimar la probabilidad del pinzamiento de las raíces nerviosas. La investigación de la precisión del diagnóstico de los resultados de la prueba individual puede subestimar la precisión del diagnóstico del proceso de examen físico. Este hecho es confirmado por la precisión del diagnóstico relativamente buena del modelo de diagnóstico multivariable de Vucetic 1999. Sin embargo, los modelos de Vroomen 2002 (atención primaria)mostraron que el examen físico puede aportar poca información a los resultados de los antecedentes clínicos (área bajo la curva de ROC 0,83 versus 0,80). Por lo tanto, los estudios de diagnóstico futuros deben centrarse en la contribución relativa de la información de los antecedentes clínicos del paciente, el examen físico y los estudios de diagnóstico por imágenes para desarrollar estrategias de diagnóstico que distingan entre los pacientes con o sin radiculopatía debida a herniación discal lumbar. Estos estudios deben realizarse en poblaciones de atención primaria. Otra contribución importante sería usar resultados alternativos, como las decisiones de tratamiento o recuperación de los síntomas, para estudiar la función del examen físico en el tratamiento de los pacientes con dolor lumbar y ciática, e investigar las consecuencias de los resultados positivos y negativos de las pruebas.

Conclusiones de los autores

Implicaciones para la práctica

Las pruebas disponibles indican que cuando se usan de forma individual, varios aspectos del examen físico (escoliosis, paresia o debilidad muscular, atrofia muscular, alteración de los reflejos, déficits sensitivos) no distinguen con exactitud entre los pacientes con dolor lumbar con o sin radiculopatía lumbar debida a herniación discal. Para otras pruebas (flexión anterógrada, prueba de hiperextensión y prueba de posición de desplome o slump test), no hubo suficientes pruebas para recomendar acerca de la precisión o la utilidad del diagnóstico. En las poblaciones que recibieron cirugía, la prueba de elevación de la pierna derecha mostró sensibilidad alta (y especificidad variable), mientras que la prueba de elevación de la pierna derecha cruzada mostró especificidad alta (junto con baja sensibilidad). Sin embargo, estos resultados se encontraron en poblaciones con una prevalencia muy alta de herniación discal (principalmente por encima de 75%) y con probabilidad de un espectro grave de la enfermedad, y no pueden generalizarse a otras poblaciones. La precisión del diagnóstico de las pruebas de examen físico en las poblaciones de atención primaria y otros grupos de pacientes generales, no seleccionados, aún es incierta ya que las pruebas de estos ámbitos son escasas. Un resumen de los resultados de todas las pruebas se proporciona en una tabla de resumen (Resumen de los resultados). Las implicaciones claras para la práctica son difíciles de formular, pero las pruebas disponibles indican que en los pacientes con dolor lumbar y ciática, un diagnóstico de herniación discal lumbar no debe basarse en los resultados de una única prueba del examen físico. Se puede obtener una mayor precisión al evaluar las combinaciones de las pruebas, incluida la información de los antecedentes clínicos y el examen físico, pero, para ello, se necesita más investigación.


Implicaciones para la investigación

Hay una necesidad importante de estudios de cohorte prospectivos de buena calidad que se realicen en poblaciones generales de pacientes de la atención primaria con dolor lumbar y síntomas que se irradian hacia la pierna. Preferentemente, estos estudios deben evaluar la precisión de las combinaciones de la información de diagnóstico para calcular un algoritmo de diagnóstico basado en los antecedentes clínicos del paciente y el examen físico. La precisión de los modelos de diagnóstico puede probarse contra estudios por imágenes en una serie consecutiva de pacientes con dolor lumbar y ciática. Deben otorgarse definiciones claras para los resultados positivos de las pruebas índice y el resultado del estándar de referencia. Las investigaciones posteriores deberían abordar la repercusión de aplicar un modelo de diagnóstico en las decisiones con respecto a la derivación y el tratamiento, y a los resultados de los pacientes.


Agradecimientos

Se desea dar las gracias a Gustavo Zanoli y Cesar Hincapie por su ayuda con los artículos publicados en italiano y español, y a Petra Macaskill, Rob Scholten y Vicki Pennick por sus útiles comentarios sobre esta revisión. Se dan las gracias a Vicki Pennick e Irina Schelkanova por su ayuda con la introducción de los datos en RevMan 5.

Datos

A continuación, se presentan los datos de todas las pruebas incluidas en la revisión.

Pruebas.Tablas de datos por prueba

Prueba

Nº de estudios

Nº de participantes

1 Prueba de elevación de la pierna derecha (dolor de la pierna en cualquier ángulo) - prueba de referencia: estudios por imágenes

5

672

2 Prueba de elevación de la pierna derecha (dolor de la pierna en cualquier ángulo) - prueba de referencia: cirugía

10

6561

3 Prueba de elevación de la pierna derecha cruzada (dolor de la pierna en cualquier ángulo) - prueba de referencia: cirugía o estudios por imágenes

5

2950

4 Escoliosis (inspección visual) - prueba de referencia: hallazgos quirúrgicos

4

479

5 Paresia (dorsiflexión del pie/tobillo) - prueba de referencia: hallazgos quirúrgicos o estudios por imágenes

7

3419

6 Atrofia muscular - prueba de referencia: hallazgos quirúrgicos

3

397

7 Alteración de los reflejos (tendón de Aquiles) - prueba de referencia: hallazgos quirúrgicos o estudios por imágenes

7

4515

8 Déficits sensitivos - prueba de referencia: hallazgos quirúrgicos o estudios por imágenes

6

935

9 Flexión anterógrada - prueba de referencia: cirugía o estudios por imágenes

3

442



Apéndices

Appendix 1. MEDLINE search strategy

1 Index test: tests performed during physical examination

1a

"straight leg raising"[tw] OR lasegue[tw] OR (provocation[tw] AND "intra abdominal pressure"[tw]) OR "bell test"[tw] OR "hyperextension test"[tw] OR "femoral nerve stretch test"[tw] OR (achilles[tw] AND (areflexia[tw] OR reflex*[tw])) OR (knee[tw] AND (extens*[tw] OR reflex[tw])) OR “Reflex, stretch”[mesh] OR (dermatom*[tw] AND (somatosensory[tw] OR sensibility[tw])) OR slump[tw] OR ("muscle strength"[tw] AND leg[tw] AND (test[tw] OR tests[tw] OR testing[tw] OR sign[tw])) OR ((Bragard*[tw] OR Naffziger*[tw]) AND (test[tw] OR tests[tw] OR testing[tw] OR sign[tw])) OR (measur*[tw] AND "calf wasting"[tw]) OR (impair*[tw] AND "ankle reflex"[tw]) OR (weakness[tw] AND dorsiflexion[tw] AND foot[tw])

1b

Physical examination[mesh] OR "physical examination" OR "function test" OR "physical test" OR (clinical[tw] AND (diagnosis[tw] OR sign[tw] OR signs[tw] OR significance[tw] OR symptom*[tw] OR parameter*[tw] OR assessment[tw] OR finding*))

2 Population: low-back pain and anatomical location

2a

back pain[mesh] OR sciatica[mesh] OR "back ache"[tw] OR backache[tw] OR "back pain"[tw] OR dorsalgia[tw] OR lumbago[tw] OR sciatica[tw] OR ischias[tw] OR ischialgia[tw] OR lumboischialgia[tw] OR radiculalgia[tw] OR  ((Pain[mesh] OR pain[tw] OR ache*[tw] OR aching[tw] OR complaint*[tw] OR dysfunction*[tw] OR disabil*[tw] OR neuralgia[tw]) AND (Back[mesh] OR spine[mesh] OR back[ti] OR lowback[tw] OR lumbar[tw] OR lumbal[tw] OR lumbo*[tw] OR sciatic[tw] OR spine[tw] OR spinal[tw] OR radicular[tw] OR "nerve root"[tw] OR "nerve roots"[tw] OR disk[tw] OR disc[tw] OR disks[tw] OR discs[tw] OR vertebra*[tw] OR intervertebra*[tw] OR sacroilia*[tw] OR Sacroiliac-joint[mesh]))

2b

low[tw] OR lower[tw] OR lowback[tw] OR sciatic*[tw] OR ischia*[tw] OR lumbo*[tw] OR lumba*[tw] OR sacroilia*[tw]

3 Target condition: lumbar radiculopathy

Intervertebral disk displacement[mesh] OR polyradiculopathy[mesh] OR radiculopath* OR radiculiti* OR  ((disc OR discs OR disk OR disks) AND (displacement OR hernia* OR protru* OR avulsion*)) OR (("nerve root" OR "nerve roots") AND (compress* OR entrap* OR inflammat* OR disorder*)) OR (nerve compression syndromes[mesh] AND (Back[mesh] OR spine[mesh] OR back[ti] OR lowback[tw] OR lumbar[tw] OR lumbal[tw] OR lumbo*[tw] OR sciatic[tw] OR spine[tw] OR spinal[tw] OR radicular[tw] OR "nerve root"[tw] OR "nerve roots"[tw] OR disk[tw] OR disc[tw] OR disks[tw] OR discs[tw] OR vertebra*[tw] OR intervertebra*[tw] OR sacroilia*[tw] OR Sacroiliac-joint[mesh]))

4 Methodological filter (primary diagnostic studies)

4a

diagnosis[sh] OR pathophysiology[sh] OR etiology[sh]

4b

diagnosis[sh] OR diagnosis[mesh:noexp]

4c

Diagnostic errors[mesh] OR "Diagnosis, differential"[mesh] OR "Reproducibility of results"[mesh] OR Reference standards[mesh] OR "Sensitivity and specificity"[mesh] OR Comparative study[pt] OR "Evaluation Studies as Topic"[Mesh] OR Evaluation studies[pt] OR Longitudinal studies[mesh] OR sensitivit* OR specificit* OR accura* OR likelihood ratio* OR predict* OR index test OR reference test OR (false[tw] AND (positive[tw] OR negative[tw])) OR pretest[tw] OR pre-test[tw] OR posttest[tw] OR post-test[tw] OR "gold standard" OR roc[tw] OR odds[tw] OR validity OR validation OR validate* OR validation studies[pt] OR verif*[ti] OR evaluat*[ti] OR value*[ti] OR reference values[mesh] OR cutoff OR cut-off OR repeatability OR reproducibility OR efficacy OR reliability OR error*[tw] OR suitability[tw] OR utility[tw]

5. Exclusion criteria: children, reviews, case reports, animal studies

((child[mesh] OR infant[mesh]) NOT (adult[mesh] OR adolescent[mesh])) OR Review[pt] OR case reports[pt] OR (animals[mesh] NOT humans[mesh])

Searches (combinations)

A. 1a and (2a or 3) and 2b not 5                                                         

B. 1a and ((2a and 4a) or (3 and 4b)) not 5

C. 1b and 2a and 2b and 3 and (4a or 4b) not 5

D. 1b and 2b and 3 and 4b and 4c not 5

Final search: A or B or C or D    

Appendix 2. EMBASE search strategy

1 Index test: tests performed during physical examination

1a

straight-leg-raising OR lasegue OR (provocation AND intra-abdominal-pressure) OR bell-test OR hyperextension-test OR femoral-nerve-stretch-test OR (achilles AND (areflexia OR reflex*)) OR (knee AND (extens* OR reflex)) OR Tendon-reflex/exp OR (dermatom* AND (somatosensory OR sensibility)) OR slump OR (Muscle-strength/exp AND leg/exp AND (test OR tests OR testing OR sign OR signs)) OR ((Bragard* OR Naffziger*) AND (test OR tests OR testing OR sign OR signs)) OR (measur* AND calf-wasting) OR (impair* AND ankle-reflex) OR (weakness AND dorsiflexion AND foot)

1b

clinical-examination/de OR clinical-feature/de OR clinical-observation/de OR physical-examination/exp OR functional-assessment/de OR function-test/exp OR provocation-test/de OR physical-examination OR function-test OR physical-test OR 'clinical *2 diagnosis' OR 'clinical *2 sign' OR 'clinical 2 signs' OR 'clinical 2 significance' OR 'clinical 2 symptom' OR 'clinical 2 symptoms' OR 'clinical 2 parameter' OR 'clinical 2 parameters' OR clinical-assessment OR ((symptom OR symptoms) AND (sign OR signs)) OR 'clinical *2 finding' OR 'clinical *2 findings'

1c

diagnosis OR etiology OR pathophysiology

1d

diagnosis

2 Population: low-back pain and anatomical location

2a

backache/exp OR backache OR back-ache OR back-pain OR dorsalgia OR lumbago OR sciatica OR ischias OR ischialgia OR lumboischialgia OR radiculalgia OR  ((Pain/exp OR pain OR ache* OR aching OR complaint* OR dysfunction* OR disabil* OR neuralgia) AND (Back/exp OR back:ti OR lowback OR lumbar OR lumbal OR lumbo* OR sciatic OR spine OR spinal OR radicular OR nerve-root OR nerve-roots OR disk* OR disc* OR vertebra* OR intervertebra* OR sacroilia* OR Intervertebral-articulation/de OR Sacroiliac-joint/de))

2b

low OR lower OR lowback OR sciatic* OR ischia* OR lumbo* OR lumba* OR sacroilia*

3 Target condition: lumbar radiculopathy

Intervertebral-disk-disease/exp OR radiculopathy/exp OR radiculopath* OR radiculiti* OR ((disc OR discs OR disk OR disks) AND (displacement OR hernia* OR protru* OR avulsion*)) OR ((nerve-root OR nerve-roots) AND (compress* OR entrap* OR inflammat* OR disorder*))

4 Methodological ‘filter’ (primary diagnostic studies)

accuracy/de OR clinical-study/de OR comparative-study/de OR correlation-analysis/de OR correlation-coefficient/de OR diagnostic-accuracy/de OR diagnostic-error/de OR diagnostic-value/de OR differential-diagnosis/de OR evaluation/de OR factorial-analysis/de OR follow-up/de OR (major-clinical-study/de AND methodology/de) OR Medical-decision-making/de OR observer-variation/de OR prediction-and-forecasting/exp OR preoperative-evaluation/de OR prospective-study/de OR reliability/de OR receiver-operating-characteristic/de OR reproducibility/de OR sensitivity-analysis/de OR sensitivity-and-specificity/exp OR standard/de OR utilization-review/de OR validation-process/de OR sensitivit* OR specificit* OR accura* OR likelihood-ratio OR predict*

5 Exclusion criteria: children, reviews, case reports, animal studies

(child/exp NOT adult/exp) OR Review:it OR review/de OR case-report/de OR ((animal/exp OR animal-experiment/exp OR animal-model/exp OR animal-disease/exp) NOT human/exp)

Term combinations applied:

A 1a and (2a or 3) and 2b not 5

B 1a and ((2a and 1c) or (3 and 1d)) not 5

C 1b and 2a and 2b and 3 and 1c not 5

D 1b and 1d and 2b and 3 and 4 not 5

Total = A or B or C or D

Appendix 3. CINAHL search strategy

1 Index test: tests performed during physical examination

1a

straight leg raising OR lasegue OR (provocation AND intra abdominal pressure) OR bell test OR hyperextension test OR femoral nerve stretch test OR (achilles AND (areflexia OR reflex*)) OR (knee AND (extens* OR reflex)) OR MH ”Reflex, stretch” OR (dermatom* AND (somatosensory OR sensibility)) OR slump OR (muscle strength AND leg AND (test OR tests OR testing OR sign)) OR ((TX Bragard* OR TX Naffziger*) AND (test OR tests OR testing OR sign)) OR (measur* AND calf wasting) OR (impair* AND ankle reflex) OR (weakness AND dorsiflexion AND foot)

1b

MH "Physical examination+"  OR physical examination OR function test OR physical test OR (clinical AND (diagnosis OR sign OR signs OR significance OR symptom* OR parameter* OR assessment OR finding*))

 

2 Population: low-back pain and anatomical location

MH "Back pain+" OR MH sciatica OR back ache OR backache OR back pain OR dorsalgia OR lumbago OR sciatica OR ischias OR ischialgia OR lumboischialgia OR radiculalgia OR  ((MH Pain OR pain OR ache* OR aching OR complaint* OR dysfunction* OR disabil* OR neuralgia) AND (MH Back OR MH Spine OR TI back OR lowback OR lumbar OR lumbal OR lumbo* OR sciatic OR spine OR spinal OR radicular OR nerve root* OR disk OR disc OR disks OR discs OR vertebra* OR intervertebra* OR sacroilia* OR MH "Sacroiliac joint" ))

 

3 Target condition: lumbar radiculopathy

MH "Intervertebral disk displacement" OR MH "Polyradiculopathy+" OR radiculopath* OR radiculiti* OR  ((disc OR discs OR disk OR disks) AND (displacement OR hernia* OR protru* OR avulsion*)) OR ((nerve root*) AND (compress* OR entrap* OR inflammat* OR disorder*)) OR (MH Nerve compression syndromes AND (MH Back OR MH Spine OR TI back OR lowback OR lumbar OR lumbal OR lumbo* OR sciatic OR spine OR spinal OR radicular OR (nerve root*) OR disk OR disc OR disks OR discs OR vertebra* OR intervertebra* OR sacroilia* OR MH "Sacroiliac joint"))

Exclusion criteria: publication types

(ZT "Case study") OR (ZT "Editorial") OR (ZT "Letter") OR (ZT "Review")

Term combinations applied:

A 1a and (2 or 3) not 4  

B 1b and 3 not  4

Total = A or B

Appendix 4. Criteria for Quality Assessement (QUADAS)

Item and Guide to classification

1. Was the spectrum of patients representative of the patients who will receive the test in practice? Is it a selective sample of patients?  

Differences in demographic or clinical features between the study population and the source population may lead to selection bias or spectrum variation. In this item we will focus on selection bias: is a selective sample of patients included?

  • Classify as ‘yes’ if a consecutive series of patients or a random sample has been selected. Information should be given about setting, in- and exclusion criteria, and preferably number of patients eligible and excluded. If a mixed population of primary and secondary care patients is used: the number of participants from each setting is presented.

  • Classify as ‘no’ if healthy controls are used. Score also ‘no’ if non-response is high and selective, or there is clear evidence of selective sampling. Score also ‘no’ if a population is selected that is otherwise unsuitable, for example, patients are known to have other specific causes of LBP (severe OA, malignancies, etc).

  • Classify as ‘unclear’ if insufficient information is given on the setting, selection criteria, or selection procedure to make a judgment. 

2. Is the reference standard likely to classify the target condition correctly?

Estimates of test performance are based on the assumption that the reference standard will identify nerve root compression due to disc herniation with 100% sensitivity and 100% specificity. Such reference standards are rare. Errors due to an imperfect reference standard may bias the estimation of diagnostic performance. For this review acceptable reference standards are: 1) findings at surgery demonstrating nerve root compression or irritation due to disc herniation; and 2) myelography indicating nerve root compression; and 3) although probably of lower quality, CT/MRI findings indicating nerve root compression;

  • Classify as ‘yes’ if one of these procedures is used as reference standards.

  • Classify as ‘no’ if you seriously question the methods used, if consensus among observers, or a combination of aspects of physical examination and history (‘clinical judgement’) is used as reference standard. (Use of imaging/surgery is actually a selection criterion, so the latter may not occur )

  • Classify as ‘unclear’ if insufficient information is given on the reference standard.

  • Classify as ‘not able’ if you consider yourself not capable to assess this item. If you have doubts, for example, regarding the quality of MRI-procedures but feel not competent to make an adequate assessment, we can consult a radiologist.

3. Is the time period between the reference standard and the index test short enough to be reasonably sure that the target condition did not change between the two tests?

The index tests and reference standard should ideally be carried out at the same time. If there is a considerable delay, misclassification (due to spontaneous recovery or worsening of the condition) may occur.

  • Classify as ‘yes’ if the time period between physical examination and the reference standard is one week or less.

  • Classify as ‘no’ if the time period between physical examination and the reference standard is longer than one week.

  • Classify as ‘unclear’ if there is insufficient information on the time period between index tests and reference standard.  

4. Did the whole sample or a random selection of the sample receive verification using a reference standard of diagnosis?

When not all of the study patients receive confirmation of their diagnosis by a reference standard, partial verification bias may occur. Bias is very likely if the results of the index test influence the decision to perform the reference standard. Random allocation of patients to the reference standard should in theory not affect diagnostic performance. [Verification bias is also known as work-up bias or sequential ordering bias].

  • Classify as ‘yes’ if it is clear that all patients who received the index test went on to receive a reference standard, even if the reference standard is not the same for all patients.

  • Classify as ‘no’ if not all patients who received the index test received verification by a reference standard.

  • Classify as ‘unclear’ if insufficient information is provided to assess this item.

5. Did patients receive the same reference standard regardless of the index test result?

Differential verification bias occurs when the results of the index tests are verified by different reference standards. This is not unlikely in this review: some patients may be referred for surgery following physical examination, whereas others only go on to receive diagnostic imaging. Bias is likely to occur when this decision depends on the results of the index test.

  • Classify as ‘yes’ if it is clear that all patients receiving the index test are subjected to the same reference standard.

  • Classify as ‘no’ if different reference standards are used.

  • Classify as ‘unclear’ if insufficient information is provided to assess this item.

6. Was the reference standard independent of the index test (i.e. the index test did not form part of the reference standard)?

It is not unlikely that the results of the physical examination are used when establishing the final diagnosis. In this case incorporation bias may occur (overestimating diagnostic accuracy). Knowledge of the results of the index test does not necessarily mean that these results are incorporated in the reference standard. For example, if the reference standard consists of MRI-results only (regardless of knowledge of the results of the straight leg raising test), the index test is not part of the reference standard. However, if the final diagnosis is based on the results of both MRI-findings and a positive straight leg raising test, incorporation bias will occur.

  • Score ‘yes’ if the index is no part of the reference standard.

  • Score ‘no’ if the index test is clearly part of the reference standard.

  • Score ‘unclear’ if insufficient information is provided to assess this item.

7. Were the reference standard results interpreted without knowledge of the results of the index test?

Interpretation of the results of physical examination may be influenced by knowledge of the results of the reference standard, and vice versa. This is known as reviewer bias, and may lead to over-estimation of diagnostic accuracy. In our review the risk of bias may be substantial as both index test and reference standard often involve a subjective assessment of results. If the index test always precedes the reference standard, interpretation of the results of the index test will usually be without knowledge of the results of the reference standard. The reverse may also be true, although surgery is unlikely to precede physical examination.

  • Classify as ‘yes’ if the results of the reference standard are interpreted blind to the results of the index tests. Also score ‘yes’ if the sequence of testing is always the same and, consequently, the reference standard is interpreted blind of the index test.

  • Classify as ‘no’ if the assessor is aware of the results of the index test.

  • Classify as ‘unclear’ if insufficient information is given on independent or blind assessment of the index test.

8. Were the index test results interpreted without knowledge of the results of the reference standard?

Interpretation of the results of physical examination may be influenced by knowledge of the results of the reference standard, and vice versa. This is known as reviewer bias, and may lead to over-estimation of diagnostic accuracy. In our review the risk of bias may be substantial as both index test and reference standard often involve a subjective assessment of results. If the index test always precedes the reference standard, interpretation of the results of the index test will usually be without knowledge of the results of the reference standard. The reverse may also be true, although surgery is unlikely to precede physical examination.

  • Classify as ‘yes’ if the results of the index test are interpreted blind to the results of the reference test. Score also ‘yes’ if the sequence of testing is always the same and, consequently, the index test is interpreted blind of the reference standard.

  • Classify as ‘no’ if the assessor is aware of the results of the reference standard.

  • Classify as ‘unclear’ if insufficient information is given on independent or blind assessment of the reference standard.

9. Were the same clinical data available when the index test results were interpreted as would be available when the test is used in practice?

The knowledge of demographic and clinical data, such as age, gender, symptoms, history of low-back pain, previous treatments, or other aspects of physical examination may influence the interpretation of test results. The way this item is scored depends on the objective of the index test. If an aspect of physical examination is intended to replace other tests, these clinical data should not be available. However, if in practice clinical data are usually available when interpreting the results of the index test, this information should be available to the assessors of the index test.

  • Classify as ‘yes’ if clinical data (i.e. patient history, other physical tests) would normally be available when the test results are interpreted and similar data are available in the study.

  • Classify as ‘yes’ if clinical data would normally not be available when the test results are interpreted and these data are also not available in the study.

  • Classify as ‘no’ if this is not the case, e.g. if other test results are available that can not be regarded as part of routine care.

  • Classify as ‘unclear’ if the paper does not explain which clinical information was available at the time of assessment.

10. Were uninterpretable / intermediate test results reported?

Uninterpretable or intermediate test results are often not reported in diagnostic studies. Authors may simply remove these results from the analysis, which may lead to biased results of diagnostic performance. If uninterpretable or intermediate test results occur randomly and are not related to disease status, bias is unlikely. Whatever the cause of uninterpretable results they should be reported in order to estimate their potential influence on diagnostic performance.

  • Classify as ‘yes’ if all test results are reported for all patients, including uninterpretable, indeterminate or intermediate results.  

  • Classify as ‘yes’ if the authors do not report any uninterpretable, indeterminate or intermediate results AND the results are reported for all patients who were described as having been entered into the study.

  • Classify as ‘no’ if you think that such results occurred, but have not been reported.

  • Classify as ‘unclear’ if it is unclear whether all results have been reported.

11. Were withdrawals from the study explained?

Patients may withdraw from the study before the results of both index test and reference standard are known. If withdrawals systematically differ from patients remaining in the study, then estimates of diagnostic test performance may be biased. A flow chart is sometimes provided (in more recently published papers) which may help to score this item.

  • Classify as ‘yes’ if it is clear what happens to all patients who entered the study (all patients are accounted for, preferably in a flow chart).  

  • Classify as ‘yes’ if the authors do not report any withdrawals AND if the results are available for all patients who were reported to have been entered in the study.

  • Classify as ‘no’ if it is clear that not all patients who were entered completed the study (received both index test and reference standard), and not all patients are accounted for.

  • Classify as ‘unclear’ when the paper does not clearly describe whether or not all patients completed all tests, and are included in the analysis.

Note: In many diagnostic studies one may doubt whether or not all eligible patients have been entered in the study and are described in the paper. This issue is more strongly related to selection bias and will be scored under item 1.

Additional QUADAS items

12. Did the study provide a clear definition of what was considered to be a “positive” result of the index test?

Aspects of physical examination, for example the straight leg raising test, require a subjective judgement. Furthermore, several methods of performing the test have been described, and several cut-offs have been proposed. Consequently, it is essential that an adequate description is given of the methods used to carry out (aspects of) physical examination, and how a positive result is defined.

  • Classify as ‘yes’ if the paper provides a clear description of the way the index test is performed, including a definition of a positive test result.

  • Classify as ‘no’ if no description is given of the way the index test is performed, and no definition is given of a positive test result.

  • Classify as ‘unclear’ if the methods of the index test are described, but no clear definition of a positive result has been provided, or vice versa.

13. Was treatment withheld until both index test and reference standard were performed?

If index tests and reference standard are not performed on the same day, some type of intervention may be initiated in between index test and reference standard. This might lead to misclassification (if some recovery of symptoms occurs).

  • Classify as ‘yes’ if no treatment is given in the time period between physical examination and the reference standard.

  • Classify as ‘no’ if an intervention is given that in your opinion could possibly influence the prognosis of low-back pain due to nerve root compression / irritation.

  • Classify as ‘unclear’ if there is insufficient information regarding treatment between index test and reference standard.

14. Were data on observer variation reported and within acceptable range?

Studies on the reproducibility of physical examination in patients with musculoskeletal pain show that there may be considerable inter-observer variation. This may strongly influence the diagnostic performance of the index test. It is difficult to give minimal cut-off scores for inter-observer agreement. A kappa or ICC of 0.70 is often considered to be acceptable, but this is certainly an arbitrary definition.

  • Classify as ‘yes’ if the paper provides information on inter-observer variation, and the results are acceptable. 

  • Classify as ‘no’ if information is given on inter-observer variation, and the results demonstrate poor agreement.

  • Classify as ‘unclear’ if there is insufficient information is provided regarding inter-observer variation



Appendix 5. Diagnostic performance of Straight leg raising test

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Vroomen 2002

Primary care

SLR

Leg pain

MRI: nerve root compression

97

53

55

69

0.64 (0.56 to 0.71)

0.57 (0.47 to 0.66)

Albeck 1996

SLR

Leg pain any angle

S: extrusion

51

15

10

4

0.84 (0.72 to 0.92)

0.21 (0.06 to 0.46)

Charnley 1951

SLR

Leg pain < 60°

S: protrusion

63

8

11

6

0.85 (9.75 to 0.92)

0.43 (0.18 to 0.71)

Charnely 1951

SLR

Leg pain < 40°

S: protrusion

58

5

16

9

0.78 (0.67 to 0.87)

0.64 (0.35 to 0.87)

Demircan 2002

SLR: pain < 30°

S: protrusion / sequestration

129

5

55

95

 

0.70 (0.63 to 0.77)

0.95 (0.89 to 0.98)

Demircan 2002

SLR: pain < 60°

S: protrusion / sequestration

172

8

12

92

 

0.94 (0.89 to 0.97)

0.92 (0.85 to 0.97)

Demircan 2002

SLR: pain < 90°

S: protrusion / sequestration

179

18

5

82

0.97 (0.94 to 0.99)

 

0.82 (0.73 to 0.89)

Gurdjian 1961

 

SLR

(cut off not given)

S: protrusion

929

12

222

13

0.81 (0.78 to 0.83)

0.52 (0.31 to 0.72)

Hakelius 1972

SLR: pain < 30°

S: protrusion / sequestration

 

600

107

867

385

0.41 (0.38 to 0.44)

0.78 (0.74 to 0.82)

Hakelius 1972

SLR: pain < 60°

S: protrusion / sequestration

 

1229

313

238

179

0.84 (0.82 to 0.86)

0.36 (0.32 to 0.41)

Hakelius 1972

SLR: pain any angle

S: protrusion / sequestration

 

1411

422

56

70

0.96 (0.95 to 0.97)

0.14 (0.11 to 0.18)

Haldeman 1988

SLR: leg pain < 60°

 

CT: bulge / stenosis

10

16

17

57

0.37 (0.19 to 0.58)

0.78 (0.67 to 0.87)

Haldeman et al. 1988

SLR: any leg pain or back pain at <60°

CT: bulge / stenosis

17

39

10

34

0.62 (0.43 to 0.81)

0.47 (0.35 to 0.59)

Kerr 1988

SLR: leg pain any angle

S: protrusion / sequestration

98

20

2

16

0.98 (0.93 to 0.99)

0.44 (0.28 to 0.62)

Knutsson 1961

Subgroup first surgery

SLR

(cut off not given)

S: herniation / protrusion

155

18

7

2

0.96 (0.91 to 0.98)

0.10 (0.01 to 0.32)

Kosteljanetz 1984

SLR

Leg pain < 30°

S: complete / incomplete herniation

8

3

48

41

0.14 (0.06 to 0.26)

0.93 (0.81 to 0.99)

Kosteljanetz 1984

SLR

Leg pain < 50°

S: complete / incomplete herniation

29

12

27

32

0.52 (0.38 to 0.65)

0.73 (0.57 to 0.85)

Kosteljanetz 1984

SLR

Leg pain any angle

S: complete / incomplete herniation

44

23

12

21

0.79 (0.66 to 0.88)

0.48 (0.33 to 0.63)

Kosteljanetz 1984

SLR: leg pain / back pain any angle

S: complete / incomplete herniation

51

35

5

9

0.91 (0.80 to 0.97)

0.21 (0.10 to 0.35)

Kosteljanetz 1988

SLR: Leg pain at any angle

S: prolapse

40

6

5

1

0.89 (0.76 to 0.96)

0.14 (0.004 to 0.58)

Kosteljanetz 1988

SLR: leg pain / back pain at any angle

S: prolapse

43

6

2

1

0.96 (0.85 to 0.99)

0.14 (0.004 to 0.58)

Majlesi 2008

SLR

Pain < 70°

MRI: bulging, protruding, extruding

20

4

18

33

0.52 (0.42 to 0.58)

0.89 (0.79 to 0.95)

Meylemans 1988

 

SLR

pain < 45°

CT: radiculopathy

35

0

66

45

0.35 (0.26 to 0.45)

1.00 (0.92 to 1.00)

Poireaudeau 2001

 

SLR: Leg pain at any angle

MRI, CT or myelography: herniation

34

22

8

13

0.81 (0.66 to 0.91)

0.37 (0.22 to 0.55)

Spangfort 1972

 

SLR: Leg pain at any angle

S: bulging, (in)complete herniation

2088

308

69

39

0.97 (0.96 to 0.98)

0.11 (0.08 to 0.15)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. Shaded comparisons are used for further analyses



Appendix 6. Diagnostic performance of Crossed straight leg raising test

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Kerr 1988

XSLR: contralateral leg pain, any angle

S: protrusion / sequestration

43

2

57

34

0.43 (0.33 to 0.53)

0.94 (0.81 to 0.99)

Knutsson 1961

Subgroup first surgery

XSLR

(cut off not given)

S: herniation / protrusion

40

1

122

18

0.25 (0.18 to 0.32)

0.95 (0.74 to 0.99)

Kosteljanetz 1988

XSLR: contralateral

leg pain any angle

S: prolapse

11

0

34

7

0.24 (0.13 to 0.40)

1.00 (0.59 to 1.00)

Kosteljanetz 1988

XSLR: contra-lateral leg pain or back pain any angle

S: prolapse

19

1

26

6

0.42 (0.28 to 0.58)

0.86 (0.42 to 0.99)

Poireaudeau 2001

 

XSLR: contralateral

leg pain any angle

MRI, CT or myelography: herniation

12

6

30

29

0.29 (0.16 to 0.45)

0.83 (0.66 to 0.93)

Spangfort 1972

 

XSLR: contralateral

leg pain at any angle

S: bulging (in)complete herniation

500

41

1657

306

0.23 (0.21 to 0.25)

0.88 (0.84 to 0.91)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. Shaded comparisons are used for further analyses



Appendix 7. Diagnostic performance of physical examination for Scoliosis

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Albeck 1996

Scoliosis (visual inspection)

S: extrusion

24

7

37

12

0.39 (0.27 to 0.53)

0.63 (0.38 to 0.84)

Kerr 1988

Scoliosis: visual inspection

S: protrusion/

sequestration

63

4

37

32

0.63 (0.53 to 0.72)

0.89 (0.74 to 0.97)

Kosteljanetz 1984

Scoliosis

?

S: (in)complete herniation

30

11

28

31

0.52 (0.38 to 0.65)

0.74 (0.58 to 0.86)

Vucetic 1996

Scoliosis

Visual inspection

S: extrusion, sequestration

70

31

33

29

0.68 (0.58 to 0.77)

0.48 (0.35 to 0.62)

Vucetic 1996

Scoliosis

Visual inspection

S: sequestration, extrusion, or protrusion

96

5

54

8

0.64 (0.56 to 0.72)

0.62 (0.32 to 0.86)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. Shaded comparisons are used for further analyses



Appendix 8. Diagnostic performance of physical examination for Paresis or muscle weakness

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Vroomen 2002

Primary care

Paresis

MRI: nerve root compression

 

41

8

111

114

0.27 (0.20 to 0.37)

0.93 (0.88 ? 0.97)

Albeck 1996

Paresis

S: extrusion

 

21

10

40

9

0.34 (0.23 to 0.47)

0.47 (0.24 to 0.71)

Kerr 1988

Reduced power dorsiflexion

S: protrusion / sequestration

54

4

46

32

0.54 (0.44 to 0.64)

0.89 (0.74 to 0.97)

Knutsson 1961

All

Weakness paralysis big toe

S: herniation / protrusion

112

14

66

14

0.63 (0.55 to 0.70)

0.50 (0.31 to 0.69)

Knutsson 1961

Subgroup first surgery

Weakness or paralysis big toe

S: herniation / protrusion

100

10

62

10

0.62 (0.54 to 0.69)

0.50 (0.27 to 0.73)

Knutsson 1961

Subgr previous surgery

Weakness or paralysis big toe

S: herniation / protrusion

12

4

4

4

0.75 (0.48 to 0.93)

0.50 (0.16 to 0.84)

Kosteljanetz 1984

Paresis, muscle weakness

S: (in)complete herniation

27

20

31

22

0.47 (0.33 to 0.61)

0.52 (0.36 to 0.68)

Spangfort 1972

 

Paresis dorsiflexion

S: (in)complete herniation

585

170

1357

392

0.30 (0.28 to 0.32)

0.70 (0.66 to 0.74)

Spangfort 1972

 

Paresis dorsiflexion

S: (in)complete herniation / bulging disc

645

110

1512

217

0.30 (0.28 to 0.32)

0.66 (0.61 to 0.72)

Vucetic 1996

Extensor paresis big toe or ankle

S: extrusion, sequestration

27

19

76

41

0.26 (0.18 to 0.36)

0.68 (0.55 to 0.80)

Vucetic 1996

Extensor paresis big toe or ankle

S: sequestration, extrusion, or protrusion

43

3

107

10

0.29 (0.22 to 0.37)

0.77 (0.46 to 0.95)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. Shaded comparisons are used for further analyses



Appendix 9. Diagnostic performance of physical test for Muscle wasting

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Albeck 1996

Muscle wasting

S: extrusion

 

9

6

51

13

0.15 (0.07 to 0.27)

0.68 (0.43 to 0.87)

Kerr 1988

Muscle wasting: 1 cm diff calf circumference

S: protrusion / sequestration

29

2

71

34

0.29 (0.20 to 0.39)

0.94 (0.81 to 0.99)

Knuttson 1961

All

Muscle wasting

S: herniation / protrusion

69

13

109

15

0.39 (0.32 to 0.46)

0.54 (0.34 to 0.73)

Knutsson 1961

Subgroup first surgery

Muscle wasting

S: herniation / protrusion

62

10

100

10

0.38 (0.31 to 0.46)

0.50 (0.27 to 0.73)

Knutsson 1961

Subgr previous surgery

Muscle wasting

S: herniation / protrusion

7

3

9

5

0.44 (0.20 to 0.70)

0.63 (0.25 to 0.92)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval.



Appendix 10. Diagnostic performance of physical test for Impaired reflexes

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Vroomen 2002

Primary care

Absence tendon reflexes

MRI: nerve root compression

22

8

130

114

0.15 (0.09 to 0.21)

0.93 (0.88 to 0.97)

Albeck 1996

Impaired reflex (asymmetric)

S: extrusion

 

37

7

24

12

0.61 (0.47 to 0.73)

0.63 (0.38 to 0.84)

Gurdjian 1961

 

Impaired Achilles tendon reflex (9 cases bilateral, all other unilateral)

S: protrusion

486

10

665

15

0.42 (0.39 to 0.45)

0.60 (0.39 to 0.79)

Gurdjian 1961

 

Impaired patellar tendon reflex

S: protrusion

84

3

1067

22

0.07 (0.06 to 0.09)

0.88 (0.69 to 0.98)

Kerr 1988

Abnormal ankle tendon reflex

S: protrusion / sequestration

 

48

4

52

32

0.48 (0.38 to 0.58)

0.89 (0.74 to 0.97)

Knutsson 1961

All

Weakness Achilles tendon reflex

S: herniation / protrusion

100

13

78

15

0.56 (0.49 to 0.64)

0.54 (0.34 to 0.73)

Knutsson 1961

Subgroup first surgery

Weakness Achilles tendon reflex

S: herniation / protrusion

87

8

75

12

0.54 (0.46 to 0.62)

0.60 (0.36 to 0.81)

Knutsson 1961

Subgr previous surgery

Weakness Achilles tendon reflex

S: herniation / protrusion

13

5

3

3

0.81 (0.54 to 0.96)

0.38 (0.09 to 0.76)

Knutsson 1961

All

Weakness patellar tendon reflex

S: herniation / protrusion

27

7

151

21

0.15 (0.10 to 0.21)

0.75 (0.55 to 0.89)

Knutsson 1961

Subgroup first surgery

Weakness patellar tendon reflex

S: herniation / protrusion

23

7

139

13

0.14 (0.09 to 0.21)

0.65 (0.41 to 0.85)

Knutsson 1961

Subgr previous surgery

Weakness patellar tendon reflex

S: herniation / protrusion

4

0

12

8

0.25 (0.07 to 0.52)

1.00 (0.63 to 1.00)

Spangfort 1972

 

Impairment ankle reflex

S: (in)complete herniation

618

126

1324

436

0.32 (0.30 to 0.34)

0.78 (0.74 to 0.81)

Spangfort, 1972

Impairment ankle reflex

S: (in)complete herniation or  bulging disc

675

69

1482

278

0.31 (0.29 to 0.33)

0.80 (0.76 to 0.84)

Vucetic 1996

Areflexia : ≥1 tendon reflexes absent

S: extrusion, sequestration

44

12

59

48

0.43 (0.33 to 0.53)

0.80 (0.68 to 0.89)

Vucetic 1996

Areflexia : ≥1 tendon reflexes absent

S: sequestration, extrusion, or protrusion

53

3

97

10

0.35 (0.28 to 0.44)

0.77 (0.46 to 0.95)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. Shaded comparisons are used for further analyses



Appendix 11. Diagnostic performance of physical test for Sensory deficits

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Vroomen 2002

Primary care

Sensory loss: hypaesthesia

MRI: nerve root compression

43

42

109

80

0.28 (0.21 to 0.36)

0.66 (0.56 to 0.74)

Vroomen 2002

Primary care

Sensory loss: hypalgesia

MRI: nerve root compression

26

19

126

103

0.17 (0.12 to 0.24)

0.84 (0.77 to 0.90)

Albeck 1996

Sensory deficits

S: extrusion

 

41

11

20

8

0.67 (0.54 to 0.79)

0.42 (0.20 to 0.67)

Kerr 1988

Tingling, numbness

S: protrusion / sequestration

30

15

70

21

0.30 (0.21 to 0.40)

0.58 (0.41 to 0.75)

Knuttson 1961 all

Impaired sensibility

S: herniation / protrusion

51

10

127

18

0.29 (0.22 to 0.36)

0.64 (0.44 to 0.81)

Knutsson 1961

Subgroup first surgery

Impaired sensibility

S: herniation / protrusion

46

7

116

13

0.28 (0.21 to 0.36)

0.65 (0.41 to 0.85)

Knutsson 1961

Sub previous surgery

Impaired sensibility

S: herniation / protrusion

5

3

11

5

0.31 (0.11 to 0.59)

0.63 (0.25 to 0.92)

Kosteljanetz 1984

Sensory loss

 

S: (in)complete / herniation

35

18

23

24

0.60 (0.47 to 0.73)

0.57 (0.41 to 0.72)

Vucetic 1996

Decreased sensibility

S: extrusion, sequestration

43

28

60

32

0.42 (0.32 to 0.52)

0.53 (0.40 to 0.66)

Vucetic 1996

Decreased sensibility

S: sequestration, extrusion, or protrusion

67

4

83

9

0.45 (0.37 to 0.53)

0.69 (0.39 to 0.91)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. Shaded comparisons are used for further analyses



Appendix 12. Diagnostic performance of Forward Flexion

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Vroomen 2002

Primary care

Finger-floor >25 cm

MRI: nerve root compression

68

32

84

90

0.45 (0.37 to 0.53)

0.74 (0.65 to 0.81)

Albeck 1996

Forward flexion (knee or higher)

S: extrusion

55

16

6

3

0.90 (0.80 to 0.96)

0.16 (0.03 to 0.40)

Charnley 1951

Forward flexion (<3 inches below knee)

S: protrusion

63

10

11

4

0.85 (0.75 to 0.92)

0.29 (0.08 to 0.58)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval.



Appendix 13. Diagnostic performance of Extenstion Test

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Poiraudeau 2001

Hyper extension

MRI, CT or myelography: herniation

19

11

23

24

0.45 (0.30 to 0.61)

0.69 (0.51 to 0.83)

Stankovic 1999

 

Extension test: major loss

CT/MRI: herniation

10

3

42

50

0.19 (0.10 to 0.33)

0.94 (0.84 to 0.99)

Stankovic 1999

 

Extension test: major loss

CT/MRI: bulging / herniation

12

1

81

11

0.13 (0.07 to 0.22)

0.92 (0.62 to 0.99)

Stankovic 1999

 

Extension test: moderate loss

CT/MRI: herniation

24

24

28

29

0.46 (0.32 to 0.61)

0.55 (0.40 to 0.68)

Stankovic 1999

 

Extension test: moderate loss

CT/MRI: bulging / herniation

42

6

51

6

0.45 (0.35 to 0.56)

0.50 (0.21 to 0.79)

Stankovic 1999

 

Extension test:

any loss

CT/MRI: herniation

47

44

5

9

0.90 (0.79 to 0.97)

0.17 (0.08 to 0.30)

Stankovic 1999

 

Extension test:

any loss

CT/MRI: bulging / herniation

82

9

11

3

0.88 (0.80 to 0.94)

0.25 (0.06 to 0.57)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval



Appendix 14. Diagnostic performance of other tests

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Majlesi 2008

Slump test:

Any pain?

MRI: bulging, protruding, extruding disc

32

6

6

31

0.84 (0.74 to 0.90)

0.83 (0.73 to 0.90)

Stankovic 1999

 

Slump test:

Pain below knee

CT/MRI: herniation

25

21

27

32

0.48 (0.34 to 0.62)

0.60 (0.46 to 0.74)

Stankovic 1999

 

Slump test:

Pain below knee

CT/MRI: bulging / herniation

41

5

52

7

0.44 (0.34 to 0.55)

0.58 (0.28 to 0.85)

Stankovic 1999

 

Slump test:

Pain in buttock / leg

CT/MRI: herniation

40

34

12

19

0.77 (0.63 to 0.88)

0.36 (0.23 to 0.50)

Stankovic 1999

 

Slump test:

Pain in buttock / leg

CT/MRI: bulging /herniation

66

8

27

4

0.71 (0.61 to 0.80)

0.33 (0.10 to 0.65)

Stankovic 1999

 

Slump test:

Pain anywhere

CT/MRI: herniation

49

41

3

12

0.94 (0.84 to 0.99)

0.23 (0.12 to 0.36)

Stankovic 1999

 

Slump test:

Pain anywhere

CT/MRI: bulging / herniation

81

9

12

3

0.87 (0.79 to 0.93)

0.25 (0.06 to 0.57)

Poiraudeau 2001 

Bell test

MRI, CT or myelography: herniation

20

13

21

22

0.49 (0.33 to 0.65)

0.63 (0.45 to 0.79)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval



Appendix 15. Diagnostic performance of combinations of tests

Reference

Index test

Reference standard

TP

FP

FN

TN

Sensitivity

(95% CI)

Specificity

(95% CI)

Charnley 1951

SLR + finger-to floor

<60° + <3 inches below knee

S: protrusion

57

6

17

8

0.77 (0.66 to 0.86)

0.57 (0.29 to 0.82)

Charnely 1951

SLR + finger to floor

<40° + <3 inches below knee

S: protrusion

54

5

20

9

0.73 (0.61 to 0.83)

0.64 (0.35 to 0.87)

Hudgins 1979

All patients

SLR+ and XSLR+: contralateral leg pain, any angle

S: protrusion or clinical follow-up

56

2

188

105

0.23 (0.18 to 0.29)

0.98 (0.93 to 0.99)

Hudgins 1979

Subgroup surgery

SLR+ and XSLR+: contralateral leg pain, any angle

S: protrusion

54

2

173

45

0.24 (0.18 to 0.30)

0.96 (0.86 to 0.99)

Hudgins 1979

Subgroup conservative

SLR+ and XSLR+: contralateral leg pain, any angle

clinical follow-up

2

0

15

60

0.12 (0.02 to 0.36)

1.00 (0.94 to 1.00)

Meylemans 1988

 

Neurological signs (sensibility, reflexes)

CT: radiculopathy

40

6

61

39

0.40 (0.30 to 0.50)

0.87 (0.73 to 0.95)

Meylemans 1988

 

Neurological signs + SLR (<45°)

CT: radiculopathy

22

0

79

45

0.22 (0.14 to 0.31)

1.00 (0.92 to 1.00)

Poiraudeau 2001 **

 

SLR + Bell test

MRI, CT or myelography: herniation

18

12

25

23

0.42 (0.27 to 0.58)

0.66 (0.48 to 0.81)

Poiraudeau 2001 **

 

SLR + hyper extension

MRI, CT or myelography: herniation

18

10

25

25

0.42 (0.27 to 0.58)

0.71 (0.54 to 0.85)

Poiraudeau 2001 **

 

XSLR + Bell test

MRI, CT or myelography: herniation

9

4

34

31

0.21 (0.10 to 0.36)

0.89 (0.73 to 0.97)

Poiraudeau 2001 **

 

XSLR + hyper extension

MRI, CT or myelography: herniation

9

2

34

33

0.21 (0.10 to 0.36)

0.94 (0.81 to 0.99)

Poiraudeau et al. 2001 **

 

SLR + XSLR

MRI, CT or myelography: herniation

12

9

31

26

0.28 (0.15 to 0.44)

0.74 (0.57 to 0.88)

Poiraudeau 2001** 

SLR + XSLR + Bell test + hyper extension

MRI, CT or myelography: herniation

7

3

36

32

0.16 (0.07 to 0.31)

0.91 (0.77 to 0.98)

Abbreviations: S = surgery, CT = computed tomography, MRI = magnetic resonance imaging, TP = true positives, FP = false positives, FN = false negatives, TN = true negatives, CI = confidence interval. ; ** average results of three observers



Antecedentes

Primera publicación del protocolo: Número 4, 2008
Primera publicación de la revisión: Número 2, 2010

Contribuciones de los autores

DvdW comprobó la selección de los artículos, ayudó con la evaluación de la calidad, realizó el análisis estadístico y redactó el protocolo y la revisión. IR diseñó la estrategia de búsqueda. ES y BA seleccionaron los resúmenes y los artículos. AV y CA realizaron la evaluación de la calidad, ML y DvdW realizaron la extracción de datos. LB y HdV proporcionaron asesoramiento metodológico, RD proporcionó asesoramiento metodológico y clínico. Todos los coautores hicieron comentarios sobre varios borradores del protocolo y la revisión.

Declaraciones de interés

No existen conflictos de interés.

Fuentes de financiación

Recursos internos

  • VU university medical centre and VU university, Netherlands.

    Support for the time invested by reviewer authors.

  • Arthritis Research Campaign National Primary Care Centre, Keele University, UK.

    Support for time invested by reviewer author

  • Belgium branch of Dutch Cochrane Centre, Belgium.

    Support for time invested by reviewer authors

  • Institute for Work and Health & Toronto Western Hospital, Canada.

    Support for time invested by reviewer author

  • Department of General Practice, Erasmus medical centre, Netherlands.

    Support for time invested by reviewer author

  • Physio South, Christchurch, New Zealand.

    Support for time invested by reviewer author

  • International and Migrant Health, NIVEL, Netherlands.

    Support for time invested by reviewer author

  • Evidence-Based Family Medicine, Oregon Health and Science University, USA.

    Support for time invested by reviewer author

Recursos externos

  • No sources of support supplied

Información de contacto

Authors: Daniëlle AWM van der Windt1, Emmanuel Simons2, Ingrid I Riphagen3, Carlo Ammendolia4, Arianne P Verhagen5, Mark Laslett6, Walter Devillé7, Rick A Deyo8, Lex M Bouter9, Henrica CW de Vet10, Bert Aertgeerts2


1Keele University, Department of Primary Care & Health Sciences, , Keele, UK

2CEBAM, Belgian Branch of the Dutch Cochrane Centre, Kapucijnenvoer 33 blok J bus 7001, Leuven, Belgium

3Norwegian University of Science and Technology, Unit for Applied Clinical Research, Faculty of Medicine, , Trondheim, Norway

4Institute for Work & Health, 481 University Avenue, Suite 800, Toronto, Canada

5Erasmus Medical Centre University, Department of General Practice, PO Box 2040, Rotterdam, Netherlands

6PhysioSouth, Level 2, 3 Pilgrim Place, Christchurch, New Zealand

7NIVEL, Ingternational and Migrant Health, PO Box 1568, Utrecht, Netherlands

8Oregon Health and Science University, Evidence-Based Family Medicine, OHSU School of Medicine, Family Medicine, Mail code FM, 3181 SW Sam Jackson Park Road, Portland, USA

9Executive Board of VU University Amsterdam, De Boelelaan 1105, Room 2d-18, Amsterdam, Netherlands

10EMGO Institute for Health and Care Research, Department of Epidemiology and Biostatistics, VU University Medical Center, van der Boechorstraat 7, Amsterdam, Netherlands

Contact: Daniëlle AWM van der Windt1 d.van.der.windt@cphc.keele.ac.ukd.van.der.windt@cphc.keele.ac.uk. Editorial group: Cochrane Back Group (HM-BACK)

Referencias

( * indica la publicación principal del estudio)

Referencias de los estudios incluidos en esta revisión

Albeck 1996 {published data only}

* Albeck MJ. A critical assessment of clinical diagnosis of disc herniation in patients with monoradicular sciatica. Acta Neurochir (Wien) 1996; 138: 40-4.

Charnley 1951 {published data only}

Charnley J. Orthopaedic signs in the diagnosis of disc protrusion. With special reference to the straight leg raising test. Lancet 1951; 260: 186-92.

Demircan 2002 {published data only}

Demircan MN, Colak A, Kutlay M, Kibici K, Topuz K. Cramp finding: can it be used as a new diagnostic and prognostic factor in lumbar disc surgery?. Eur Spine J 2002; 11: 47-51.

Gurdjian 1961 {published data only}

Gurdjian ES, Webster JE, Ostrowski AZ, Hardy WG, Lindner DW, Thomas LM. Herniated lumbar intervertebral discs: An analysis of 1176 operated cases. J Trauma 1961; 1: 158-76.

Hakelius 1972 {published data only}

Hakelius A, Hindmarsh J. The significance of neurological signs and myelographic findings in the diagnosis of lumbar root compression. Acta Orthop Scand 1972; 43: 239-46.

Haldeman 1988 {published data only}

Haldeman S, Shouka M, Robboy S. Computed tomography, electrodiagnostic and clinical findings in chronic workers' compensation patients with back and leg pain. Spine 1988; 13: 345-50.

Hudgins 1979 {published data only}

Hudgins WR. The crossed straight leg raising test: a diagnostic sign of herniated disc. J Occup Med 1972; 21: 407-8.

Kerr 1988 {published data only}

Kerr RS, Cadoux-Hudson TA, Adams CB. The value of accurate clinical assessment in the surgical management of the lumbar disc protrusion. J Neurol Neurosurg Psychiatry 1988; 51: 169-73.

Knutsson 1961 {published data only}

Knutsson B. Comparative value of electromyographic, myelographic and clinical neurological examinations in diagnosis of lumbar root compression syndrome. Acta Orthop Scand Suppl 1961; 49: 1-134.

Kosteljanetz 1984 {published data only}

Kosteljanetz M, Espersen JO, Halaburt H, Miletic T. Predictive value of clinical and surgical findings in patients with lumbago-sciatica. A prospective study (Part I). Acta Neurochir (Wien) 1984; 73: 67-76.

Kosteljanetz 1988 {published data only}

Kosteljanetz M, Bang F, Schmidt-Olsen S. The clinical significance of straight-leg raising (Lasègue's sign) in the diagnosis of prolapsed lumbar disc. Interobserver variation and correlation with surgical finding. Spine 1988; 13: 393-5.

Majlesi 2008 {published data only}

Majlesi J, Togay H, Unalan H, Toprak S. The sensitivity and specificity of the Slump and the Straight Leg Raising tests in patients with lumbar disc herniation. J Clin Rheumatol 2008; 14: 87-91.

Meylemans 1988 {published data only}

Meylemans L, Vancraeynest T, Bruyninckx F, Rosselle N. A comparative study of EMG and CAT scan in the lumbo-ischial syndrome. Acta Belg Med Phys 1988; 11: 35-42.

Poiraudeau 2001 {published data only}

Poiraudeau S, Foltz V, Drape JL, Fermanian J, Lefevre-Colau MM, Mayoux-Benhamou MA, et al. Value of the bell test and the hyperextension test for diagnosis in sciatica associated with disc herniation: comparison with Lasègue's sign and the crossed Lasègue's sign. Rheumatology (Oxford) 2001; 40: 460-6.

Spangfort 1972 {published data only}

Spangfort EV. The lumbar disc herniation. A computer-aided analysis of 2,504 operations. Acta Orthop Scand Suppl 1972; 142: 1-95.

Stankovic 1999 {published data only}

Stankovic R, Johnell O, Maly P, Willner S. Use of lumbar extension, slump test, physical and neurological examination in the evaluation of patients with suspected herniated nucleus pulposus. A prospective clinical study. Man Ther 1999; 4: 25-32.

Vroomen 1998 {published data only}

Vroomen PC, Van Hapert SJ, van Acker RE, Beuls EA, Kessels AG, Wilmink JT. The clinical significance of gadolinium enhancement of lumbar disc herniations and nerve roots on preoperative MRI. Neuroradiology 1998; 40: 800-6.

Vroomen 2002 (prim care) {published data only}

Vroomen PC, de Krom MC, Wilmink JT, Kester AD, Knottnerus JA. Diagnostic value of history and physical examination in patients suspected of lumbosacral nerve root compression. J Neurol Neurosurg Psychiatry 2002; 72: 630-4.

Vucetic 1996 {published data only}

Vucetic N, Svensson O. Physical signs in lumbar disc hernia. Clin Orthop Relat Res 1996; 333: 192-201.

Vucetic 1999 {published data only}

Vucetic N, Astrand P, Guntner P, Svensson O. Diagnosis and prognosis in lumbar disc herniation. Clin Orthop Relat Res 1999; 361: 116-22.

Referencias de los estudios excluidos de esta revisión

Albert 1993 {published data only}

Albert TJ, Balderston RA, Heller JG, Herkowitz HN, Garfin SR, Tomany K, et al. Upper lumbar disc herniations. Journal of Spinal Disorders 1993; 6(4): 351-9.

Brugnoni 1998 {published data only}

Brugnoni G. Semeiotics of manual medicine in lumbar discal herniation. Riabilitazione 1998; 31(4): 163-72.

Edgar 1974 {published data only}

Edgar MA, Park WM. Induced pain patterns on passive straight-leg raising in lower lumbar disc protrusion. A prospective clinical, myelographic and operative study in fifty patients. J Bone Joint Surg Br 1974; 56-B(4): 658-67.

Jensen 1987 {published data only}

Jensen OH. The level-diagnosis of a lower lumbar disc herniation: the value of sensibility and motor testing. Clin Rheumatol 1987; 6(4): 564-9.

Kortelainen 1985 {published data only}

Kortelainen P, Puranen J, Koivisto E, Lahde S. Symptoms and signs of sciatica and their relation to the localization of the lumbar disc herniation. Spine 1985; 10(1): 88-92.

Lansche 1960 {published data only}

Lansche WE. Ford LT [Correlation of the myelogram with clinical and operative findings in lumbar disc lesions]. J Bone Jopint Surg [Am] 1960; 42: 193-206.

Portnoy 1972 {published data only}

Portnoy HD, Ahmad M. Value of the neurological examination, electromyography and myelography in herniated lumbar disc. Mich.Med 1972; 71(14): 429-34.

Rainville 2003 {published data only}

Rainville J, Jouve C, Finno M, Limke J. Comparison of four tests of quadriceps strength in L3 or L4 radiculopathies. Spine 2003; 28(21): 2466-71.

Reihani-Kermani 2003 {published data only}

Reihani-Kermani H. Level-diagnosis of lumbar disc herniation. Iranian Journal of Medical Sciences 2003; 28(3): 135-8.

Reihani-Kermani 2004 {published data only}

Reihani-Kermani H. Correlation of clinical presentation with intraoperative level diagnosis in lower lumbar disc herniation. Ann Saudi Med 2004; 24(0256-4947, 4): 273-5.

Supik 1994 {published data only}

Supik LF, Broom MJ. Sciatic tension signs and lumbar disc herniation. Spine 1994; 19(9): 1066-9.

Thelander 1992 {published data only}

Thelander U, Fagerlund M, Friberg S, Larsson S. Straight leg raising test versus radiologic size, shape, and position of lumbar disc hernias. Spine 1992; 17(4): 395-9.

Xin 1987 {published data only}

Xin SQ, Zhang QZ, Fan DH. Significance of the straight-leg-raising test in the diagnosis and clinical evaluation of lower lumbar intervertebral-disc protrusion. J Bone Joint Surg Am 1987; 69(4): 517-22.

Referencias adicionales

Bachmann 2002

Bachmann LM, Coray R, Estermann P, Ter Riet G. Identifying diagnostic studies in MEDLINE: reducing the number needed to read. Journal of the American Medical Informatics Association 2002; 9(6): 653-8.

Bachmann 2003

Bachmann LM, Estermann P, Kronenberg C, ter Riet G. Identifying diagnostic accuracy studies in EMBASE. Journal of the Medical Library Association 2003; 91(3): 341-6.

Boden 1990

Boden SD, Davis DO, Dina TS, Patronas NJ, Wiesel SW. Abnormal magnetic-resonance scans of the lumbar spine in asymptomatic subjects. A prospective investigation. Journal of Bone and Joint Surgery 1990; 72(3): 403-8.

Boden 1996

Boden SD, Wiesel SW. Lumbar spine imaging: role in clinical decision making. J AM Acad Orthop Surg 1996; 4: 238-48.

Borenstein 2001

Borenstein DG, OMara JW, Bodwen SD, Lauerman WC, Jacobson A, Platenberg C, et al. The value of magnetic resonance imaging of the lumbar spine to predict low-back pain in asymptomatic subjects : a seven year follow-up study. J Bone Joint Surg 2001; 83-A: 1306-11.

Bossuyt 2003

Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Ann Intern Med 2003; 138: 40-4.

Bossuyt 2003a

Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, Moher D, Rennie D, de Vet HC, Lijmer JG, Standards for Reporting of Diagnostic Accuracy. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration. Ann Intern Med 2003; 138: W1-12.

Bowditch 1996

Bowditch MG, Sanderson P, Livesey JP. The significance of an absent ankle reflex. J Bone Joint Surg 1996; 78-Br: 276-9.

Clare 2005

Clare HA, Adams R, Maher CG. Reliability of detection of lumbar lateral shift. J Manipulative Physiol Ther 2005; 26: 476-80.

Devillé 2000

Devillé WL, van der Windt DA, Dzaferagic A, Bezemer PD, Bouter LM. The test of Lasègue: systematic review of the accuracy in diagnosing herniated discs. Spine 2000; 25(9): 1140-7.

Devillé 2000a

Devillé WL, Bezemer PD, Bouter LM. Publications on diagnostic test evaluation in family medicine journals: an optimal search strategy. Journal of Clinical Epidemiology 2000; 53(1): 65-9.

Deyo 1990

Deyo RA, Loeser JD, Bigos SJ. Herniated lumbar intervertebral disk. Annals of Internal Medicine 1990; 112(8): 598-603.

Deyo 1992

Deyo RA, Rainville J, Kent DL. What can the history and physical examination tell us about low back pain?. JAMA 1992; 268(6): 760-5.

Donahue 1996

Donahue MS, Riddle D, Sullivan MS. Intertester reliability of a modified version of McKenzie's lateral shift assessments obtained on patients with low back pain. Phys Ther 1996; 76: 706-26.

Doust 2005

Doust JA, Pietrzak E, Sanders S, Glasziou PP. Identifying studies for systematic reviews of diagnostic tests was difficult due to the poor sensitivity and precision of methodologic filters and the lack of information in the abstract. J Clin Epidemiol 2005; 58: 444-9.

Gibson 2007

Gibson JNA, Waddell G. Surgical interventions for lumbar disc prolapse. Cochrane Database of Systematic Reviews 2007, Issue 2. [DOI: 10.1002/14651858.CD001350.pub4]

Handbook 2005

Smidt N, Deeks J, Moore T (Eds). Cochrane Handbook for Cochrane Reviews of Diagnostic Test Accuracy. The Cochrane Collaboration July 2005, issue version 0.3.

Jarvik 2005

Jarvik JG, Hollingworth W, Heagerty PJ, Boyko EJ, Deyo RA. Three-year incidence of low back pain in an initially asymptomatic cohort: clinical and imaging risk factors. Spine 2005; 30: 1541-8.

Kim 2002

Kim YS, Chin DK, Yoon DH, Jin BH, Cho YE. Predictors of successful outcome for lumbar chemonucleolysis: analysis of 3000 cases during the past 14 years. Neurosurgery 2002; 51(5 Suppl): S123-8.

Kohlboeck 2004

Kohlboeck G, Greimel KV, Piotrowski WP, Leibetseder M, Krombholz-Reindl M, Neuhofer R, et al. Prognosis of multifactorial outcome in lumbar discectomy: a prospective longitudinal study investigating patients with disc prolapse. Clinical Journal of Pain 2004; 20(6): 455-61.

Leeflang 2006

Leeflang MM, Scholten RJ, Rutjes AW, Reitsma JB, Bossuyt PM. Use of methodological search filters to identify diagnostic accuracy studies can lead to the omission of relevant studies. J Clin Epidemiol 2006; 59: 234-40.

Lijmer 1999

Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JH, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999; 282(11): 1061-6.

Lurie 2008

Lurie JD, Tosteson AN, Tosteson TD, Carragee E, Carrino JA, Kaiser J, et al. Reliability of magnetic resonance imaging readings for lumbar disc herniation in the Spine Patient Outcomes Research Trial (SPORT). Spine 2008; 33: 991-8.

Maitland 1985

Maitland GD. The slump test: examination and treatment. Austr J Physiother 1985; 31: 215.

Peul 2007

Peul WC, van Houwelingen HC, van den Hout WB, Brand R, Eekhof JA, Tans JT, et al: The Hague Spine Intervention Prognostic Study Group. Surgery versus prolonged conservative treatment for sciatica. N Engl J Med 2007; 356: 2245-56.

Rebain 2002

Rebain R, Baxter GD, McDonough S. A systematic review of the passive straight leg raising test as a diagnostic aid for low back pain (1989 to 2000). Spine 2002; 27(17): E388-95.

Rebain 2003

Rebain R, Baxter GD, McDonough S. The passive straight leg raising test in the diagnosis and treatment of lumbar disc herniation: a survey of United kingdom osteopathic opinion and clinical practice. Spine 2003; 28(15): 1717-24.

Reitsma 2005

Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH. Bivariate analysis of sensitivity and specificity produces informative summary measures in diagnostic reviews. Journal of Clinical Epidemiology 2005; 58(10): 982-90.

Rutjes 2006

Rutjes AW, Reitsma JB, Di Nisio M, Smidt N, van Rijn JC, Bossuyt PM. Evidence of bias and variation in diagnostic accuracy studies. CMAJ 2006; 174(4): 469-76.

Smidt 2006

Smidt N, Rutjes AW, van der Windt DA, Ostelo RW, Bossuyt PM, Reitsma JB, et al. The quality of diagnostic accuracy studies since the STARD statement: has it improved?. Neurology 2006; 67: 792-7.

van den Hoogen 1995

van den Hoogen HM, Koes BW, van Eijk JT, Bouter LM. On the accuracy of history, physical examination, and erythrocyte sedimentation rate in diagnosing low back pain in general practice. A criteria-based review of the literature. Spine 1995; 20(3): 318-27.

Vroomen 1999

Vroomen PC, de Krom MC, Knottnerus JA. Diagnostic value of history and physical examination in patients suspected of sciatica due to disc herniation: a systematic review. Journal of Neurology 1999; 246(10): 899-906.

Vroomen 2000

Vroomen PC, De Krom MC, Knottnerus AJ. Consistency of history taking and physical examination in patients with suspected lumbar nerve root involvement. Spine 2000; 25: 91-7.

Weinstein 2006

Weinstein JN, Tosteson TD, Lurie JD, Tosteson AN, Hanscom B, Skinner JS, et al. Surgical vs nonoperative treatment for lumbar disk herniation: the Spine Patient Outcomes Research Trial (SPORT): a randomized trial. JAMA 2006; 296(20): 2441-50.

Whiting 2004

Whiting P, Rutjes AW, Dinnes J, Reitsma J, Bossuyt PM, Kleijnen J. Development and validation of methods for assessing the quality of diagnostic accuracy studies. Health Technology Assessment 2004; 8(25): iii, 1-234.

Yagci 2009

Yagci I, Gunduz OH, Ekinci G, Diracoglu D, Us O, Akyuz G. The Utility of Lumbar Paraspinal Mapping in the Diagnosis of Lumbar Spinal Stenosis. Am J Phys Med Rehabil 2009; Aug 15: E-pub ahead of print.

Tablas

Características de los estudios

Características de los estudios incluidos [ordenados por ID del estudio]

Albeck 1996

Clinical features and settings

Secondary care, Denmark

- sampling unclear

- first surgery

- diagnostic imaging before surgery, results not reported

Participants

80 patients with monoradicular pain, who failed conservative treatment: 60% male, median age 40 (21 to 59) years

Study design

Prospective cohort

Target condition and reference standard(s)

Surgical findings: Extruded nucleus pulposus tissue

Index and comparator tests

Segmental spasm, trunk list, mobility (finger to floor), SLR, sensory deficits, impaired reflexes

Follow-up

Notes

prevalence disc herniation: 76%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Unclear

unclear from text: consecutive series?

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

diagnosis based on surgical findings only

Reference standard results blinded?
All tests

No

surgeon not blind to results of phys ex

Index test results blinded?
All tests

Yes

phys ex before surgery

Relevant clinical information?
All tests

Unclear

unclear from text: unclear who performed phys ex, and if this person was aware of other info

Uninterpretable results reported?
All tests

Unclear

unclear from text

Withdrawals explained?
All tests

Unclear

unclear from text

Clear definition of positive result?
All tests

Unclear

unclear from text: execution of test unclear

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

no information

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Charnley 1951

Clinical features and settings

Secondary care, USA, 1946-56

- sampling method unclear

- no information on previous surgery

- no information on pre-surgery tests

Participants

88 patients with sciatica: selection criteria, age and sex not reported.

Study design

Historical cohort

Target condition and reference standard(s)

Surgical findings:

lumbar disc protrusion 

Index and comparator tests

SLR, SLR in combination with forward flexion

Follow-up

Notes

Prevalence disc herniation: 84%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Unclear

No information on selection

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear if surgeon performed tests

Reference standard results blinded?
All tests

Unclear

unclear if surgeon was blind

Index test results blinded?
All tests

Unclear

unclear from text

Relevant clinical information?
All tests

Unclear

unclear from text

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals

Clear definition of positive result?
All tests

Unclear

no information on execution of tests

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Demircan 2002

Clinical features and settings

Secondary care, Turkey, 1997-90

- sampling method unclear

- no information on previous surgery

- no information on pre-surgery tests

Participants

100 surgical patients (A)

100 patients with LBP and sciatica, no need for surgery (B)

100 healthy controls (C)

Male: A 76%, B 64%, C 66% Mean age: A 33 (20-42), B 36 (20-45), C 36 (20-45) years.

Study design

Case control

Target condition and reference standard(s)

Surgical findings (A)

MRI (A, B, C):

Lumbar disc protrusion or sequestration.

Index and comparator tests

SLR

Follow-up

Notes

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Unclear

patient sampling procedures unclear

Acceptable reference standard?
All tests

Yes

MRI or surgical findings

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

No

only test positives received surgery

Differential verification avoided?
All tests

No

patients received either MRI or surgery as reference standard

Incorporation avoided?
All tests

Unclear

unclear if PE was performed independent from reference test

Reference standard results blinded?
All tests

Yes

surgeon / radiologist not informed of results of cramp test

Index test results blinded?
All tests

Unclear

case control study, unclear if index test was carried out before or after surgery

Relevant clinical information?
All tests

Yes

similar as in usual care

Uninterpretable results reported?
All tests

Unclear

unclear from text

Withdrawals explained?
All tests

Yes

no withdrawals

Clear definition of positive result?
All tests

Yes

clear definition of cramp test given

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Gurdjian 1961

Clinical features and settings

Secondary care, United Kingdom

- sampling method unclear

- no information on previous surgery

- myelography in all before surgery, positive in > 80%

Participants

1176 surgical patients with sciatica: 65% men, 52% older than 40 years.

Study design

Historical cohort

Target condition and reference standard(s)

Surgical findings:

lumbar disc protrusion or rupture

Index and comparator tests

SLR, loss of Achilles and patellar tendon reflex

Follow-up

Notes

Prevalence disc herniation: 98%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Unclear

methods for patient sampling unclear

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear who performed phys ex

Reference standard results blinded?
All tests

Unclear

unclear from text

Index test results blinded?
All tests

Unclear

unclear who performed tests

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals

Clear definition of positive result?
All tests

No

no information on criteria or on execution of test

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data



Hakelius 1972

Clinical features and settings

Secondary care, Sweden, 1939-64

- sampling: all surgical patients

- first surgery

- myelography in all patients before surgery, results unclear

Participants

1986 surgical patients with neurological signs of DH: age and sex not reported.

Study design

Historical cohort

Target condition and reference standard(s)

Surgical findings:

Lumbar disc protrusion or sequestration exerting pressure on the nerve root

Index and comparator tests

Lasègue’s sign = SLR

Follow-up

Notes

Prevalence disc herniation: 75% (based on 1959 patients)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear who carried out index tests or reference test

Reference standard results blinded?
All tests

Unclear

unclear who carried out test

Index test results blinded?
All tests

Yes

phys ex carried out before surgery

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Unclear

unexplained number did not receive reference test

Clear definition of positive result?
All tests

Unclear

unclear from text

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Haldeman 1988

Clinical features and settings

Secondary care, USA

- sampling method unclear

- 84% first spinal surgery

Participants

100 workers > 6 months LBP;  leg pain; received conservative treatment but unlikely to undergo surgery: 48% older than 40 years

Study design

Cohort: prospective?

Target condition and reference standard(s)

CT: spinal stenosis (> 50% occlusion); or large disc bulges (> 5 mm); or herniation with/without sequestration

Index and comparator tests

SLR / Lasègue’s test, neural examination (radiculopathy)

Follow-up

Notes

Prevalence disc herniation: 26%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Unclear

sampling procedures unclear

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear if diagnosis was based on CT only or also phys ex

Reference standard results blinded?
All tests

Unclear

unclear if radiology reports were assessed by the same person as phys ex

Index test results blinded?
All tests

Unclear

unclear from text

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Unclear

unclear from text

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Yes

criteria for positive test results described and execution described

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no information



Hudgins 1979

Clinical features and settings

Secondary care, USA

- consecutive sampling

- first surgery

- no information on pre-surgery tests

Participants

351 patients with LBP and/or leg pain referred to neurosurgical service, positive SLR (work-up bias): age and sex unclear.

Study design

Cohort: historical or prospective?

Target condition and reference standard(s)

Surgical findings: lumbar disc protrusion

Clinical follow-up: patients not responding to conservative Rx, pain after 6 months, or surgery elsewhere.

Index and comparator tests

XSLR in combination with positive SLR

Follow-up

Notes

Prevalence disc herniation: 70%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

No

Only patients with a positive straight leg raising test included

Acceptable reference standard?
All tests

Yes

scored positively for 274 surgical patients, but unclear for all 351 herniated disc suspects (which included 77 patients for whom the reference standard consisted of clinical follow-up).

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

No

only those with positive test results receive surgery

Differential verification avoided?
All tests

Yes

scored positively for 274 surgical patients, but unclear for all 351 herniated disc suspects (which included 77 patients for whom the reference standard consisted of clinical follow-up).

Incorporation avoided?
All tests

Unclear

unclear from text: surgeon interpreted findings, but did he/she use results of phys ex?

Reference standard results blinded?
All tests

No

Index and reference test by surgeon

Index test results blinded?
All tests

Yes

physical examination before surgery

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Unclear

About 20% withdrawals, impact on performance unclear

Clear definition of positive result?
All tests

Unclear

unclear from text

Treatment withheld until both index test and reference standard were performed?
All tests

No

patients received non-operative management

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data



Kerr 1988

Clinical features and settings

Secondary care, UK

- consecutive sampling for cases

- sampling unclear for controls

- no information on previous surgery

- myelography in all before surgery: positive

Participants

100 patients with protruded lumbar disc, back pain & sciatica: 55% male, mean age 40 years

36 controls with back pain and sciatica but normal myelogram (work-up bias): mean age 41 years.

Study design

Case control

Target condition and reference standard(s)

Cases: myelography & surgical findings: lumbar disc protrusion or sequestration with distortion of nerve root

Controls: normal myelogram

Index and comparator tests

SLR, XSLR, scoliosis, calf muscle wasting, motor weakness, Achilles tendon reflex abnormality, sensory deficits

Follow-up

Notes

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

No

only patients with positive myelograms receive surgery and are selected

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

No

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not specifically included in diagnosis of HD

Reference standard results blinded?
All tests

Unclear

Data collected from medical records, and unclear if surgeon was blinded during original data collection

Index test results blinded?
All tests

Yes

phys ex before surgery

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Unclear

unclear from text

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Unclear

Some definitions given, but little information on execution of tests

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

No data presented



Knutsson 1961

Clinical features and settings

Secondary care, Sweden, 1958-59

- sampling method unclear

- 89% first spinal surgery

- myelography in 205 patients, positive in approximately 80%

Participants

205 patients operated upon for DH: 61% male, 58% 40 years or older.

Study design

Historical cohort

Target condition and reference standard(s)

Surgical findings: lumbar disc herniation or protrusion

Index and comparator tests

SLR / Lasègue’s test?, Achilles or patellar tendon reflex abnormality, motor weakness, impaired sensibility, muscular atrophy

Follow-up

Notes

Prevalence disc herniation:

89% (first time surgery)

67% (previous surgery)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear who performed index tests

Reference standard results blinded?
All tests

Unclear

unclear who performed index tests

Index test results blinded?
All tests

Unclear

unclear who performed index tests

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

No

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

No

No information on either cut points or ways tests were performed

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data



Kosteljanetz 1984

Clinical features and settings

Secondary care, Denmark, 1978-80

- consecutive sampling

- first surgery

- X-ray in all before surgery to exclude malignancy

Participants

107 patients with LBP and symptoms & signs suggesting root compression, >3 weeks unsuccessful conservative treatment: 51% male.

Study design

Prospective cohort

Target condition and reference standard(s)

Surgical findings:

complete or incomplete lumbar disc herniation and evidence of nerve root compression

Index and comparator tests

Lasègue’s sign = SLR, paraesthesia, scoliosis, sensory loss, paresis

Follow-up

Notes

Prevalence disc herniation: 58% (based on 100 patients)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not clearly included in diagnosis

Reference standard results blinded?
All tests

Unclear

surgeon also interpreted results of phys ex?

Index test results blinded?
All tests

Yes

phys ex before surgery

Relevant clinical information?
All tests

Unclear

unclear from text

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Unclear

Cut points described but no information on execution

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Kosteljanetz 1988

Clinical features and settings

Secondary care, Denmark, 1986-87

- Sampling based on positive myelography

- first surgery

Participants

55 patients with suspected DH, unilateral sciatica, positive myelogram: 60% male, median age 45 (18-73) years.

Study design

Prospective cohort

Target condition and reference standard(s)

Surgical findings: prolapsed lumbar disc

Index and comparator tests

Lasègue’s sign = SLR, crossed

Lasègue’s sign = XSLR

Follow-up

Notes

Prevalence disc herniation: 87% (based on 52 patients)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

No

selection for surgery and inclusion in study based on positive myelography

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

No

only those with positive myelography received surgery

Differential verification avoided?
All tests

No

only those with positive myelography received surgery

Incorporation avoided?
All tests

Yes

phys ex not clearly included in diagnosis

Reference standard results blinded?
All tests

Unclear

Surgeon aware of results of phys ex?

Index test results blinded?
All tests

Yes

phys ex before surgery

Relevant clinical information?
All tests

No

surgeon specifically blinded to phys ex => not as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Yes

clear description of definition and execution

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Yes

reliability investigated and acceptable



Majlesi 2008

Clinical features and settings

Secondary care, Turkey, 2005

- sampling method unclear

- no information on previous surgery

Participants

38 patients with bulging, protruded, or extruded disc, back and/or leg pain: 79% male, mean age 38 years.

37 patients, no abnormalities on MRI, back and/or leg pain: 68% male, 40 years.  

Study design

Case control (nested cohort design?)

Target condition and reference standard(s)

MRI:

with bulging, protruded, or extruded disc

Index and comparator tests

SLR, slump test

Follow-up

Notes

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

No

case control, sampling unclear, different exclusion criteria cases / controls (e.g. comorbidity)

Acceptable reference standard?
All tests

Yes

MRI

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear if diagnosis was only based on imaging or also on phys ex

Reference standard results blinded?
All tests

Yes

radiologist blinded to results phys ex

Index test results blinded?
All tests

Yes

phys ex before surgery

Relevant clinical information?
All tests

Unclear

unclear from text

Uninterpretable results reported?
All tests

Unclear

unclear from text

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Unclear

No information on both execution and cut-offs

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Meylemans 1988

Clinical features and settings

Setting unclear, Belgium, 1985-86

- consecutive sampling

- no information on previous surgery

Participants

146 patients with LBP and leg pain, duration < two months, no previous radicular symptoms: 58% men, majority 30-50 years.

Study design

Prospective (?) cohort

Target condition and reference standard(s)

CT: “radiculopathy”, unclear if disc protrusion was found in all cases

Index and comparator tests

SLR, neurological examination, combination of both

Follow-up

Notes

Prevalence disc herniation: 40%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

CT

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not explicitly part of diagnosis

Reference standard results blinded?
All tests

Unclear

unclear from text

Index test results blinded?
All tests

Unclear

unclear who carried out index tests

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Unclear

information on cut-off, not on execution

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Poiraudeau 2001

Clinical features and settings

Secondary care, France

- consecutive sampling

- first surgery

Participants

78 patients with lumbosacral pain + pain below the knee (L5/S1) or neurological impairment: 42% male, mean age 50 (SD 16) years.

Study design

Prospective cohort

Target condition and reference standard(s)

MRI, CT or myelography: compression of lumbar nerve root by disc herniation

Index and comparator tests

Bell test, hyper extension test, Lasègue’s sign = SLR crossed Lasègue’s sign = XSLR,

Combinations of tests

Follow-up

Notes

Prevalence disc herniation: 55%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

diagnostic imaging

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received one of the reference standards

Differential verification avoided?
All tests

No

patients received different types of imaging as reference standard

Incorporation avoided?
All tests

Yes

phys ex not clearly included in diagnosis

Reference standard results blinded?
All tests

Yes

radiologists blinded

Index test results blinded?
All tests

Yes

phys ex before reference standard

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals

Clear definition of positive result?
All tests

Yes

criteria and execution described

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

No

Data reported, but observer variation is quite high



Spangfort 1972

Clinical features and settings

Secondary care, Sweden, 1951-66

- all surgical cases

- no information on previous surgery

- myelography in 80%, positive in approximately 80%

Participants

2504 Patients with suspected lumbar disc herniation: 70% male, 40.8 (15-74) years.

Study design

Historical cohort

Target condition and reference standard(s)

Surgical findings: complete or incomplete disc herniation or bulging disc, assumed to cause pressure on nerve root

Index and comparator tests

Lasègue’s sign = SLR, crossed

Lasègue’s sign = XSLR, impaired ankle reflex, paresis

Follow-up

Notes

Prevalence disc herniation: 86% (78% when excluding bulging disc)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Unclear

unclear from text

Reference standard results blinded?
All tests

Unclear

author performed record review, but also interpreted surgical findings?

Index test results blinded?
All tests

Unclear

author performed record review, although index test was carried out before reference test

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals

Clear definition of positive result?
All tests

No

no description of positivity criteria or of execution of test

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Stankovic 1999

Clinical features and settings

Secondary care, Sweden

- consecutive sampling

- first surgery

Participants

105 patients with LBP and/or radiating pain in the leg, eligible for surgery: 66% male, 42.7 (SD 9.8) years.

Study design

Prospective cohort

Target condition and reference standard(s)

CT and/or MRI: bulging disc, or herniated disc assumed to compromise nerve root

Index and comparator tests

Slump test, lumbar extension test

Follow-up

Notes

Prevalence disc herniation: 88% (50% when excluding bulging disc)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

diagnostic imaging

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received reference standard

Differential verification avoided?
All tests

No

patients received CT and/or MRI

Incorporation avoided?
All tests

Yes

phys ex not explicitly included in diagnosis

Reference standard results blinded?
All tests

Yes

radiologist blinded

Index test results blinded?
All tests

Yes

phys ex before imaging

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Yes

description given of execution of tests and of positivity criteria

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Vroomen 1998

Clinical features and settings

Setting unclear, Netherlands

- consecutive sampling

- first surgery

Participants

71 patients (18-60 years), symptoms & signs & radiological findings consistent with single-level unilateral DH, indication surgery: 65% male, age 39 (SD 9.1) years.

Study design

Prospective cohort

Target condition and reference standard(s)

MRI: annular rupture, migration, nerve root compression by disc material

Index and comparator tests

Paresis, finger-floor distance, ankle/knee tendon reflex, SLR, sensory loss (ORs, insufficient data for 2x2 table)

Follow-up

Notes

Prevalence disc herniation: 83% (annular rupture)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

diagnostic imaging

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not included in diagnosis

Reference standard results blinded?
All tests

Yes

radiologist blinded

Index test results blinded?
All tests

Yes

phys ex before imaging

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Unclear

Not entirely clear if all 71 participants received both index and reference tests

Clear definition of positive result?
All tests

No

no description of execution of test or positivity criteria

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Unclear

no data presented



Vroomen 2002 (prim care)

Clinical features and settings

Primary care, Netherlands

- referred by GPs, sampling unclear

- first surgery

Participants

338 patients with a new episode of LBP and leg pain sufficiently severe to warrant action: 51% male, age 46 (SD 12) years.

Study design

Prospective cohort

Target condition and reference standard(s)

MRI: lumbosacral nerve root  compression

Index and comparator tests

SLR, paresis, finger-floor distance, loss of ankle/knee tendon reflex, sensory loss. Combinations of tests

Follow-up

Notes

Prevalence disc herniation: 55%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

seems to be a consecutive series of patients, clear criteria

Acceptable reference standard?
All tests

Yes

diagnostic imaging

Acceptable delay between tests?
All tests

Yes

less than 24 hours

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not included in diagnosis

Reference standard results blinded?
All tests

Yes

radiologist blinded

Index test results blinded?
All tests

Yes

phys ex before MRI

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals

Clear definition of positive result?
All tests

Yes

information on test execution and positivity criteria in separate paper

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Yes

inter-observer variation reported and acceptable



Vucetic 1996

Clinical features and settings

Secondary care, Sweden

- consecutive sampling

- no information on previous surgery

- myelography in all, results unclear

Participants

163 surgical patients with clinical and radiographic signs of single-level lumbar disc herniation: 53% male, age 43 (SD 10.2) years.

Study design

Prospective cohort

Target condition and reference standard(s)

Surgical findings: lumbar disc protrusion, extrusion, or sequestration

Index and comparator tests

Decreased sensibility, paresis, loss of reflexes, scoliosis.

Combinations of tests

Follow-up

Notes

Prevalence disc herniation: 92% (63% when excluding protruding disc)

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not explicitly included in diagnosis

Reference standard results blinded?
All tests

Unclear

unclear who carried out index and reference tests

Index test results blinded?
All tests

Yes

index test performed before reference test

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Yes

clear description of test execution and definition of positivity criteria

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Yes

inter-observer variation reported and acceptable



Vucetic 1999

Clinical features and settings

Secondary care, Sweden, 1981-84

- consecutive sampling

- first surgery

- myelography in all, results unclear (same cohort as Vucetic 1996)

Participants

160 patients with clinical and radiographic signs of lumbar disc herniation; 53% male, age 43 (SD 10).

Study design

Prospective (?) cohort

Target condition and reference standard(s)

Surgical findings: lumbar disc protrusion, ruptured annulus, or sequestration

Index and comparator tests

Crossed Lasègue’s sign = XSLR

Combinations of tests (ORs, insufficient data for 2x2 table).

Follow-up

Notes

Prevalence disc herniation: 61%

Table of Methodological Quality

Item

Authors' judgement

Description

Representative spectrum?
All tests

Yes

consecutive series of patients

Acceptable reference standard?
All tests

Yes

findings at surgery

Acceptable delay between tests?
All tests

Unclear

unclear from text

Partial verification avoided?
All tests

Yes

all patients received same reference standard

Differential verification avoided?
All tests

Yes

all patients received same reference standard

Incorporation avoided?
All tests

Yes

phys ex not explicitly included in diagnosis standard

Reference standard results blinded?
All tests

Unclear

unclear who performed tests

Index test results blinded?
All tests

Yes

index test carried out before reference test

Relevant clinical information?
All tests

Yes

as in usual care

Uninterpretable results reported?
All tests

Yes

all test results reported

Withdrawals explained?
All tests

Yes

no withdrawals reported

Clear definition of positive result?
All tests

Yes

clear description of test execution and of positivity criteria

Treatment withheld until both index test and reference standard were performed?
All tests

Unclear

unclear from text

Data on observer variation reported and within acceptable range?
All tests

Yes

inter-observer variation examined and acceptable

phys ex = physical examination; MRI = magnetic resonance imaging; CT = computed tomography; HD = herniated disc



Características de los estudios excluidos [ordenados por ID del estudio]

Study

Reason for exclusion

Albert 1993

Population: not low back pain

Brugnoni 1998

Index test: not physical examination

Edgar 1974

Target condition: level of disc herniation, no comparison with absence of DH

Jensen 1987

Target condition: level of disc herniation, no comparison with absence of DH

Kortelainen 1985

Target condition: level of disc herniation, no comparison with absence of DH

Lansche 1960

Target condition: level of disc herniation, no comparison with absence of DH

Portnoy 1972

Target condition: level of disc herniation, no comparison with absence of DH

Rainville 2003

Target condition: level of disc herniation, no comparison with absence of DH

Reihani-Kermani 2003

Target condition: level of disc herniation, no comparison with absence of DH

Reihani-Kermani 2004

Target condition: level of disc herniation, no comparison with absence of DH

Supik 1994

Target condition: level of disc herniation, no comparison with absence of DH

Thelander 1992

Target condition: level of disc herniation, no comparison with absence of DH

Xin 1987

Target condition: level of disc herniation, no comparison with absence of DH



Figuras

Figure 1

Results of the search for studies evaluating the diagnostic performance of physical examination in the diagnosis of lumbar disc herniation


Figure 1


Figure 2

Quality assessment summary: review authors' judgements about each risk of bias item for each included study.


Figure 2


Figure 3

Forest plot: SLR (leg pain at any angle) - reference test: imaging


Figure 3


Figure 4

Forest plot: SLR (leg pain at any angle) - reference test surgery


Figure 4


Figure 5

Summary ROC Plo: SLR (leg pain at any angle) - reference test surgery

Note: the case-control study by Demircan et al (2002 - upper left in ROC-space) showed clear review bias and was excluded from the pooled analysis.


Figure 5


Figure 6

Forest plot:XSLR (leg pain at any angle) - reference test surgery or imaging (study by Poiraudeau et al.)


Figure 6


Figure 7

Summary ROC Plot of X-SLR (leg pain at any angle) - reference test surgery or imaging.

Note: The study by Kerr et al. (1988 - highest sensitivity among the studies) was found to have a high risk of verification bias


Figure 7


Figure 8

Forest plot: Scoliosis (visual inspection) - reference test surgery


Figure 8


Figure 9

Forest plot: Paresis (dorsiflexion toe/ankle) - reference test surgical findings or imaging (study by Vroomen et al.)


Figure 9


Figure 10

Forest plot: Muscle wasting - reference test surgical findings


Figure 10


Figure 11

Forest plot: Impaired reflexes (Achilles tendon) - reference test: surgical findings or imaging (study by Vroomen et al).


Figure 11


Figure 12

Forest plot: Sensory deficits - reference test: surgical findings or imaging (study by Vroomen et al.)


Figure 12


Figure 13

Forest plot of Forward flexion - reference test surgery or imaging (study by Vroomen et al.)


Figure 13


Test 1

SLR (leg pain at any angle) - reference test: imaging.


Test 1


Test 2

SLR (leg pain at any angle) - reference test surgery.


Test 2


Test 3

X-SLR (leg pain at any angle) - reference test surgery or imaging.


Test 3


Test 4

Scoliosis (visual inspection) - reference test: surgical findings.


Test 4


Test 5

Paresis (dorsiflexion toe/ankle) - reference test:surgical findings or imaging.


Test 5


Test 6

Muscle wasting - reference test: surgical findings.


Test 6


Test 7

Impaired reflexes (Achilles tendon) - reference test: surgical findings or imaging.


Test 7


Test 8

Sensory deficits - reference test surgical findings or imaging.


Test 8


Test 9

Forward flexion - reference test surgery or imaging.


Test 9