CRYPTO MINING PRO
Manual de mantenimiento de la placa hash del modelo Innosilicon T2T (V1.3)
En el proceso de fabricación y uso del minero, si el usuario encuentra pérdida de cadena, baja tasa de hash, múltiples errores de hardware, etc., consulte este manual para realizar pruebas y mantenimiento.
Nota: Este manual no puede cubrir todos los posibles problemas anormales. Si encuentra un problema que no se puede resolver con este manual, consulte a nuestro personal correspondiente, y ellos actualizarán este manual cuando sea necesario.
Ⅰ. Descripción general
1. El diseño del circuito de la placa hash y la distribución de los puntos de prueba
Tomemos como ejemplo el modelo 3*31. Para otros modelos, consulte los documentos de diseño pertinentes.
(1) Los tres chips adyacentes en la figura son un dominio de voltaje [(1,2,3), (4,5,6)...(91,92,93)]. Hay un total de 31 dominios de voltaje en esta placa hash, y los voltajes de los tres chips en cada dominio de voltaje son los mismos, y el voltaje promedio de cada dominio de voltaje es de aproximadamente 0,45 V al inicio (serie T maquinas)
(2) La flecha roja en la figura muestra la dirección de transmisión de CLK y las señales de comunicación;
(3) Hay de 1 a 7 puntos de prueba entre cada dos chips (cada modelo es diferente, consulte el archivo de diseño para obtener más detalles); los puntos de prueba 1 a 7 son señales CLK, RST, EN, SCK, CS, DI y DO respectivamente. Específicamente como se muestra a continuación:
(4) Puntos de prueba y conexiones entre chips adyacentes:
2. Descripción del prueba software
Software | Ocasión de aplicación | Propósito |
Cadena de medición | Después de SMT, antes de pegar el disipador de calor | Se utiliza para comprobar rápidamente los problemas de soldadura. No realiza una prueba de función de larga duración, sino que solo prueba si la transmisión de todos los chips es normal. |
Antes de pegar | Después de pegar el disipador de calor en el lado que no es del chip | Se utiliza para comprobar varias fallas de la placa única en el estado de alta potencia lo antes posible. Debido a la falta de un disipador de calor, la frecuencia de funcionamiento del chip es inferior a la del uso normal. |
Binning después de pegar | Después de pegar todos los disipadores de calor | La prueba se lleva a cabo bajo 4 tipos de voltajes de trabajo, y las placas se grado de acuerdo con la tasa de hash medida. Se cargan tableros del mismo grado en la misma máquina. |
Mantenimiento | Problemas de localizando con un solo hash board | El programa enviará comandos de comunicación de forma indefinida para que el personal de mantenimiento utilice multímetros y osciloscopios para verificar los circuitos necesarios. |
Envejecimiento | La máquina se envejece antes de salir de fábrica | Utilice el firmware oficial de fábrica; si hay una excepción, se mostrará un código de error en la interfaz de gestión de producción en masa. |
3. Lista de códigos de error del software de prueba antes y después de pegar
Si no se detecta ningún problema, se imprimirá "√" al final del registro, de lo contrario, se imprimirá "×". Cuando se detecta un problema, el software informará el tipo de error con la mayor prioridad. El orden de prioridad de error es: E0>E9>E6>E4>E7>E5>
E3 > E1 > E2 > E8. El chip se puede reparar o reemplazar según el informe.
Código de error | Descripción | Notar |
E0 | No se puede encontrar el tipo de chip | Fallo de cadena |
E1 | La cantidad de núcleos buenos de un solo chip es menor al 30 % | Estadísticas bajo frecuencia de operación |
E2 | La cantidad de núcleos buenos de un solo chip es menor al 90 % | Estadísticas bajo frecuencia de operación |
E3 | La examen de trabajo de un solo chip es completamente errónea | |
E4 | El PLL con el chip no está bloqueado | |
E5 | La temperatura del chip es anormal | En el software se muestra 9999 o - 9999 |
E6 | El voltaje del chip es anormal | |
E7 | Hay un error en el proceso de retorno del comando o falla el aumento de frecuencia | “E7:0” indica que falló la configuración del PLL |
E8 | La tasa de error total de la prueba de trabajo de toda la placa es mayor al 10 % | |
E9 | La cantidad de chips leídos es incorrecta | |
E10 | (Reservar) | |
E11 | No se puede encontrar un grado adecuado después de pegar el disipador de calor | |
E12 | Error de CRC devuelto por el comando | |
E13 | Falla en despresurizar |
4. Lista de códigos de error del software envejecido
Número | Problema | Métodos de resolución | Observar |
1 | La E/S de la placa de control es anormal | Cambie la placa de control | Se deben restaurar los valores de fábrica después de la finalización |
2 | Fallo de red de la placa de control | ||
3 | Fallo de la placa hash | Cambie la tablero de hash | Después del reemplazo, asegúrese de restaurar los valores de fábrica o re-envejecimiento después de la finalización |
4 | Fallo del chip | ||
5 | La temperatura de los chips individuales es demasiado alta | ||
6 | Fallo de la fuente de alimentación | Cambie la fuente de alimentación | Se recomienda restaurar los valores de fábrica o re-envejecimiento después de la finalización |
7 | Interferencia de la línea SPI | Use un cable blindado | |
8 | El cable SPI no está enchufado correctamente | Verifique y vuelva a reenchufar el cable plano SPI | |
9 | El consumo de energía de toda la máquina es demasiado alto | Re-envejecimiento o reducción de frecuencia (modo de eficiencia) | |
10 | La temperatura ambiente es demasiado alta | Verifique y vuelva a reenchufar el cable plano SPI | Mejore el entorno operativo |
11 | Fallo del ventilador | Verifique la conexión del cable del ventilador / verifique si el modelo del ventilador coincide / verifique si la dirección de instalación del ventilador es correcta | Documento de referencia “Sumario de preguntas frecuentes sobre del junta de control” |
12 | Error de configuración del grupo de minería | Comprobar la configuración de la piscina o restaurar la configuración de fábrica | |
13 | El cable de red no está enchufado correctamente | Verifique el cable de red Conexión | |
14 | Fallo del entorno de red | Verifique las configuración DHCP y DNS del conmutador |
Código de error | Descripción | Mensaje de error | Análisis |
0 | Normal | Normal | |
21 | No se detectan una o más tableros de hash | El número de hash boards que se han detectado. Si hay más de una, sepárelas por espacios | Cable SPI no enchufado / Fallo de E/S de la placa de control / Fallo de placa hash |
22 | La comunicación I2C de la fuente de alimentación es anormal | Fallo de la fuente de alimentación / Fallo de E/S de la placa de control | |
23 | Fallo de bis de todas las tablero de hash | Fallo de E/S de la placa de control / Fallo de la fuente de alimentación / Fallo de placa hash | |
24 | Fallo de bis de algunas tablero de hash | El número del tablero de hash bis normal. Si hay más de una, sepárelas por espacios | Fallo de la placa hash / Fallo de E/S de la placa de control / Fallo de la fuente de alimentación |
25 | La mejora de escala falló | Número de tablero de hash: punto de frecuencia incorrecto | Interferencia de línea SPI / Fallo de placa hash |
26 | No se pudo establecer el voltaje | Número de tablero de hash: 1/2 | Interferencia de línea SPI/fallo de placa hash |
27 | No se pudo Bist | Número de tablero de hash: 1/2 | Interferencia de línea SPI/fallo de placa hash |
28 | El error SPI no se puede recuperar automáticamente en tiempo de ejecución | Número de tablero de hash | Interferencia de línea SPI/fallo de placa hash/fallo de E/S de la placa de control |
29 | La comunicación I2C falla durante la operación y no se puede recuperar automáticamente | - | Fallo de la fuente de alimentación/fallo de E/S de la placa de control |
30 | No se puede conectar al grupo de minería | - | Error de configuración de grupo de minería/cable de red no enchufado correctamente / falla de red de la placa de control / falla del entorno de red |
31 | Los chips individuales se dañan, lo que genera una tasa de hash falsamente alta | Número de chip dañado: número de tablero de hash. Si hay más de uno, separados por espacios | Falla del chip |
32 | Sobretemperatura | Número de tablero de hash | La temperatura ambiente es demasiado alta / falla del ventilador / la temperatura de los chips individuales es demasiado alta / el consumo de energía de toda la máquina es demasiado alto |
33 | No se pudo leer la temperatura | Número de tablero de hash | Falla de E/S de la placa de control / falla de la placa hash |
34 | La conexión del cable SPI es anormal | Número de tablero de hash | El puerto SPI de la placa de control está insertado incorrectamente / falla de E/S de la placa de control |
35 | Fuente de alimentación insuficiente | Falla de la fuente de alimentación | |
36 | La cantidad de núcleos buenos del chip es anormal | Número de tablero de hash: número de chip | Falla de la placa hash |
37 | Tipo VID incorrecto de tablero de control | vidtype, minertype, subtype, chipnum | Falla de la placa hash |
II. Preparación de la plataforma de mantenimiento
Herramientas: placa de puerto serie / cable de datos / tarjeta TF / tapa de puente / osciloscopio / multímetro
Software:
boot.bin
SecureCRT.exe
1. Instrucciones del software
(1) Instrucciones para el software de prueba *. bin
Cómo utilizar: Después de apagar el dispositivo, copie xxx.bin directamente en la tarjeta TF e inserte la tarjeta TF en la ranura de la placa del puerto serie. Luego conecte la placa del puerto serie a la placa de control y use una tapa de puente para conectarse a la interfaz J2. Por último, bota arriba.
(2) Instrucciones para la herramienta de puerto serie
Instale la herramienta de prueba de puerto serie (SecureCRT.exe) en la computadora y configure la velocidad en baudios: 115200, n, 8, 1.
El método de configuración es el siguiente:
Haga doble clic en el ícono del puerto serie para abrir la herramienta de puerto serie como se muestra en la figura a continuación, haga clic en "New Dialogue" en el cuadro rojo del cuadro de diálogo.
Selecciona el seriado en el asistente de nueva sesión.
Configure la velocidad en baudios: 115200 y otras opciones.
(3) Instrucciones del software
① Software antes y después de pegar
El proceso de uso es el siguiente:
1) Después de insertar la tarjeta SD en la ranura, verifique que el dispositivo esté correcto y enciéndalo.
2) Abra el software del puerto serie para verificar si la información de la versión del software es correcta después del encendido.
3) Durante la prueba, se mostrará la información de prueba de cada etapa y otros caracteres de aviso para facilitar la prueba del hardware y el monitoreo del estado.
4) Una vez finalizada la prueba, imprima el resultado de la misma. Si es una prueba de múltiples cadenas, los resultados de la prueba se imprimirán juntos una vez finalizada la prueba.
5) Para volver a realizar la prueba, presione directamente la tecla de reinicio en la placa de control o presione la tecla Enter según los caracteres que indique el software.
② Software de mantenimiento
1) Después de insertar la tarjeta SD en la ranura, verifique que el dispositivo esté correcto y enciéndalo.
2) Abra el software del puerto serial para verificar si la información de la versión del software es correcta después de encenderlo.
3) Durante la prueba, se mostrará la información de la prueba y las luces LED de cada etapa para facilitar la prueba del hardware y el monitoreo del estado.
4) El software enviará continuamente un comando fijo durante la operación, que se puede usar para medir el voltaje y la señal.
5) Una vez completada la medición, presione la tecla de función para continuar con la ejecución y, finalmente, imprima los resultados de la prueba.
6) Para volver a realizar la prueba, presione directamente el botón de reinicio en la placa de control o presione el botón Enter según los caracteres que indique el software.
Cabe señalar que el software de mantenimiento solo puede probar una placa de circuito a la vez. Cuando se presiona la tecla de función, solo cuando se apaga la luz indicadora correspondiente se puede garantizar que la tecla se capturó correctamente.
2. Establezca un entorno de prueba
Saque la placa de control del minero que se va a probar, coloque la placa de control y la placa del puerto serie como se muestra en la figura, inserte la tarjeta TF e inserte la tapa del puente en la interfaz J2. Conecte la placa del puerto serie y la computadora con un cable de datos.
III. Proceso de mantenimiento
1. El proceso básico de reparar el envejecimiento de todo el minero
(1) Reproduzca el problema de envejecimiento incorrecto y registre el código de error. Si necesita el análisis de investigación y desarrollo de nuestra empresa, también debe guardar el registro de envejecimiento.
(2) Verifique si la salida de energía correspondiente a la placa defectuosa es normal.
(3) Si se trata de una fuente de alimentación de control multicanal, intercambie el canal de energía de la placa defectuosa y la placa normal (tenga en cuenta que el orden de la interfaz de la línea de datos se ajusta al mismo tiempo); y luego observar si el mal fenómeno sigue la placa hash o la fuente de alimentación. Si siguiente la fuente de alimentación, reemplace la fuente de alimentación nuevamente y hacer envejecimiento.
(4) Desconecte la fuente de alimentación y el cable de red. Verifique si la apariencia de la máquina está dañada. Verifique si los cables de alimentación y datos están sueltos o desconectados.
(5) Utilice la fuente de alimentación original de la máquina y la tablero de hash defectuoso para haz una prueba pegajosa en el balde, y registre el código de error y el registro. Si no hay ninguna anomalía después de 5 pruebas consecutivas, se notificará a nuestro personal de I+D para que la analice.
(6) Utilice la fuente de alimentación de la máquina original y la placa hash defectuosa, y realice una prueba posterior al pegado fuera del cañón para ver si el fenómeno aún existe y regístrelo. Si la superficie del chip es un disipador de calor fijado con tornillos, retire el disipador de calor de la superficie del chip y luego realice una prueba previa al pegado para ver si el fenómeno aún existe y regístrelo.
(7) Continúe analizando de acuerdo con el proceso de reparación de la placa defectuosa.
2. El proceso básico de reparación de una placa única
Antes del mantenimiento, confirme que la fuente de alimentación, la placa de control y los diversos cables estén conectados correctamente.
(1) Utilice el software de prueba previa al pegado para probar y obtener el código de error Ex:x. Se pueden tomar diferentes pasos siguientes para diferentes tipos de errores.
(2) Verifique la apariencia de la placa y observe si faltan componentes, hay errores o una apariencia anormal. Verifique si hay bolas de soldadura, objetos extraños, etc cerca del chip con error.
(3) Ejecute el procedimiento de mantenimiento y verifique el voltaje de entrada con un multímetro. Verifique la fuente de alimentación del oscilador de cristal. Verifique el circuito elevador de E/S de cola. Verifique la salida LDO de cada etapa.
(4) Use un osciloscopio para verificar las señales de entrada y salida del chip CLK, SCK, DO, DI, CS, RSTN, START.
(5) Si se encuentra que la señal de salida del chip ASIC es anormal, no reemplace fácilmente el chip. De acuerdo con las instrucciones de los siguientes capítulos, primero intente métodos como agregar soldadura, volver a soldar e intercambiar con otros chips en esta placa.
(6) Si se adopta el método de intercambio de chip, se puede observar si el problema sigue al chip.
(7) Si el método anterior no es válido, reemplace el chip. Es necesario registrar en detalle la información especificada, como la causa del problema del chip eliminado, en el informe de mantenimiento. Envíe regularmente el informe de mantenimiento a nuestra empresa para su análisis.
3. Localice la cadena rota con un programa específico de mantenimiento
Copie el repair.bin provisto a la tarjeta TF y enchufar a la placa serial. Conecte los cables de alimentación y datos (no se requiere ventilador), encienda. De acuerdo con el mensaje de error del software antes o después de pegar, detecte los puntos de prueba del chip relevante y sus chips adyacentes.
Descripción de teclas de función e indicadores en el software de mantenimiento.
(1) Después de encender, las luces en la placa de control están encendidas (luces roja y verde junto al botón de reinicio). Si el enlace de encendido se interrumpe, el software seguirá enviando cmd04. Después de presionar la tecla de función junto a la ranura de la tarjeta USB, el software dejará de enviar cmd04 y el programa continuará ejecutándose, y la luz verde se apagará en este momento;
(2) Si el enlace de encendido está conectado, el software continuará enviando cmd04. De manera similar, después de presionar la tecla de función, dejará de enviar cmd04 y luego la luz verde se apagará;
(3) Después de que la configuración de frecuencia falla, el software enviará cmd04 en el punto de falla, presione la tecla de función, detenga el envío de cmd04, el programa continúa ejecutándose y la luz roja se apaga en este momento;
(4) Después de que la configuración de frecuencia sea exitosa, si el enlace se interrumpe durante el proceso de lectura continua, el software enviará cmd04 en el momento de la interrupción del enlace. Después de presionar la tecla de función, la transmisión se detendrá y la luz roja se apagará al mismo tiempo, y el programa continuará ejecutándose.
IV. Análisis de problemas típicos
1. E0: 1
Este tipo de problema es que la cadena de comunicación está completamente rota y la mayoría de ellos son causados por circuitos periféricos anormales. Las causas conocidas son:
(1) La fuente de alimentación no tiene salida o la salida es anormal.
(2) La conexión de soldadura entre la interfaz de comunicación y el pin enchufable está en cortocircuito.
(3) El cable de datos no está enchufado correctamente o el contacto es deficiente o está dañado, lo que resulta en un cortocircuito.
(4) Los componentes entre la interfaz de comunicación y el primer chip tienen problemas como soldadura falsa, cortocircuito, quemaduras, desplazamiento y piezas faltantes.
(5) La E/S del primer chip se dañó por electricidad estática.
(6) El oscilador de cristal es anormal.
(7) Faltan algunos componentes.
Si encuentra este tipo de problemas, debe seguir la "Lista de verificación 5" para una inspección completa.
2. E0: N
El problema es que parte del enlace de comunicación está roto y está roto en el chip N. Las causas conocidas son:
(1) La señal entre los chips ASIC N y N-1 es anormal, los pines de los dos chips están soldados falsamente, flotan alto, están en cortocircuito y la E/S está dañada.
(2) Se producen soldaduras falsas, cortocircuitos, quemaduras, desplazamiento, piezas faltantes y otros problemas en los componentes periféricos del chip N.
Pasos de reparación:
(1) Verifique el circuito periférico, si no hay ninguna anomalía, vaya al siguiente paso.
(2) Verifique la resistencia de tierra del IO del chip ASIC Nth y los chips ASIC delantero y trasero. Si no hay ninguna anomalía, continúe con el siguiente paso. Si hay alguna anomalía, retire el chip y compárelo con la resistencia de tierra del IO del nuevo chip. Si no hay una diferencia obvia, vaya al siguiente paso, de lo contrario, reemplace el chip.
(3) Vuelva a soldar los chips Nth y N-1th, si aún hay una anomalía, vaya al siguiente paso.
(4) En otros casos, es necesario utilizar un programa específico de mantenimiento para ayudar en el posicionamiento. Compruebe el chip cuando se ejecute el software para "Start to send cmd04 endlessly". En este momento, debe usar un multímetro para medir el voltaje del chip anormal (el método de medición es como se muestra en la figura a continuación). Y use un osciloscopio para medir las señales del chip Nth y el chip N-1th. Como se muestra en la Figura 14, si la salida DO/CS/SCK del chip N-1 es anormal (se puede comparar con la forma de onda normal del chip anterior al chip N-1, si la forma de onda es inconsistente, es anormal), entonces reemplace el chip N-1. Si la salida del chip N es anormal, reemplace el chip N. Si la salida del chip N es normal, pero la entrada DI es anormal, entonces reemplace el chip N+1.
3. E6: N
El voltaje del chip N es anormal.
Método de mantenimiento:
(1) Use un multímetro para confirmar si el voltaje del chip es anormal. Si el voltaje del chip es demasiado bajo, detecte la señal SCK de los puntos de prueba de los tres chips de este nivel e intercambie el chip con la fluctuación de frecuencia SCK con otros chips de diferentes niveles con una división de voltaje más alta para comparar. Si las señales SCK son normales, reemplace el chip N con otros chips de diferentes niveles con una división de voltaje más alta.
(2) Si el problema está en el chip, reemplace el chip.
4. E7: 0
Cuando aparece E7: 0, debe utilizar un software de mantenimiento para localizar la ubicación del problema; el método de localización es el mismo que E0 y realizar una prueba cuando el programa se ejecute y aparezca "CRITICAL PLL CONFIGURE ERROR on Board 0 !!! Begin to Check SPI ..."
5. E7: N
Indica que el chip N no responde y debe reemplazarlo. El método de verificación es el mismo que E0: N.
6. E1: N
El chip N carece de un núcleo. Si este problema ocurre en un área grande, envíelo a nuestra empresa para que lo analicemos en investigación y desarrollo. Si solo unas pocas placas hash tienen este tipo de problemas, reemplace el chip N.
7. E2
El número total de núcleos en la placa es insuficiente. En este momento, es necesario verificar si el voltaje total de la placa de circuito es anormal (consulte el método en el error E0) y, si no hay ninguna anomalía, debe devolverse a la fábrica para su reparación.
8. E3: N
La tasa de error de softbist del chip N es alta. El método es el mismo que E1:N.
9. E4: N
El pll del chip N no está bloqueado. Verifique la salida CLK del chip N-1. Si no hay ninguna anomalía, vuelva a soldar los chips N-1 y N. Si aún no se puede resolver, reemplace el chip N.
10. E5: N
La temperatura del chip N excede el estándar, reemplace el chip. Si el problema ocurre en un área grande, debe verificar el disipador de calor. Si el problema aún no se puede resolver, es necesario devolverlo a la fábrica.
11. E8
La temperatura del chip Nth supera el estándar, reemplace el chip. Si el problema ocurre en un área grande, debe verificar el disipador de calor. Si el problema aún no se puede resolver, debe devolverlo a la fábrica.
La tasa de error de softbist de toda la placa es alta, es necesario comprobar si el voltaje de la placa y el cada chip de reloj son anormales. Si es anormal, reemplace el chip anormal.
Si no hay anormalidad, debe devolverlo a la fábrica.。
Ⅴ. Lista de verificación
Esta lista de verificación es para referencia de mantenimiento.
Comprobar artículos |
(1) Inspección de mano de obra |
Punto de control 1. Si las juntas de soldadura del chip están llenas y si hay perlas de estaño |
Punto de control 2. Si se cae algún componente |
Punto de control 3. Si el chip está cubierto con grasa de silicona o algodón conductor de calor |
(2) Compruebe el mensaje de error del software para la prueba previa o posterior al pegamento |
Punto de control 4. Identificación correcta del tipo de chip |
Punto de control 5. El estado de lectura es normal en la frecuencia predeterminada (Frecuencia = 60 Mhz de todos los chips, bloqueo PLL principal=1, Temperatura, Voltaje están dentro de un rango razonable) |
Punto de control 6. Elevado exitosamente a la frecuencia de operación (frecuencia PLL) |
Punto de control 7. El estado de lectura es normal bajo la frecuencia de operación (Frecuencia = frecuencia de operación/2, bloqueo PLL principal=1, Temperatura, Voltaje de todos los chips están dentro de un rango razonable) |
Punto de control 8. La tasa de error de Soft Bist está dentro de un rango razonable (menos del 10 %) |
Punto de control 9. El resultado del software de prueba es √ |
(3) Salida de la fuente de alimentación |
Punto de control 10. La salida de voltaje de la fuente de alimentación al tablero hash es normal (consulte los indicadores de modelos específicos) |
Punto de control 11. La salida de voltaje de la fuente de alimentación a la placa de control es de 12 V ± 10 % |
(4) Señal de control (medido después de que se enciende el tablero hash) |
Punto de control 12. EN_CORE=3,3 V ± 10 % |
Punto de control 13. RESET=1,8 V ± 10 % |
Punto de control 14. START=1,8 V ± 10 % |
(5) Voltaje del chip de la placa hash |
Punto de control 15. El voltaje total del núcleo debe ser coherente con el voltaje de salida de la fuente de alimentación Si la configuración de VID no es razonable o no es efectiva, provocará un funcionamiento anormal o inestable. Si la configuración de VID no tiene efecto, verifique si los programas de software y hardware de la placa de control son correctos. |
Punto de control 16. El voltaje de IO en todos los niveles siempre debe ser 1.8V |