[Afectación generalizada] 07/02/2016 09:03 – Parada de máquinas por fallo de generador

Comienzo de la incidencia: 09:05 del 07/02/2016

Problema:

– Servicios sin conectividad en todos los servidores.

– Causa del fallo: pérdida de alimentación eléctrica.

– Tiempo de afectación del servicio: 55 minutos y 15 segundos.

 

[Actualización 10:20 07/02/2016]

– Servicio plenamente restituido.

– El generador estaba generando electricidad intermintentemente. La conmutación entre la red eléctrica principal y el generador no era funcional.

 

 

Esta mañana, a las 09:03 saltó la alarma de alimentación de nuestros servidores. Inmediatamente el generador de reserva arrancó y comenzó a producir energía.

Nada más recibir el aviso, se desplazó hasta nuestras instalaciones la persona de guardia y comprobó que, aunque el generador estaba arrancado, la salida eléctrica que producía era intermitente, con lo que los sistemas de transferencia automática de alimentación estaban constantemente pasando la corriente del generador a los SAIs y viceversa. A pesar de haber puesto el sistema en manual, el generador seguía sin producir alimentación limpia, con lo que para evitar males mayores se ha producido un cierre controlado de todas las máquinas afectadas.

En cuanto se ha reestablecido la alimentación correctamente, se ha procedido al arranque de todas las máquinas afectadas.

Ya hemos avisado a la empresa mantenedora del generador para que lo revise urgentemente y diagnostique el problema.
Lamentamos las molestias causadas.

El Equipo de Hacheté Diseños Web

[Afectación parcial planificada] 04/01/2016 06:00 Pérdida de servicio en varios rangos de IPs

El próximo día 4 de enero de 2016, entre las 06:00 y las 07:00 se producirá una pérdida intermitente de tráfico en los siguientes rangos de IPS:

84.124.52.1-84.124.52.64

5.40.64.128-5.40.64.256

debido a los trabajos técnicos que debemos realizar en uno de nuestros routers.

 

El trabajo comenzará a las 06:00 y en principio no ha de durar más de 15-30 minutos, pero para tener un margen de confianza, hemos abierto una ventana de servicio de 60 minutos, entre las 06:00 y las 07:00.

En este tiempo todas las máquinas en los rangos indicados perderán intermitentemente el tráfico, aunque en ningún momento se reiniciará o parará ninguna de ellas.

No se perderá ningún correo ni ninguna web.

Una vez restablecido el servicio, actualizaremos este anuncio.

 

Como siempre, estamos a su disposición en el mail info@hachete.com o en el teléfono 968 248335

 

Gracias por confiar en Hacheté.

 

[Actualización 04/01/2015 06:40] Todos los servicios están plenamente operativos.

[Afectación de un único servidor] Ataque de denegación de servicio DDOS en idefix.hachete.com

A las 14:45 de hoy 09/09/2015 el uso de la CPU en la máquina 84.124.52.28 – idefix.hachete.com se ha disparado y todos los procesos de la misma se han detenido. Tras loguearnos en ella hemos visto que un único usuario web estaba usando el 100% de los recursos, con lo que la máquina no respondía. Hemos intentado reiniciarla varias veces e incluso le hemos ampliado memoria RAM y procesadores y aún así seguía sin responder.

La única manera de hacer que la máquina no se viniera abajo era cerrar el servicio web (hhtpd), con lo que hemos descubierto que uno de los clientes alojados en esa máquina estaba sufriendo un ataque de denegación de servicio (DDOS). Este ataque era imposible de digerir ya que el servidor recibía más de 1000 peticiones por segundo, haciendo que ningún servicio respondiera.

Después de varias horas y la ayuda de uno nuestros operadores de red, hemos conseguido bloquear muchas de las IPs que estaban atacando el servidor, con lo que la carga ha disminuido y el servidor ha empezado de nuevo a responder.

Lamentamos las molestias ocasionadas.

[Afectación de varios servidores] Error en actualización de panel de hosting Interworx

Comienzo de la intervención: 01:30 del 25/07/2015

Finalización esperada de la intervención: a lo largo del día 26/07/2015

Duración de la incidencia: : variable
Problema:

– Una actualización del panel de hosting Interworx ha producido problemas variables en diferentes máquinas

Motivo:

– Problema de software

Afectación:

– Variable de algunos servidores cuyo acceso al panel de hosting se ve limitado con errores de conexión a la base de datos.

– En particular el servidor asterix.hachete.com (84.124.52.18) no puede enviar ni recibir emails.

– El 95% de las webs afectadas se ven y funcionan correctamente. El otro 5% (que depende de bases de datos) está experimentando problemas puntuales.

Solución:

– Instalación de nueva versión de software

Estamos trabajando mano a mano con el equipo de Interworx para solucionar un problema que ha surgido debido a una actualización diaria que parece que ha fallado en algunos de nuestros servidores. En cuanto tengamos más información, actualizaremos este post.
Lamentamos las molestias causadas y agradecemos la confianza depositada en nosotros.

El Equipo de Hacheté.

 

**Actualización 27/07/2015 08:00: La mayoría de las máquinas y servicios se han restaurado. Estamos terminando de recuperar las últimas webs y servicios no disponibles. Volveremos a actualizar este post en cuanto tengamos más información.***

[Afectación de un único servidor] Ataque de denegación de servicio DDOS en idefix.hachete.com

A las 17:30 de hoy 25/05/2015 el uso de la CPU en la máquina 84.124.52.28 – idefix.hachete.com se ha disparado y todos los procesos de la misma se han detenido. Tras loguearnos en ella hemos visto que un único usuario web estaba usando el 100% de los recursos, con lo que la máquina no respondía. Hemos intentado reiniciarla varias veces e incluso le hemos ampliado memoria RAM y procesadores y aún así seguía sin responder.

La única manera de hacer que la máquina no se viniera abajo era cerrar el servicio web (hhtpd), con lo que hemos descubierto que uno de los clientes alojados en esa máquina estaba sufriendo un ataque de denegación de servicio (DDOS). Este ataque era imposible de digerir ya que el servidor recibía más de 1000 peticiones por segundo, haciendo que ningún servicio respondiera.

 

Después de aproximadamente una hora y la ayuda de uno nuestros operadores de red, hemos conseguido bloquear muchas de las IPs que estaban atacando el servidor, con lo que la carga ha disminuido y el servidor ha empezado de nuevo a responder.

 

De momento la máquina está en observación y con todos los mecanismos de defensa activados por si volviésemos a sufrir un ataque similar.

 

Lamentamos las molestias causadas.

 

El Equipo de Hacheté.

[Afectación de un único servidor] Uso excesivo CPU y cuelgue de servidor 84.124.52.18 – asterix.hachete.com

A las 23:01 del 08/04/2015 el uso de la CPU en la máquina 84.124.52.18 – asterix.hachete.com se ha disparado y todos los procesos de la misma se han detenido.

La máquina no respondía a ningún comando con lo que hemos tenido que realizar un reinicio por corte de suministro eléctrico y la máquina ha comenzado el arranque normal. A mitad de arrancar ha forzado un chequeo de disco (fsck) ya que hacía más de 200 días que esta máquina no se reiniciaba, con lo que ha comenzado un eterno proceso que ha terminado a las 00:20 del 09/04/2015.

Ya se encuentran todos los servicios reestablecidos y la máquina en observación por si hay que realizar alguna tarea urgente adicional.

 

Lamentamos las molestias causadas.

 

El Equipo de Hacheté.

Aviso emails falsos de la Seguridad Social

Desde Hacheté queremos informar de un aviso URGENTE E IMPORTANTE: se ha identificado una campaña de phishing con correos electrónicos que incluyen las palabras “FACTURA DEUDA CLIENTE” en el asunto, y que tienen siguiente aspecto:

Email falso suplantando a la Seguridad Social

Los correos, cuyo remitente ha sido falseado y corresponde a la dirección: sede[@]segsocial.gob.es, informan a los usuarios de una supuesta deuda de un importe alrededor de los 170€. Así mismo, adjuntan un fichero que corresponde a la supuesta deuda pero que en realidad se trata de un malware de tipo ransomware. En el caso de ser ejecutado, cifrará los ficheros del ordenador para que sean inaccesibles y solicitará el pago de un rescate.

 

Información sacada de http://www.osi.es/es/actualidad/avisos/2015/02/suplantan-la-seguridad-social-para-propagar-malware

[Afectación variable] Rotura disco duro. Reinicios y pérdida de conectividad puntuales.

Comienzo de la intervención: 06:30 del 03/02/2015

Finalización esperada de la intervención:  00:30 del 03/03/2015

Duración de la incidencia: : 18:00

Problema:

– Disco duro reporta “fallo inminente”

Motivo:

– Disco duro roto.

Afectación:

– Variable de algunos servidores que leen de la cabina de discos afectada. Se requiere el reinicio y pérdida temporal de conectividad de varios servidores a lo largo del día.

Solución:

– Reconstrucción RAID con disco duro nuevo

 

 

Esta mañana, a las 06:30, una de nuestras cabinas de almacenamiento ha detectado el “fallo inminente” de uno de sus discos duros, con lo que inmediatamente ha sido reemplazado, empenzando la reconstrucción automática del array que contenía. Esta reconstrucción no afecta a los datos, pero sí que reduce la capacidad y velocidad de la cabina, con lo que nos hemos visto obligados a reiniciar varias veces varias máquinas a lo largo del día.

Los cálculos indican que la reconstrucción terminará cerca de medianoche, con lo que esperamos que a partir de ese momento todos los servicios vuelvan a la normalidad.

 

Lamentamos las molestias causadas y agradecemos la confianza depositada en nosotros.

 

El Equipo de Hacheté.

 

Actualización 21:30 03/02/2015: la reconstrucción ha terminado satisfactoriamente a las 21:26. Esperamos ya no tener más problemas por esta causa. Aún así, mantendremos la cabina afectada bien vigilada.

25/09/2014: Parcheados todos nuestros servidores – Vulnerabilidad bash

Hace unas pocas horas se ha descubierto un exploit (agujero de seguridad ) MUY GRAVE que permitiría a cualquier atacante ejecutar cualquier comando dentro de un servidor Linux.

 

Toda la información (en inglés) aquí:  http://www.csoonline.com/article/2687265/application-security/remote-exploit-in-bash-cve-2014-6271.html

 

Rápidamente hemos parcheado todos nuestros servidores Linux que eran vulnerables (aproximadamente un 35% de ellos) y ya todos están protegidos.

 

Esta es una nota informativa y no ha de hacerse nada al respecto.

 

Gracias por confiar en nosotros,

 

El Equipo De Hacheté

[Sin conectividad – Afectación parcial] Pérdida conectividad 09:00 – 11:30 del 20/09/2014

Esta mañana a las 09:01 ha caído unos de nuestras principales máquinas que enrutan tráfico de y hacia Internet.

 

Rápidamente uno de nuestros técnicos se ha encargado de diagnosticar el problema y de reiniciar la máquina y balancear los servicios dependientes de la misma entre otras máquinas.

 

Este proceso nos ha llevado más de 2h, ya que algunas máquinas han tenido que realizar comprobaciones de disco al arrancar, y éstas han hecho que el reinicio de las mismas se demorara más de lo que nos hubiese gustado. Éste es un proceso completamente normal y que no se puede abortar ya que podría suponer la pérdida de datos de las máquinas.

 

En todo caso, hemos cumplido con nuestro SLA de solución de problemas en menos de 4h, aunque nuestro deseo hubiese sido que fuera en menos 🙁

 

Lamentamos las molestias ocurridas.

 

El equipo de Hacheté Diseños Web