{"id":17529,"date":"2023-07-06T23:54:24","date_gmt":"2023-07-07T03:54:24","guid":{"rendered":"https:\/\/www.notaoficial.com\/s\/?p=17529"},"modified":"2023-07-06T23:54:24","modified_gmt":"2023-07-07T03:54:24","slug":"que-es-el-web-scraping-y-para-que-sirve","status":"publish","type":"post","link":"https:\/\/www.notaoficial.com\/s\/2023\/07\/06\/que-es-el-web-scraping-y-para-que-sirve\/","title":{"rendered":"\u00bfQu\u00e9 es el web scraping y para qu\u00e9 sirve?"},"content":{"rendered":"<p>Web scraping, es el acto de interactuar con un sitio web o servicio y recopilar informaci\u00f3n espec\u00edfica. La herramienta presenta los datos recolectados de la manera m\u00e1s adecuada a la necesidad de quienes lo programaron. <a href=\"https:\/\/www.eset.com\/latam\/\">ESET<\/a>, compa\u00f1\u00eda l\u00edder en detecci\u00f3n proactiva de amenazas, explica c\u00f3mo funciona y comparte consejos de seguridad para utilizarlo.<\/p>\n<p>Por ejemplo, si alguien necesita obtener el valor de cotizaci\u00f3n en d\u00f3lares diariamente a una hora determinada: para obtener esta informaci\u00f3n basta con ir a un sitio web oficial que tenga cotizaciones de monedas extranjeras o consultar en alg\u00fan buscador, como\u00a0<i>Google<\/i>. Ahora, si adem\u00e1s es necesaria la informaci\u00f3n de 14 monedas extranjeras m\u00e1s y 9 criptomonedas espec\u00edficas. El\u00a0<i>web scraping<\/i>\u00a0es \u00fatil para optimizar el proceso de b\u00fasqueda y, con uno o dos clics, recopilar toda la informaci\u00f3n posible.<\/p>\n<p>Cualquier usuario puede realizar\u00a0<i>web scraping<\/i> porque es un sistema autom\u00e1tico que accede a un sitio web para \u201cver\u201d una informaci\u00f3n, sin embargo, seg\u00fan ESET hay dos puntos importantes a tener en cuenta:<\/p>\n<ul>\n<li aria-level=\"1\"><b>Los delincuentes utilizan el\u00a0<\/b><b><i>web scraping<\/i><\/b><b>\u00a0para configurar bases de datos con fines de intercambio\/venta: <\/b>Como toda herramienta, sea digital o no, el destino dado a su uso depender\u00e1 \u00fanica y exclusivamente de qui\u00e9n la est\u00e9 utilizando. Puede ser \u00fatil para ayudar a un banco a obtener informaci\u00f3n sobre cotizaciones de divisas. Por otro lado, en el caso de un uso malicioso, se puede utilizar para automatizar la recopilaci\u00f3n de informaci\u00f3n de personas, para luego almacenar los datos en un archivo que eventualmente se vender\u00e1 o intercambiar\u00e1 en foros de la\u00a0<i>Deep o Dark Web<\/i>.<\/li>\n<\/ul>\n<p>\u201c<i>Un caso ejemplo de su utilizaci\u00f3n sucedi\u00f3 hace alg\u00fan tiempo cuando una gran tienda hizo una promoci\u00f3n en la que solicit\u00f3 los datos de registro de sus clientes, pero la p\u00e1gina ten\u00eda p\u00fablica la informaci\u00f3n. Los delincuentes analizaron este sitio y encontraron que tambi\u00e9n era posible ver esta misma p\u00e1gina con los datos de otros clientes, con esta informaci\u00f3n en la mano fue posible crear un raspador que la recopile y almacene. Varias filtraciones de las que tenemos noticias se llevan a cabo mediante el uso de\u00a0web scraping, pero el uso tambi\u00e9n puede ser no malicioso. Para que una colecci\u00f3n de informaci\u00f3n no tenga caracter\u00edsticas maliciosas, es interesante entender c\u00f3mo darle forma.\u201d, <\/i>menciona Camilo Guti\u00e9rrez Amaya, Jefe del Laboratorio de Investigaci\u00f3n de ESET Latinoam\u00e9rica.<\/p>\n<ul>\n<li aria-level=\"1\"><b>Riesgo DDoS <\/b><b><i>-denegaci\u00f3n de servicio- <\/i><\/b><b>: <\/b>Las soluciones de\u00a0<i>web scraping<\/i>\u00a0a trav\u00e9s de la l\u00ednea de comandos tienden a obtener informaci\u00f3n m\u00e1s r\u00e1pido, pero si no se parametrizan correctamente, pueden generar una cantidad tan grande de solicitudes que pueden interpretarse como un ataque\u00a0<i>DDoS y<\/i>\u00a0haber un bloqueo temporal o permanente de la IP que est\u00e1 escaneando. Dependiendo de los sistemas de protecci\u00f3n del sitio, la IP de origen puede colocarse en una lista negra y otros sitios pueden rechazar conexiones de la fuente que inici\u00f3 el\u00a0<i>web scraping<\/i>.<\/li>\n<\/ul>\n<p>Si se desea aventurarse en los estudios sobre raspado de datos, puede ser \u00fatil aprender a ajustar el n\u00famero de peticiones por segundo, cu\u00e1ntos segundos de intervalo habr\u00e1 entre una petici\u00f3n y otra, si existe la posibilidad de cambiar el cliente web que se enviar\u00e1 en las peticiones y configurar un n\u00famero m\u00e1ximo de recopilaci\u00f3n de informaci\u00f3n para que, si se alcanza este n\u00famero, se interrumpa el proceso de scraping.<\/p>\n<p>Debido a que es una herramienta muy espec\u00edfica que tiene su impacto percibido principalmente por los administradores de sitios y servicios accesibles a trav\u00e9s de la web, ESET comparte algunos consejos de seguridad que pueden ayudar a lidiar m\u00e1s adecuadamente con el web scraping:<\/p>\n<ul>\n<li aria-level=\"1\"><b>No te preocuparse demasiado por el bloqueo<\/b>: vale la pena recordar que el scraping es solo un acceso a la informaci\u00f3n y puede ser improductivo preocuparse por bloquearlo. En cambio, tratar de dirigir los esfuerzos para garantizar el acceso leg\u00edtimo a la informaci\u00f3n.<\/li>\n<li aria-level=\"1\"><b>Asegurarse de que los datos de una persona sean accesibles solo por esa persona<\/b>: Ajustar la autorizaci\u00f3n de acceso a la informaci\u00f3n para evitar que toda la base de datos est\u00e9 disponible para cualquier usuario que est\u00e9 autenticado en el sistema.<\/li>\n<li aria-level=\"1\"><b>Dimensionar adecuadamente los recursos del servidor<\/b>\u00a0teniendo en cuenta el exceso de conexiones que pueden ocurrir peri\u00f3dicamente, para evitar cualquier momento de interrupci\u00f3n del servicio.<\/li>\n<li aria-level=\"1\"><b>Configurar correctamente\u00a0los bloqueos autom\u00e1ticos<\/b>: A veces los bloqueos autom\u00e1ticos ocurren cuando las solicitudes llegan a un volumen m\u00e1s alto de lo esperado. Si se quiere limitar m\u00e1s los eventuales raspados aumentar la sensibilidad del snesor, o caso contrario, asegurarse de que los bloqueos no sean permanentes, porque el comportamiento de algunos navegadores y usuarios puede generar solicitudes excesivas y los filtros pueden terminar bloqueando personas o software.<\/li>\n<\/ul>\n<p>Para conocer m\u00e1s sobre seguridad inform\u00e1tica visite el portal de noticias de ESET: <a href=\"https:\/\/www.welivesecurity.com\/la-es\/2023\/07\/05\/que-es-web-scraping-para-que-sirve\/\">https:\/\/www.welivesecurity.com\/la-es\/2023\/07\/05\/que-es-web-scraping-para-que-sirve\/<\/a><\/p>\n<p>Por otro lado, ESET invita a conocer <a href=\"https:\/\/www.eset.com\/latam\/podcast\/\"><b>Conexi\u00f3n Segura<\/b><\/a>, su podcast para saber qu\u00e9 est\u00e1 ocurriendo en el mundo de la seguridad inform\u00e1tica. Para escucharlo ingrese a: <a href=\"https:\/\/open.spotify.com\/show\/0Q32tisjNy7eCYwUNHphcw\">https:\/\/open.spotify.com\/show\/0Q32tisjNy7eCYwUNHphcw<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Web scraping, es el acto de interactuar con un sitio web o servicio y recopilar informaci\u00f3n espec\u00edfica. La herramienta presenta los datos recolectados de la manera m\u00e1s adecuada a la necesidad de quienes lo programaron. ESET, compa\u00f1\u00eda l\u00edder en detecci\u00f3n proactiva de amenazas, explica c\u00f3mo funciona y comparte consejos de seguridad para utilizarlo. Por ejemplo, [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":17530,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[93,146,2],"tags":[988,9529],"wppr_data":{"cwp_meta_box_check":"No"},"_links":{"self":[{"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/posts\/17529"}],"collection":[{"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/comments?post=17529"}],"version-history":[{"count":1,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/posts\/17529\/revisions"}],"predecessor-version":[{"id":17531,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/posts\/17529\/revisions\/17531"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/media\/17530"}],"wp:attachment":[{"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/media?parent=17529"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/categories?post=17529"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.notaoficial.com\/s\/wp-json\/wp\/v2\/tags?post=17529"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}