十一了,没出去玩,因为老婆要加班,我陪着。
晚上的时候她说要一些点评的评分数据,我合计了一下scrapy request一下应该很好做,就答应下来了,感觉没什么难度嘛。
但是呢没那么简单。需要人验证的问题就不说了,我觉得这个我也解决不了,比较吸引我的是他的评分展现方式。
大众点评这块展示用的是图片,css offset方式
selector那套行不通
这里我使用的 tesseract 图片文字识别
下面是大概流程
这里是使用Selenium进行页面访问,然后截屏
代码片段
opt = Options()
opt.add_argument('--headless')
self.driver = webdriver.Chrome(executable_path='/Users/xiangc/bin/chromedriver', options=opt)
self.wait = WebDriverWait(self.driver, 10)
self.driver.get('http://www.dianping.com/shop/4227604') self.driver.save_screenshot('image{}.png'.format(url_id))
截屏页面
代码片段如下,这里是hardcode,惭愧
cropped_img = im.crop((239, 500, 239 + 780, 500 + 63))
cropped_img.save('crop{}.png'.format(url_id))
图片预处理流程如下
def get_color(image, x, y):
if isinstance(image, type(Image.new('RGB', (0, 0), 'white'))):
r, g, b = image.getpixel((x, y))[:3]
else:
r, g, b = image[x, y]
return r, g, b
def is_noise(image, x, y):
white_count = 0
for i in range(0, x + 2):
for j in range(0, y + 2):
r, g, b = get_color(image, i, j)
if (r, g, b) == (255, 255, 255):
white_count += 1
return white_count >= 7
def clear_noise(image, new_pixels):
w, h = image.size
clear_count = 0
for i in range(w):
for j in range(h):
r, g, b = get_color(image, i, j)
if r != g != b and is_noise(image, i, j):
clear_count += 1
print(clear_count)
new_pixels[i, j] = (255, 255, 255)
else:
new_pixels[i, j] = (r, g, b)
return clear_count
def clear_color(new_pixels, w, h):
for i in range(w):
for j in range(h):
r, g, b = get_color(new_pixels, i, j)
if np.average((r, g, b)) > 200:
new_pixels[i, j] = (255, 255, 255)
else:
new_pixels[i, j] = (0, 0, 0)
def pre_image(full_path):
image = Image.open(full_path)
w, h = image.size
new_image = Image.new('RGB', (w, h), 'white')
new_pixels = new_image.load()
clear_count = clear_noise(image, new_pixels)
while clear_count > 0:
clear_count = clear_noise(new_pixels, new_pixels)
print(clear_count)
if clear_count == 0:
break
clear_color(new_pixels, w, h)
# 对比度增强
enh_img = ImageEnhance.Contrast(new_image)
contrast = 3
image_contrasted = enh_img.enhance(contrast)
dir_name = os.path.dirname(full_path)
file_name = os.path.basename(full_path)
new_file_path = os.path.join(dir_name, 'sharped' + file_name)
image_contrasted.save(new_file_path)
return new_file_path
文字识别是用tesseract
注意这里加了白名单提高准确率
chi为我自己训练的识别库,训练集为10个
new_file_path = imgutils.pre_image('crop{}.png'.format(url_id))
result = pytesseract.image_to_string(
image=new_file_path,
lang='chi',
config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789评论服务:费用设施环境条.元'
还凑合哦
下面是一些脚本集合
都是js和python脚本,比较简单哈~
爬虫代码就不放了哈~写的太丑~目前也没时间做代码优化。
由于python注释和Markdown的代码tag重复了,注释都去掉了,相信大家能看懂哈~
原网址: 访问
创建于: 2018-10-13 16:04:23
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论