python启动不了谷歌浏览器,为什么python启动不了浏览器

大家好,python启动不了谷歌浏览器相信很多的网友都不是很明白,包括为什么python启动不了浏览器也是一样,不过没有关系,接下来就来为大家分享关于python启动不了谷歌浏览器和为什么python启动不了浏览器的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!

python启动不了谷歌浏览器,为什么python启动不了浏览器

本文目录

  1. python+selenium调用IE:打不开浏览器时的设置
  2. python 新浪微博爬虫,求助
  3. 如何用声音来操控IE浏览器及语音识别引擎

一、python+selenium调用IE:打不开浏览器时的设置

1.在IE浏览器的 设置>internet选项>安全下,将四个区域中启用保护模式的状态保持一致(全部取消勾选或者全部勾选),应用并确定。

2.禁用【高级】中的“启用增强保护模式”

4.若IE版本为11,则需要修改注册表:win+R-->regedit

HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Microsoft\Internet Explorer\Main\FeatureControl\FEATURE_BFCACHE

如果key值不存在,就添加。之后在key内部创建一个iexplorer.exe,DWORD类型,值为0,如下图所示:

5.之后selenium即可打开IE浏览器

二、python 新浪微博爬虫,求助

因为参加学校大学生创新竞赛,研究有关微博博文表达的情绪,需要大量微博博文,而网上无论是国内的某度、csdn,还是国外谷歌、gayhub、codeproject等都找不到想要的程序,没办法只能自己写一个程序了。

ps.在爬盟找到类似的程序,但是是windows下的,并且闭源,而且最终爬取保存的文件用notepad++打开有很多奇怪的问题,所以放弃了。

本程序由Python写成,所以基本的python知识是必须的。另外,如果你有一定的计算机网络基础,在前期准备时会有少走很多弯路。

1.对爬取对象分类,可以分为以下几种:第一种是不需要登录的,比如博主以前练手时爬的中国天气网,这种网页爬取难度较低,建议爬虫新手爬这类网页;第二种是需要登录的,如豆瓣、新浪微博,这些网页爬取难度较高;第三种独立于前两种,你想要的信息一般是动态刷新的,如AJAX或内嵌资源,这种爬虫难度最大,博主也没研究过,在此不细举(据同学说淘宝的商品评论就属于这类)。

2.如果同一个数据源有多种形式(比如电脑版、手机版、客户端等),优先选取较为“纯净的”展现。比如新浪微博,有网页版,也有手机版,而且手机版可以用电脑浏览器访问,这时我优先选手机版新浪微博。

3.爬虫一般是将网页下载到本地,再通过某些方式提取出感兴趣的信息。也就是说,爬取网页只完成了一半,你还要将你感兴趣的信息从下载下来的html文件中提取出来。这时就需要一些xml的知识了,在这个项目中,博主用的是XPath提取信息,另外可以使用XQuery等等其他技术,详情请访问w3cschool。

4.爬虫应该尽量模仿人类,现在网站反爬机制已经比较发达,从验证码到禁IP,爬虫技术和反爬技术可谓不断博弈。

决定了爬虫的目标之后,首先应该访问目标网页,明确目标网页属于上述几种爬虫的哪种,另外,记录为了得到感兴趣的信息你需要进行的步骤,如是否需要登录,如果需要登录,是否需要验证码;你要进行哪些操作才能获得希望得到的信息,是否需要提交某些表单;你希望得到的信息所在页面的url有什么规律等等。

以下博文以博主项目为例,该项目爬取特定新浪微博用户从注册至今的所有微博博文和根据关键词爬取100页微博博文(大约1000条)。

首先访问目标网页,发现需要登录,进入登录页面如下新浪微博手机版登录页面

注意url后半段有很多形如”%xx”的转义字符,本文后面将会讲到。

从这个页面可以看到,登录新浪微博手机版需要填写账号、密码和验证码。

这个验证码是近期(本文创作于2016.3.11)才需要提供的,如果不需要提供验证码的话,将有两种方法进行登录。

第一种是填写账号密码之后执行js模拟点击“登录”按钮,博主之前写过一个Java爬虫就是利用这个方法,但是现在找不到工程了,在此不再赘述。

第二种需要一定HTTP基础,提交包含所需信息的HTTP POST请求。我们需要Wireshark工具来抓取登录微博时我们发出和接收的数据包。如下图我抓取了在登录时发出和接收的数据包Wireshark抓取结果1

在搜索栏提供搜索条件”http”可得到所有http协议数据包,右侧info显示该数据包的缩略信息。图中蓝色一行是POST请求,并且info中有”login”,可以初步判断这个请求是登录时发出的第一个数据包,并且这个180.149.153.4应该是新浪微博手机版登录认证的服务器IP地址,此时我们并没有任何的cookie。

在序号为30是数据包中有一个从该IP发出的HTTP数据包,里面有四个Set-Cookie字段,这些cookie将是我们爬虫的基础。

早在新浪微博服务器反爬机制升级之前,登录是不需要验证码的,通过提交POST请求,可以拿到这些cookie,在项目源码中的TestCookie.py中有示例代码。

ps.如果没有wireshark或者不想这么麻烦的话,可以用浏览器的开发者工具,以chrome为例,在登录前打开开发者工具,转到Network,登录,可以看到发出和接收的数据,登录完成后可以看到cookies,如下图chrome开发者工具

接下来访问所需页面,查看页面url是否有某种规律。由于本项目目标之一是获取某用户的全部微博,所以直接访问该用户的微博页面,以央视新闻为例。

图为央视新闻微博第一页,观察该页面的url可以发现,新浪微博手机版的微博页面url组成是“weibo.cn/(displayID)?page=(pagenum)”。这将成为我们爬虫拼接url的依据。

接下来查看网页源码,找到我们希望得到的信息的位置。打开浏览器开发者工具,直接定位某条微博,可以发现它的位置,如下所示。

观察html代码发现,所有的微博都在<div>标签里,并且这个标签里有两个属性,其中class属性为”c”,和一个唯一的id属性值。得到这个信息有助于将所需信息提取出来。

另外,还有一些需要特别注意的因素

*按照发布时间至当前时间的差距,在页面上有”MM分钟前”、”今天HH:MM”、”mm月dd日 HH:MM”、”yyyy-mm-dd HH:MM:SS”等多种显示时间的方式*手机版新浪微博一个页面大约显示10条微博,所以要注意对总共页数进行记录以上几点都是细节,在爬虫和提取的时候需要仔细考虑。

本项目开发语言是Python 2.7,项目中用了一些第三方库,第三方库可以用pip的方法添加。

既然程序自动登录的想法被验证码挡住了,想要访问特定用户微博页面,只能使用者提供cookies了。

首先用到的是Python的request模块,它提供了带cookies的url请求。

print request.get(url, cookies=cookies).content使用这段代码就可以打印带cookies的url请求页面结果。

首先取得该用户微博页面数,通过检查网页源码,查找到表示页数的元素,通过XPath等技术提取出页数。

项目使用lxml模块对html进行XPath提取。

首先导入lxml模块,在项目里只用到了etree,所以from lxml import etree

html= requests.get(url, cookies=self.cook).content# Visit the first page to get the page number.

pagenum= selector.xpath('//input[@name="mp"]/@value')[0]

接下来就是不断地拼接url->访问url->下载网页。

需要注意的是,由于新浪反爬机制的存在,同一cookies访问页面过于“频繁”的话会进入类似于“冷却期”,即返回一个无用页面,通过分析该无用页面发现,这个页面在特定的地方会出现特定的信息,通过XPath技术来检查这个特定地方是否出现了特定信息即可判断该页面是否对我们有用。

title= selector.xpath('//title')[0]

return title.text!='微博广场' and title.text!='微博'

如果出现了无用页面,只需简单地重新访问即可,但是通过后期的实验发现,如果长期处于过频访问,返回的页面将全是无用页面,程序也将陷入死循环。为了避免程序陷入死循环,博主设置了尝试次数阈值trycount,超过这个阈值之后方法自动返回。

下面代码片展示了单线程爬虫的方法。

def startcrawling(self, startpage=1, trycount=20):

os.mkdir(sys.path[0]+'/Weibo_raw/'+ self.wanted)except Exception, e:

while not isdone and attempt< trycount:

while not isneeded and attempt< trycount:

html= self.getpage(self.geturl(i))

isneeded= self.ispageneeded(html)

self.savehtml(sys.path[0]+'/Weibo_raw/'+ self.wanted+'/'+ str(i)+'.txt', html)print str(i)+'/'+ str(pagenum- 1)

考虑到程序的时间效率,在写好单线程爬虫之后,博主也写了多线程爬虫版本,基本思想是将微博页数除以线程数,如一个微博用户有100页微博,程序开10个线程,那么每个线程只负责10个页面的爬取,其他基本思想跟单线程类似,只需仔细处理边界值即可,在此不再赘述,感兴趣的同学可以直接看代码。另外,由于多线程的效率比较高,并发量特别大,所以服务器很容易就返回无效页面,此时trycount的设置就显得更重要了。博主在写这篇微博的时候,用一个新的cookies,多线程爬取现场测试了一下爬取北京邮电大学的微博,3976条微博全部爬取成功并提取博文,用时仅15s,实际可能跟cookies的新旧程度和网络环境有关,命令行设置如下,命令行意义在项目网址里有说明python main.py _T_WM=xxx; SUHB=xxx; SUB=xxx; gsid_CTandWM=xxx u bupt m 20 20爬取的工作以上基本介绍结束,接下来就是爬虫的第二部分,解析了。由于项目中提供了多线程爬取方法,而多线程一般是无序的,但微博博文是依靠时间排序的,所以项目采用了一种折衷的办法,将下载完成的页面保存在本地文件系统,每个页面以其页号为文件名,待爬取的工作结束后,再遍历文件夹内所有文件并解析。

通过前面的观察,我们已经了解到微博博文存在的标签有什么特点了,利用XPath技术,将这个页面里所有有这个特点的标签全部提取出来已经不是难事了。

在这再次提醒,微博分为转发微博和原创微博、时间表示方式。另外,由于我们的研究课题仅对微博文本感兴趣,所以配图不考虑。

def startparsing(self, parsingtime=datetime.datetime.now()):

basepath= sys.path[0]+'/Weibo_raw/'+ self.uidfor filename in os.listdir(basepath):

if filename.startswith('.'):

path= basepath+'/'+ filename

weiboitems= selector.xpath('//div[@class="c"][@id]')for item in weiboitems:

weibo.id= item.xpath('./@id')[0]

cmt= item.xpath('./div/span[@class="cmt"]')if len(cmt)!= 0:

ctt= item.xpath('./div/span[@class="ctt"]')[0]

for a in ctt.xpath('./a'):

reason= cmt[1].text.split(u'\xa0')

ct= item.xpath('./div/span[@class="ct"]')[0]

time= ct.text.split(u'\xa0')[0]

weibo.time= self.gettime(self, time, parsingtime)self.weibos.append(weibo.__dict__)

方法传递的参数parsingtime的设置初衷是,开发前期爬取和解析可能不是同时进行的(并不是严格的“同时”),微博时间显示是基于访问时间的,比如爬取时间是10:00,这时爬取到一条微博显示是5分钟前发布的,但如果解析时间是10:30,那么解析时间将错误,所以应该讲解析时间设置为10:00。到后期爬虫基本开发完毕,爬取工作和解析工作开始时间差距降低,时间差将是爬取过程时长,基本可以忽略。

解析结果保存在一个列表里,最后将这个列表以json格式保存到文件系统里,删除过渡文件夹,完成。

f= open(sys.path[0]+'/Weibo_parsed/'+ self.uid+'.txt','w')jsonstr= json.dumps(self.weibos, indent=4, ensure_ascii=False)f.write(jsonstr)

同样的,收集必要的信息。在微博手机版搜索页面敲入”python”,观察url,研究其规律。虽然第一页并无规律,但是第二页我们发现了规律,而且这个规律可以返回应用于第一页第一页

观察url可以发现,对于关键词的搜索,url中的变量只有keyword和page(事实上,hideSearchFrame对我们的搜索结果和爬虫都没有影响),所以在代码中我们就可以对这两个变量进行控制。

另外,如果关键词是中文,那么url就需要对中文字符进行转换,如我们在搜索框敲入”开心”并搜索,发现url如下显示搜索开心

幸好,python的urllib库有qoute方法处理中文转换的功能(如果是英文则不做转换),所以在拼接url前使用这个方法处理一下参数。

另外,考虑到关键词搜索属于数据收集阶段使用的方法,所以在此只提供单线程下载网页,如有多线程需要,大家可以按照多线程爬取用户微博的方法自己改写。最后,对下载下来的网页进行提取并保存(我知道这样的模块设计有点奇怪,打算重(xin)构(qing)时(hao)时再改,就先这样吧)。

def keywordcrawling(self, keyword):

realkeyword= urllib.quote(keyword)# Handle the keyword in Chinese.

os.mkdir(sys.path[0]+'/keywords')

highpoints= re.compile(u'[\U00010000-\U0010ffff]')# Handle emoji, but it seems doesn't work.

highpoints= re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')pagenum= 0

html= self.getpage(' realkeyword)isneeded= self.ispageneeded(html)

pagenum= int(selector.xpath('//input[@name="mp"]/@value')[0])except:

for i in range(1, pagenum+ 1):

html= self.getpage('(realkeyword, str(i)))isneeded= self.ispageneeded(html)

weiboitems= selector.xpath('//div[@class="c"][@id]')for item in weiboitems:

cmt= item.xpath('./div/span[@class="cmt"]')if(len(cmt))== 0:

ctt= item.xpath('./div/span[@class="ctt"]')[0]

text= etree.tostring(ctt, method='text', encoding="unicode")tail= ctt.tail

text= highpoints.sub(u'\u25FD', text)# Emoji handling, seems doesn't work.

print str(i)+'/'+ str(pagenum)

f= open(sys.path[0]+'/keywords/'+ keyword+'.txt','w')try:

f.write(json.dumps(weibos,indent=4,ensure_ascii=False))except Exception,ex:

博主之前从未写过任何爬虫程序,为了获取新浪微博博文,博主先后写了3个不同的爬虫程序,有Python,有Java,爬虫不能用了是很正常的,不要气馁,爬虫程序和反爬机制一直都在不断博弈中,道高一尺魔高一丈。

另.转载请告知博主,如果觉得博主帅的话就可以不用告知了

三、如何用声音来操控IE浏览器及语音识别引擎

最近做字幕的时候发现一个通过声音控制IE浏览器的方法。本来是要制作字幕的,后来想想如果纯手工制作字幕的话那么效率肯定非常低,做为程序员,本能的想到了让计算机来帮忙。做字幕就是从声音识别出文字,然后在校对时间轴。很机械化的操作,非常适合计算机的来做。通过搜索很快找到了解决方案。使用Microsoft Speech SDK+Python+PythonWin。虽然微软的语音识别引擎已经很强大了,但是要用它来制作字幕还有很长的路要走。字幕做不成了,不过用它来操控浏览器还是错错有余的。发现使用语音功能操作IE浏览器还是非常方便,只要设置好语句,IE浏览器就可以自动进行相关的操作。

下面是我已经实现的一些功能。(=符号前面是你要说的话,后面是浏览器执行的操作)

“显示浏览器”=打开浏览器,“谷歌”=进入谷歌的页面,“百度”=进入百度的页面,“优酷”=进入优酷的页面等等,“后退”=返回上一个页面,“最大化”=最大化浏览器,“下拉”=下拉网页,“上拉”=上拉网页,“放大”=放大网页,“缩小”=缩小网页,“关闭浏览器”=关闭浏览器。

1.从微软官网下载SpeechSDK51.exe和SpeechSDK51LangPack.exe

   2.下载Python2.6+PythonWin+wxPython和启动语音识别的脚本文件。从这里打包下载。

3.安装SpeechSDK51.exe,SpeechSDK51LangPack.exe

4.安装Python2.6,PythonWin,wxPython

5.运行开始菜单-所有程序-Python2.6— PythonWin,选择Tools- COM MakePy utility- Microsoft Speech Object Library 5.0

6.在控制面板的语音里面,在语言里选Microsoft Simplified Chinese Recognizer,在语音选择里选Microsoft Simplified Chinese

   环境搭建完成,运行SpeechGui.py脚本就可以来用声音操控浏览器。不过由于Python+PythonWin的强大威力,不单单只有IE浏览器可以进行该操作,只要软件能够支持com的应用就都可以显示语音操控,比如微软的Windows Media Player,Word,Excel等软件。强烈建议大家自己手动去发掘和制作更多有意思的功能。

END,本文到此结束,如果可以帮助到大家,还望关注本站哦!

声明:信息资讯网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者东方体育日报所有。若您的权利被侵害,请联系 删除。

本文链接:http://www.gdxhedu.com/news/179230.html