
可以首先使用json包的loads函数对json数据进行解析,然后就可以像 *** 作Python数据格式一样对数据进行索引和遍历了。
import json
s = '{"aescCityList":null,"cityAllList":null,"cityJsonArray"'
data = jsonloads(s)
for city in data["cityJsonArray"]:
if city["cityId"] == 4:
print city
strLoan_LoanView = '''<script>
var Loan_LoanView={"business_id":"753510","lendersJson":"[348190,457619,1001141,1017913,1150545]"}
</script>'''
locJson = strLoan_LoanViewfind("lendersJson")
locJsonContent = locJson + len( "lendersJson" )
locJsonListBegin = strLoan_LoanView[ locJsonContent: ]find( "[" ) + locJsonContent
locJsonListEnd = strLoan_LoanView[ locJsonListBegin: ]find( "]" ) + locJsonListBegin
lstRecord = []
lstRecord = strLoan_LoanView[ locJsonListBegin + 1:locJsonListEnd ]split( "," )
大概就是这样的逻辑吧。
import json
from pprint import pprint
with open('datajson') as data_file:
data = jsonload(data_file)
value = data[key]
抓取js动态生成的内容的页面有两种基本的解决方案
1用dryscrape库动态抓取页面
js脚本是通过浏览器来执行并返回信息的,所以,抓取js执行后的页面,一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎,python提供了许多库可以调用这个引擎,dryscrape便是其中之一,它调用webkit引擎来处理包含js等的网页!
2 selenium web测试框架
selenium是一个web测试框架,它允许调用本地的浏览器引擎发送网页请求,所以,它同样可以实现抓取页面的要求。
import json
with open('whojson', 'r') as f:
data = jsonload(f)
dependencies = data['dependencies']
for k, v in dependenciesiteritems():
print(f'{k}@{v}')
json不是一种格式吗,能当爬虫用?你访问的url既然是空白的,那就说明不是这个url,注意找找究竟是哪个url,能访问并且显示想要的内容才是对的。最后就是如果能访问,爬虫却抓取不下来,就得考虑是不是被检测到爬虫了,需要修改请求头部等信息隐藏自身。
以上就是关于python 多层嵌套的json内容 怎么获取全部的内容,包括:python 多层嵌套的json内容 怎么获取、请问用python怎么把t.html文件里面json格式的数据读出来、python里怎样读取json文件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)